Diferencia entre revisiones de «Procesamiento de lenguajes naturales»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Revertidos los cambios de Pancho alvarez a la última edición de Dreitmen usando monobook-suite
Línea 1: Línea 1:
El '''Procesamiento de Lenguajes Naturales''' —abreviado '''PLN''', o '''NLP''' del idioma inglés ''Natural Language Processing''— es una subdisciplina de la [[Inteligencia Artificial]] y la rama ingenieril de la [[lingüística computacional]]. El PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de [[lenguaje natural|lenguajes naturales]]. El PLN no trata de la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación—. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos.
El procesamiento del lenguaje natural (PLN) es, muy probablemente, una de las empresas más atrevidas que los científicos han querido llevar a cabo mediante la utilización de computadoras. En nuestra opinión, el PLN es una empresa difícil debido, más que a las limitaciones de las computadoras, a que, a diferencia de las leyes de la física, los mecanismos con los que las personas procesamos el lenguaje natural se desconocen en buena medida. En este artículo explicaremos lo que es es el PLN, los distintos enfoques que se han utilizado para llevarlo a cabo, así como las deficiencias y limitaciones de cada uno de estos enfoques.


== Historia ==
=Procesamiento del lenguaje natural: Enfoques y limitaciones=
El Procesamiento del Lenguaje Natural (PLN) es una de las piedras angulares tempranas de la [[inteligencia artificial]] (IA). La [[Traducción automática]], por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». No obstante, el PLN ha desempeñado múltiples papeles en el contexto de la IA, y su importancia dentro de este campo ha crecido y decrecido a consecuencia de cambios tecnológicos y científicos. Los primeros intentos de traducir textos por ordenador a finales de los cuarenta y durante los cincuenta fracasaron debido a la escasa potencia de los ordenadores y a la escasa sofistificación lingüística. Sin embargo, los esfuerzos realizados en las décadas de los sesenta y los setenta para producir interfaces en lenguaje natural para bases de datos y otras aplicaciones informáticas obtuvieron un cierto grado significativo de éxito. La década de los ochenta y el principio de la de los noventa han visto resurgir la investigación en el terreno de la Traducción Automática.


== Dificultades en el procesamiento de lenguajes naturales ==
El término “Procesamiento del Lenguaje Natural” se usa normalmente, en un sentido amplio, para describir cualquier método que haga posible la manipulación del lenguaje natural por medio de computadoras [Bird, Klein, Loper, 2009]. Entendiéndose por lenguaje natural cualquier lenguaje usado por grupos humanos para comunicarse entre las personas. Ejemplos de lenguajes naturales son el español, el inglés y el portugués. Sin embargo, para ser más precisos con respecto a lo que es el PLN tomaremos la definición de Liddy [2001] que es la siguiente:
=== Ambigüedad ===
El lenguaje natural es inherentemente ambiguo a diferentes niveles:


*A nivel [[léxico]], una misma palabra puede tener varios significados, y la selección del apropiado se debe deducir a partir del contexto oracional o conocimiento básico. Muchas investigaciones en el campo del procesamiento de lenguajes naturales han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas.
''El PLN es un “conjunto de técnicas computacionales” bien fundadas, para representar y analizar textos en lenguaje natural en uno o más
*A nivel referencial, la resolución de [[anáfora]]s y [[catáfora]]s implica determinar la entidad lingüística previa o posterior a que hacen referencia.
“niveles de análisis lingüístico” con el objetivo de hacer posible un “procesamiento del lenguaje parecido al que hacemos las personas”,
*A nivel estructural, se requiere de la [[semántica]] para desambiguar la dependencia de los sintagmas preposicionales que conducen a la construcción de distintos [[árbol sintáctico|árboles sintácticos]]. Por ejemplo, en la frase ''Rompió el dibujo de un ataque de nervios''.
dentro de “rango de tareas y aplicaciones”.''
*A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo. Elementos tales como la [[Figura retórica|ironía]] tienen un papel importante en la interpretación del mensaje.


Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es la traducción de entradas en lenguaje natural a una representación interna sin ambigüedad, como [[árbol sintáctico|árboles de análisis]].
En esta definición hemos entrecomillado las nociones que consideramos clave para entender el PLN. A continuación explicaremos concisamente cada una de ellas.


=== Detección de separación entre las palabras ===
==Procesamiento del lenguaje para tareas y aplicaciones particulares==
En la lengua hablada no se suelen hacer pausas entre palabra y palabra. El lugar en el que se debe separar las palabras a menudo depende de cuál es la posibilidad que mantenga un sentido lógico tanto gramatical como contextual. En la lengua escrita, idiomas como el [[idioma chino mandarín|chino mandarín]] tampoco tienen separaciones entre las palabras.


=== Recepción imperfecta de datos ===
El enunciado “procesamiento del lenguaje parecido al que hacemos las personas” nos dice que el PLN es considerado una disciplina dentro de la Inteligencia Artificial (IA). Aunque el PLN tenga base en otras disciplinas como la lingüística, dado que se esfuerza en lograr un comportamiento parecido al de las personas, es apropiado considerarlo como una disciplina de la IA [Liddy, 2001].
Acentos extranjeros, regionalismos o dificultades en la producción del habla, errores de mecanografiado o expresiones no gramaticales, errores en la lectura de textos mediante [[OCR]]


== Componentes ==
Sin embargo la expresión “rango de tareas y aplicaciones” indica que el PLN no es una meta en sí mismo, excepto para los investigadores de la IA [Liddy, 2001]. Para el resto, el PLN es un medio mediante el que se lleva a cabo una tarea particular para una aplicación específica. En particular una tarea representa el objetivo general para el que se construye un sistema de PLN. Ejemplos de estas tareas son: la traducción automática (esta es la tarea más exigente del PLN) , la generación automática de resúmenes y la desambiguación automática. Una aplicación es la particularización de una tarea, para un dominio bien definido. Por ejemplo, la generación automática de resúmenes de las actas de las cortes federales de Canadá [Farzindar y Lapalme, 2004].
*[[Morfología lingüística|Análisis morfológico]]. El análisis de las palabras para extraer raíces, rasgos flexivos, unidades léxicas compuestas y otros fenómenos.
*[[Sintaxis|Análisis sintáctico]]. El análisis de la estructura sintáctica de la frase mediante una gramática de la lengua en cuestión.
*[[semántica lingüística|Análisis semántico]]. La extracción del significado de la frase, y la resolución de ambigüedades léxicas y estructurales.
*[[Pragmática|Análisis pragmático]]. El análisis del texto más allá de los límites de la frase, por ejemplo, para determinar los antecedentes referenciales de los pronombres.
*Planificación de la frase. Estructurar cada frase del texto con el fin de expresar el significado adecuado.
*Generación de la frase. La generación de la cadena lineal de palabras a partir de la estructura general de la frase, con sus correspondientes flexiones, concordancias y restantes fenómenos sintácticos y morfológicos.


== Aplicaciones ==
Por tanto podemos considerar que el PLN está orientado hacia objetivos prácticos, es decir, hacia la resolución de problemas específicos, muchos de ellos relacionados con la aplicación particular para la que se utiliza [Liddy, 2001].
Las principales tareas de trabajo en el PLN son:
*[[Síntesis del discurso]]
*[[Análisis del lenguaje]]
*[[Comprensión del lenguaje]]
*[[Reconocimiento del habla]]
*[[Síntesis de voz]]
*[[Generación de lenguajes naturales]]
*[[Traducción automática]]
*[[Respuesta a preguntas]]
*[[Recuperación de la información]]
*[[Extracción de la información]]


== Véase también ==
==Análisis lingüístico==
*[[Lenguaje natural]]

La siguiente noción que hay que tener clara es la de “niveles de análisis lingüístico”. Básicamente el análisis lingüístico es el proceso mediante el que una computadora puede comprender e interpretar un texto [Ferrari y Biagioli, 1986]. Este proceso, tal y como Dale [2001] establece, se puede descomponer en varias etapas o niveles que reflejan las distinciones lingüísticas establecidas entre sintaxis, semántica y pragmática. Esto implica que los enunciados que componen un texto son primero analizados en términos de su sintaxis. El análisis sintáctico provee un orden y una estructura apropiada para un análisis posterior en términos de semántica. Por último viene una etapa de análisis pragmático donde el significado del texto es completado de acuerdo al contexto.

Aunque está ampliamente reconocido que no es fácil separar claramente el procesamiento del lenguaje en cajas que representen a cada estrato, esta separación, según Dale [2000], sirve de ayuda pedagógica y constituye la base para modelos arquitectónicos que hacen manejable computacionalmente la tarea de analizar el lenguaje natural. Sin embargo esta división tripartita es demasiado simplista, sobre todo si tomamos en cuenta el procesamiento de datos lingüísticos reales, así como el estado actual del PLN. La figura 1, tomada de Dale [2000] presenta una división más realista del proceso de análisis.

[[Image:Fases_PLN.png|thumb|center|alt=Etapas del análisis en el procesamiento del lenguaje natural.| Figura 1. Etapas del análisis en el procesamiento del lenguaje natural.]]

==Enfoques para PLN==

La expresión “conjunto de técnicas computacionales” indica que existen diversos métodos, técnicas o enfoques computacionales para realizar el análisis lingüístico de un texto. Aunque no existe consenso sobre la categorización de estos enfoques, en este trabajo tomaremos la clasificación de Liddy [2001] que establece las siguientes categorías entre los distintos enfoques: a) simbólicos; b) estadísticos o empíricos; c) conexionistas e d) híbridos. Aquí sólo abordaremos los enfoques simbólicos y estadísticos, ya que en nuestra línea de trabajo no se abordan los dos últimos.

===Métodos simbólicos para PLN===

Los métodos simbólicos fueron los primeros en ser utilizados para PLN. El objetivo de una técnica simbólica es la representación explícita del conocimiento implicado en un texto escrito en lenguaje natural. Este conocimiento se encapsula en una base de conocimiento y es utilizado por un sistema de PLN como un medio para resolver el problema de procesar el lenguaje natural de manera automática (ver figura 2). Aunque a lo largo de la historia del PLN se han desarrollado varios métodos simbólicos, en este apartado sólo abordaremos los que, en nuestra opinión, mejor representan este enfoque.

[[Image:Enfoques_Simbolicos_PLN.png|thumb|center|alt=Representación gráfica del enfoque simbólico para PLN.| Figura 2. Representación gráfica del enfoque simbólico para PLN.]]


No podemos introducir los métodos simbólicos sin antes explicar lo que es una “base de conocimiento” y un “sistema de PLN”. En particular una “base de conocimiento” es un repositorio donde está representado de forma explícita y comprensible el conocimiento que determina el comportamiento de un sistema basado en conocimiento [Mark, Dukes-Schlossberg y Kerber, 1995]. Según Wong y Mylopoulos [1977], una base de conocimiento contiene grandes cantidades de conocimiento abstracto, por ejemplo conocimiento acerca de las relaciones entre departamentos donde un empleado y su administrador trabajan pero también conocimiento concreto, por ejemplo el departamento de cada empleado. La figura 3 muestra la representación gráfica de una base de conocimiento.

[[Image:Base_De_Conocimiento.png|thumb|center|alt=Representación gráfica de una base de conocimiento.|Figura 3. Representación gráfica de una base de conocimiento.]]

Esta definición tan laxa de lo que es una base de conocimiento se debe a que no existe en la literatura una definición general de este término. Además, tal como veremos más adelante, cada enfoque simbólico entiende de manera diferente este término y representa de manera distinta el conocimiento.
En cuanto al término “sistema de PLN”, dado que éste utiliza una base de conocimiento para realizar el análisis de un texto, podemos considerarlo un sistema basado en conocimiento.

En particular, aunque todos los programas contienen conocimiento acerca de un problema, lo que hace a un sistema basado en conocimiento diferente de los programas convencionales es que estos representan el conocimiento necesario para resolver un problema en un formato de alto nivel (i.e., la base conocimiento), separado físicamente de las instrucciones que componen un programa [Walker et al., 1987]. Adicionalmente la misma noción de sistema nos dice que un “sistema de PLN” divide un problema complejo en partes, donde cada parte representa la solución a un subproblema particular [Pfleeger, 2005]. Por tanto, tomando la figura 1 como base, podemos decir que un “sistema de PLN” está compuesto, por lo menos , por un conjunto de analizadores. La figura 4 muestra la representación gráfica de esta idea.

[[Image:Sistema_PLN_Enfoque_Simbolico.png|thumb|center|alt=Representación gráfica de un sistema de PLN basado en el enfoque simbólico.|Figura 4. Representación gráfica de un sistema de PLN basado en el enfoque simbólico.]]

====El enfoque simbólico-formal====

Un primer ejemplo de método simbólico es el que denominamos simbólico-formal. Este enfoque se basa en el uso de la lógica matemática como herramienta para procesar el lenguaje natural. Un ejemplo de lógica usada para PLN es la lógica de predicados de primer orden (LPPO). La LPPO, mediante una sintaxis y una semántica , nos permite expresar ciertas propiedades de conjuntos de objetos [Poesio, 2000]. Por tanto, con LPPO podemos representar la información expresada en los enunciados de un texto en lenguaje natural, estableciendo que un objeto es miembro de un conjunto.

Por ejemplo, “Juan es un marinero” puede representarse en LPPO por medio de un predicado “marinero” que denota un conjunto de objetos y el término “juan”. La fórmula atómica marinero(juan) expresa el enunciado anterior. Dentro de este enfoque, “juan” tiene que formar parte de la base de conocimiento del mundo que maneja el sistema para que “marinero(juan)” pueda tomar el valor “verdadero”.

Adicionalmente, usando predicados de mayor aridad , podemos asignar una interpretación semántica a enunciados que establecen que ciertos objetos están relacionados de alguna manera. Por ejemplo el enunciado “Juan está casado con María”, en LPPO, podría traducirse como “casado(juan,maría)”.En LPPO también podemos representar enunciados para establecer que algo no es parte de un conjunto, como en el enunciado “Juan no está casado” que se representaría como: ~casado(juan).

La interpretación semántica de enunciados para afirmar que un conjunto está incluido en otro también se puede representar en LPPO. Por ejemplo el enunciado “los perros son mamíferos” puede expresarse por medio del cuantificador universal ∀ de la siguiente forma: ∀x(perro(x) → mamífero(x)). La semántica de enunciados que establecen que un conjunto no es vacío también se puede representar en LPPO por medio del cuantificador existencial ∃. Verbigracia, el enunciado “tengo un carro” puede expresarse como: ∃x(carro(x) ∧ esDueñoDe(hablante,x)).

Usando estos mismos principios no sólo podemos representar oraciones de un lenguaje natural sino también construir una base de conocimiento. En este enfoque, una base de conocimiento es una colección de fórmulas lógicas que proveen una descripción parcial de la realidad [Brodie, Mylopoulos y Schmidt, 1984]. En otras palabras, una base de conocimiento es una representación lógica del universo de discurso (UdD) de un sistema de PLN cuya función es proporcionar al sistema una manera de decidir la veracidad o falsedad de una afirmación sobre un UdD particular [Hirst, 1992]. La figura 5 muestra la representación gráfica del enfoque simbólico-formal.

[[Image:Sistema_PLN_Enfoque_Formal.png|thumb|center|alt=Representación gráfica del enfoque simbólico-formal para PLN.| Figura 5. Representación gráfica del enfoque simbólico-formal para PLN.]]

Hay que resaltar que la característica esencial, inherente al enfoque simbólico-formal, es que no se puede particularizar, es decir, no hace una distinción entre aplicaciones de PLN. La razón es que este enfoque parte del supuesto de que, dada una base de conocimiento expresada en lógica y un sistema que pueda descomponer los enunciados en predicados lógicos, se puede realizar cualquier tipo de aplicación de PLN. En particular, como veremos más adelante, este argumento está basado en las características que ofrece la lógica como lenguaje de representación de conocimiento.


====El enfoque simbólico-lingüístico====

Otro ejemplo de método simbólico es el que denominamos simbólico-lingüístico. Este enfoque, aunque simbólico, es profundamente distinto al simbólico-formal. En el enfoque simbólico-formal las palabras están desprovistas de significado y sólo proveen las piezas para formar expresiones lógicas que representen los enunciados de un texto en lenguaje natural. Sin embargo, en el enfoque simbólico-lingüístico, las palabras son portadoras de una gran cantidad de información y constituyen los elementos básicos a partir de los que se determina el significado de un texto [Viegas, Mahesh, Nirenburg y Beale, 1999].

En particular el enfoque simbólico-lingüístico captura esa información en una base de conocimiento que se denomina recurso lingüístico. Sin embargo hay que ser precisos con este término, dado que hoy cualquier repositorio que contenga palabras es considerado un recurso lingüístico, como por ejemplo la Web semántica [Mellish y Sun, 2006].

Por tanto consideraremos que un recurso lingüístico para PLN es una estructura altamente sistemática que gobierna lo que las palabras significan y cómo pueden ser usadas [Jurafsky y Martin, 2008]. En otras palabras un recurso lingüístico hace que el contenido de las palabras sea manejable por una máquina (machine tractable), proporcionando para ello un conjunto de entradas formalizadas, junto con otros tipos de información lingüística , usadas por un grupo de programas, como un analizador sintáctico, un módulo para recuperación de información, etc. [Wilks, Slator y Guthrie, 1996].

Aunque lo ideal sería que este conjunto de entradas tuviera los mismos elementos para todo recurso lingüístico, cada escuela de pensamiento dentro de la lingüística computacional propone una teoría que determina los elementos que componen una entrada dentro de un recurso lingüístico. Ejemplos de estas teorías son la teoría de estructuras léxico-conceptuales de Jackendoff [1983], el léxico generativo de Pustejovsky [1991] y la teoría de semántica ontológica de Nirenburg y Raskin [2004]. El objetivo de todas estas teorías es especificar los elementos que determinan y conforman el significado de las palabras. Para ello proporcionan un marco detallado y formal que permite representar dichos significados para cualquier aplicación de PLN. Aunque no las discutiremos, la figura 6, tomada de Nirenburg, Raskin, Onyshkevych, [1995], muestra los elementos que conforman una entrada de un recurso lingüístico desde el punto de vista de la teoría de la semántica ontológica.


[[Image:Lexico_Mikrokosmos.png|thumb|center|alt=Elementos de una entrada para un recurso lingüístico basado en la teoría de semántica ontológica.| Figura 6. Elementos de una entrada para un recurso lingüístico basado en la teoría de semántica ontológica.]]

Aunque lo ideal sería que este conjunto de entradas tuviera los mismos elementos para todo recurso lingüístico, cada escuela de pensamiento dentro de la lingüística computacional propone una teoría que determina los elementos que componen una entrada dentro de un recurso lingüístico. Ejemplos de estas teorías son la teoría de estructuras léxico-conceptuales de Jackendoff [1983], el léxico generativo de Pustejovsky [1991] y la teoría de semántica ontológica de Nirenburg y Raskin [2004]. El objetivo de todas estas teorías es especificar los elementos que determinan y conforman el significado de las palabras. Para ello proporcionan un marco detallado y formal que permite representar dichos significados para cualquier aplicación de PLN. Aunque no las discutiremos, la figura 6, tomada de Nirenburg, Raskin, Onyshkevych, [1995], muestra los elementos que conforman una entrada de un recurso lingüístico desde el punto de vista de la teoría de la semántica ontológica.

Sin embargo, a pesar de la definición que hemos dado de recurso lingüístico, existen otros recursos que, aunque no se apegan a esta definición, han sido tratados y utilizados como recursos lingüísticos en el área de PLN. Un ejemplo de dichos recursos es WordNet [Miller, 1995], que está basado en estudios psicolingüísticos. De acuerdo a evidencia psicolingüística [Miller et al., 1990], el léxico de un angloparlante está divido por categorías sintácticas. Sin embargo, en WordNet sólo están representadas algunas de ellas: sustantivos, verbos, adjetivos, adverbios y elementos funcionales. Adicionalmente WordNet organiza las palabras de cada categoría por conjuntos denominados “Synsets”, donde cada conjunto está relacionado con el resto de conjuntos de la categoría por el siguiente grupo de relaciones: superordinación (hiperonimia), subordinación (hiponimia), meronimia y relaciones morfológicas. Si comparamos esto con la información de la figura 5, podemos deducir que, en términos de representación de información léxica y semántica, WordNet es un recurso lingüístico bastante pobre, lo que ha sido duramente criticado por los proponentes de teorías lingüísticas como Nirenburg, McShane y Beale [2004].

Un rasgo interesante del enfoque simbólico-lingüístico es que admite interpretaciones a nivel de implementación. En efecto, mientras que en el enfoque simbólico-formal la representación física del conocimiento es la misma en términos de estructura de software, en el enfoque simbólico-lingüístico no es así. Aunque los elementos que conforman un recurso lingüístico están bien establecidos y explicados, su implementación puede producir estructuras de software totalmente diferentes. Por ejemplo, dada la explicación que hemos dado de WordNet, un recurso lingüístico con esas características se puede implementar de varias maneras en base a estructuras de software diferentes, lo que, en nuestra opinión, hace muy difícil la integración de recursos . Por tanto, podemos decir que la representación gráfica del enfoque simbólico-lingüístico es la que presenta la figura 7.


[[Image:Enfoque_Simbolico_Linguistico.png|thumb|center|alt=Representación gráfica del enfoque simbólico-lingüístico.| Figura 7. Representación gráfica del enfoque simbólico-lingüístico.]]

Por último, los proponentes del enfoque simbólico-lingüístico que han desarrollado recursos lingüísticos para proyectos donde se ha gastado mucho dinero, tiempo y esfuerzo (e.g. Acquilex [Briscoe, 1991], WordNet [Miller et al., 1990] y Mikrokosmos [Mahesh y Nirenburg, 1995], sostienen un enfoque expansionista para estos recursos. Es decir, a pesar de que el proyecto original ha terminado, el recurso lingüístico creado ha de ser expandido para ampliar su cobertura, dominio por dominio [Miller, 1995; Spartz, Malaia y Falk, 2005; Raskin et al., 2005], hasta que todos los dominios estén representados en el recurso. De esta manera el recurso lingüístico puede ser útil para cualquier aplicación, pero asumiendo el coste de su expansión. La figura 8 muestra la representación gráfica de esta tesis expansionista.

[[Image:Tesis_Expansionista.png|thumb|center|alt=Representación gráfica de la tesis expansionista.| Figura 8. Representación gráfica de la tesis expansionista.]]

===Métodos estadísticos para PLN===

A diferencia de los enfoques simbólicos que hemos descrito, el enfoque estadístico divide al PLN por tareas. Ejemplos de estas tareas son: el etiquetado morfosintáctico (part-of-speech tagging), la clasificación automática de textos (text classification), el análisis sintáctico estadístico, la generación automática de resúmenes y la expansión de consultas. Además cada una de estas tareas se realiza para aplicaciones específicas, es decir, para dominios bien identificados y acotados. Un buen ejemplo de esta particularización es la generación automática de resúmenes de las actas de las cortes federales de Canadá [Farzindar y Lapalme, 2004].

Otra diferencia entre el enfoque estadístico y el simbólico es que en vez de construir con la ayuda de expertos un modelo de un dominio o de un fenómeno lingüístico en particular, este modelo o base de conocimiento es semiautomáticamente construido a partir de recursos lingüísticamente anotados denominados corpus textuales [Callison-Burch y Osborne, 2003], o a partir de una colección de documentos. El génesis de toda tarea de PLN basada en métodos estadísticos son las ideas desarrolladas para aplicaciones de recuperación de información. Aunque los enfoques estadísticos han avanzado mucho en los últimos años, la idea original sigue siendo la misma. Esta idea es la representación de estadísticas sobre los términos presentes en un conjunto de documentos en una matriz como la de la figura 9.


[[Image:Matriz_Incidencia_Terminos.png|thumb|center|alt=Matriz de incidencia de términos para recuperación de información.| Figura 9. Matriz de incidencia de términos para recuperación de información.]]

Esta simple estructura forma la base de conocimiento y no es otra cosa que una matriz de incidencia, o matriz binaria, donde cada elemento, excepto los títulos de las filas y de las columnas, sólo puede tomar el valor 1 o el 0. Los títulos de la columnas representan a un documento de la colección y los títulos de la filas los términos presentes en la colección. Si un término aparece en un documento la intersección término-documento se marca con un 1 y, si no aparece entonces, con un cero. Este tipo de matriz se usó para el primer modelo de recuperación llamado “modelo de recuperación booleano” [Manning, Raghavan y Schütze, 2008].

En este modelo, cada fila de la matriz es vista como un vector que proporciona información acerca de un término en particular. Por ejemplo, para recuperar los documentos donde aparecen los términos “Brutus”, “Caesar” pero no “Calpurnia”, se toman los vectores de estos términos, se complementa al último (i.e. “Calpurnia”) y por último se utiliza el operador “AND” para hacer una operación a nivel bit. El resultado es “100100” que nos indica los documentos donde aparecen “Brutus” y “Caesar” pero no “Calpurnia”.

Con el tiempo, esta representación ha ido evolucionando con el objetivo de discriminar o tratar de identificar mejor los documentos relevantes de los que no lo son. Por tanto, esta matriz ha pasado de tener unos y ceros a tener la frecuencia de los términos desde diferentes perspectivas; por ejemplo la frecuencia de un término en el documento (i.e., dft), en la colección (i.e., cft) y su frecuencia inversa (i.e., ift). Aunque no los discutiremos en este trabajo, esta evolución en el contenido de la matriz ha dado pie a la creación de modelos de recuperación más complejos, como el “modelo de espacio vectorial” [Manning, Raghavan y Schütze, 2008] o el principio de ranking probabilístico [Grossman y Frieder, 2004]. La figura 10 muestra una representación gráfica de este enfoque.

[[Image:Enfoque_Estadistico_PLN.png|thumb|center|alt=Representación gráfica del enfoque estadístico para PLN.| Figura 10. Representación gráfica del enfoque estadístido para PLN.]]

Aunque en otro tipo de tareas, como por ejemplo, la traducción automática basada en métodos estadísticos, las funciones estocásticas pueden ser mucho más complejas que las usadas en recuperación de información, estas se basan en el mismo principio. Por tanto la base de conocimiento será una matriz. La diferencia es que, en la traducción automática, cada fila tiene registros o tuplas formadas por una palabra en la lengua de origen, una palabra en la lengua destino y su probabilidad de traducción [Rohin, Ambati y Varma, 2008]. Sin embargo, igual que en la recuperación de información, esta base de conocimiento estadístico y probabilístico se puede usar en un sistema de PLN con funciones estocásticas así como de reordenamiento para obtener una traducción apropiada de un texto [Geer, 2005].

En particular la introducción de la noción de probabilidad añade más complejidad a la construcción de un sistema de PLN basado en el enfoque estadístico. El procesamiento ya no está basado simplemente en frecuencias sino en la probabilidad de que un término sea relevante para una consulta o el más apropiado estadísticamente, por ejemplo para una traducción. Sin embargo para lograr un procesamiento estadístico con probabilidades se necesita la utilización de técnicas de aprendizaje máquina.

De acuerdo a Brill y Mooney [1997], las técnicas de entrenamiento que más se han usado en este tipo de enfoque son el modelo oculto de Markov (Hidden Markov Model o HMM por sus siglas en inglés) y la gramática probabilística libre de contexto (Probabilistic Context Free Grammar o PCFG por sus siglas en inglés). Estos métodos adjuntan probabilidades a las transiciones de una máquina de estados finitos o a las producciones de una gramática formal, donde estas probabilidades se estiman en base a los datos del corpus. Si los datos de entrenamiento se han preanotado, el aprendizaje consiste simplemente en contar los eventos observados en los datos. Si el corpus no se ha anotado, entonce se aplica una estrategia de estimación-maximización, como por ejemplo el algoritmo “forward-backward” [Russel y Norvig, 2002] para los modelos de Markov o el algoritmo “Inside-Out” [Lari y Young, 1990] para las PCFGs. La figura 11 muestra una representación de esta variación del enfoque estadístico.

[[Image:Enfoque_Estadistico_PLN_Probabilidades.png|thumb|center|alt=Representación gráfica del enfoque estadístico para PLN con probabilidades.| Figura 11. Representación gráfica del enfoque estadístico para PLN.]]

Lo fundamental que hay que subrayar, con respecto a este enfoque, es que trata de resolver tareas específicas de PLN utilizando para ello el mínimo de información posible, mediante la representación no de conocimiento lingüístico y del mundo sino de los documentos. En particular la noción de mínimo conocimiento necesario para resolver un problema, es un tema central en este trabajo pues, en nuestra opinión, ésta es la manera más adecuada de abordar la resolución de problemas de PLN. En otras palabras, un sistema de PLN debe ser eficiente utilizando para ello sólo el conocimiento indispensable para llevar a cabo su tarea.

==Discusión==

De los distintos enfoques que hemos presentado, el que se presenta como más sólido debido a las características que ofrece es el simbólico-formal. En particular este enfoque ofrece tres características que lo hacen especialmente atractivo: verificabilidad, inferencia y expresividad [Jurafsky y Martin, 2008].

Por verificabilidad se entiende la habilidad de un sistema para determinar la veracidad o falsedad de las representaciones lógicas al compararlas con una base de conocimiento que contiene hechos sobre algún dominio en particular. Por ejemplo, dada la representación en LPPO del enunciado “¿sirven en Maharani kebabs?” , esta representación sería comparada con una base de conocimiento que podría contener hechos sobre un conjunto de restaurantes para determinar su veracidad o falsedad.

El término inferencia se refiere genéricamente a la habilitad de un sistema para sacar conclusiones válidas basadas en la representación formal de un texto y la información almacenada en su base de conocimiento. Utilizando esta idea, debe ser posible para un sistema obtener conclusiones sobre la veracidad o falsedad de proposiciones que no están explícitamente representadas en la base de conocimiento pero que son lógicamente derivables de las proposiciones que sí están en la base de conocimiento.

Por último la expresividad se refiere a la capacidad de la lógica para representar cualquier frase de interés para una aplicación concreta. Es aquí donde encontramos el talón de Aquiles de enfoque simbólico-formal, pues no es lo suficientemente expresivo como para poder representar todos los enunciados posibles de un texto en lenguaje natural.

En el caso particular de la LPPO, esta limitación surge porque la LPPO sólo puede capturar lo que es verdadero o falso aquí y ahora [Poesio, 2000]. Sin embargo, en un lenguaje natural podemos expresar mucho más que eso. Por ejemplo, podemos utilizar enunciados modales para hablar de posibilidades como en “Mis habilidades expositivas podrían ser mejores de lo que son”, o de eventos futuros como en la oración “llegaré a París mañana”, que no son representables en LPPO. Existen otros elementos lingüísticos que tampoco son representables en LPPO o en el mejor de los casos, de difícil representación. Según Poesio [2000] estos son a) los enunciados que utilizan el condicional contrafactual ; b) los adjetivos c) las expresiones anafóricas y d) los enunciados que utilizan cuantificadores que no pueden ser expresados en términos de ∀ o ∃ .

Estas limitaciones prueban, tal como Nirenburg [1995] establece, que la lógica no ofrece una cobertura completa de los fenómenos lingüísticos. Se puede argüir que existen lógicas más expresivas que la LPPO que permiten representar algunos de los inconvenientes antes mencionados, como por ejemplo, la lógica modal [Chellas, 1980]. Sin embargo, estas lógicas no están libres de controversia, inclusive entre sus proponentes [Zvolenszky, 2002]. Además todas estas lógicas sólo ofrecen un pequeño conjunto de operadores y cuantificadores más con respecto a la LPPO, pero siguen siendo insuficientes para representar toda la semántica del lenguaje natural.

El enfoque estadístico no sufre de las limitaciones del enfoque lógico-simbólico pues como hemos visto, no busca representar directamente conocimiento alguno. Los proponentes de este enfoque arguyen que sus sistemas son baratos y rápidos de producir, además de que son capaces de manejar la amplia variedad de entradas requerida por las aplicaciones prácticas. En particular, según Callison-Burch y Osborne [2003], el enfoque estadístico presenta las siguientes características:


1. Permite desarrollar prototipos rápidamente. Mientras que cualquier tipo de enfoque simbólico es extremadamente caro en términos de tiempo de desarrollo, los
sistemas estadísticos que son automáticamente entrenados usando un corpus, pueden ser producidos más rápidamente. Esta característica del enfoque estadístico
permite probar diferentes métodos y evaluar sus resultados dentro de un periodo de tiempo relativamente corto. Por ejemplo, Cucerzan y Yarowsky [2002] describen
el desarrollo de un etiquetador morfosintáctico (part-of-speech tagger) en un solo día. Un ejemplo mucho más ambicioso es el de Al-Onaizan et al. [2000], que usa
técnicas estadísticas para desarrollar un sistema de traducción automática en un periodo de 48 horas.
2. Los sistemas basados en el enfoque estadístico son robustos [Junqua y van Noord, 2001]. Aunque la noción de robustez tiene varios significados, en este contexto
significa que un sistema siempre producirá una salida sin importar lo distorsionado que esté el texto de entrada. Por ejemplo un sistema de clasificación de
textos es capaz de clasificar un texto inclusive si todas las palabras en el texto no están dentro del corpus de entrenamiento [Callison-Burch y Osborne, 2003].
En particular manejar todos los tipos de entrada es necesario para aplicaciones de uso práctico. Un sistema que no produce salida alguna, cuando es incapaz de
analizar un enunciado, no es de utilidad.
3. Un sistema basado en el enfoque estadístico es más barato de desarrollar que cualquier sistema basado en un enfoque simbólico. La razón es que un sistema
estadístico requiere menos conocimiento lingüístico debido a su naturaleza semiautomática. De acuerdo con Callison-Burch y Osborne [2003], esto se convierte en un
tema presupuestario en proyectos multilingües, pues la necesidad de contratar a expertos lingüistas, así como a expertos en el domino, se reduce drásticamente al
usar métodos estadísticos.

Aunque en sus inicios el enfoque estadístico rechazaba la utilización de conocimiento lingüístico que no estuviera presente en el corpus, hoy se reconoce que, sin introducir una cantidad significativa de conocimiento lingüístico y conceptual, los sistemas basados en el enfoque estadístico no pueden ir más lejos [Callison-Burch y Osborne, 2003]. En particular, según Dagan [2000], el enfoque estadístico ha utilizado recursos lingüísticos en dos áreas muy específicas: la recuperación de información y la desambiguación.
Un ejemplo de recuperación de información es la expansión de consultas (query expansion). La expansión de consultas es una técnica en la que una consulta es expandida o extendida con términos que están relacionados con el término dado por el usuario. Esto implica que el recurso lingüístico no sólo debe ser rico en términos sino también en significados y relaciones , dado que los términos son similares si están relacionados directamente con un significado particular. Algunos ejemplos de aplicaciones que han utilizado este enfoque son las de Liu, Liu y Meng [2004] y Bai et al. [2005].

En la desambiguación por medio de métodos estadísticos un recurso lingüístico es útil debido a lo dispersos que se encuentran los datos en un corpus [Dagan, 2000]. En particular, debido a esta dispersión, las coocurrencias de muchos términos no pueden estimarse de manera fiable a partir del corpus. Por ejemplo, consideremos los siguientes enunciados en inglés:

1. The bear ran away.
2. The pear ran way .

Según Dagan [2000], en un sistema estadístico puede darse la posibilidad de que, en el corpus de entrenamiento “bear ran” y “pear ran” no aparezcan. En este caso la información acerca de la similitud de las palabras puede ser útil. Por un lado saber que “bear” es un animal o similar a otros animales puede ayudarnos a recolectar estadísticas que apoyen la hipótesis de que los nombres de animales pueden preceder al verbo “ran”. Por otro lado este mismo enfoque nos permite establecer que los nombres de otras frutas que son similares a “pear”, no pueden preceder normalmente al verbo “ran”. Algunos ejemplos de aplicaciones que han usado este enfoque son las de Resnik [1995] y Jian y Conrath [1997].

Se puede argüir que el enfoque estadístico para el PLN es el que más y mejores resultados promete en el corto plazo. Sin embargo, tal como [Hajic y Hajicova, 2007] señalan, es un hecho desafortunado que los problemas de PLN que llevan a la utilización de corpus textuales para el modelado y el aprendizaje estadístico sean sólo una minoría en el portafolio de problemas importantes de la lingüística computacional. En otras palabras el enfoque estadístico sólo sirve y servirá para un grupo reducido de tareas y problemas de PLN.

Además se ha demostrado falsa la premisa que establece que el rendimiento de un sistema de PLN basado en el enfoque estadístico se incrementa de forma logarítmica si el corpus de entrenamiento se incrementa por dos. En efecto, tal como [Hajic y Hajicova, 2007] señalan, estudios recientes han demostrado que, aun si el tamaño del corpus aumenta notablemente el rendimiento ya no es logarítmico.

Para la mayoría de los problemas de PLN, tal como [Hajic y Hajicova, 2007] señalan de nuevo, necesitamos conocimiento lingüístico, por lo menos para dividir el problema en partes manejables. Por ejemplo en traducción automática se necesita por lo menos lematizar e identificar “frases”. Para la extracción de predicados se necesita conocer algunos aspectos de la estructura sintáctica del enunciado. Para la desambiguación se necesita saber cuál de todas las acepciones de la palabra en cuestión hay que desambiguar.

Como podemos ver, a falta de una lógica suficientemente expresiva para dar cuenta de todos los fenómenos presentes en el lenguaje natural y un enfoque estadístico que abarque un número mucho más grande de tareas de PLN, los recursos lingüísticos se presentan como "conditio sine qua non" para resolver la mayoría de los problemas de PLN planteados hasta la fecha. Sin embargo, aunque hay que decir sí a los recursos lingüísticos, no debemos decir sí a cualquiera, pero este será un tema que abordaremos en otro artículo.


==Referencias==

Al-Onaizan, Y.; Germann, U.; Hermjakob, U.; Knight, K.; Koehn, P. Marcu, D. y Yamada, K. Translating with scarce resources. En actas de la “National Conference on Articial Intelligence (AAAI)”. 2000.

Bachimont, B. Engagement sémantique et engagement ontologique: conception et réalisation d’ontologies en ingénierie des connaissances. En J. Charlet, M. Zacklad, G. Kassel, D. Bourigault (Eds).: Ingénierie des connaissances, évolutions récentes et nouveaux defies. Eyrolles, Collection Technique et Scientifique des Télécommunications. 2000.

Bai, D. Song, P. Bruza, J. Nie, and G. Cao. Query expansion using term relationships in language models for information retrieval. En actas de la “Fourteenth International Conference on Information and Knowledge Management (CIKM)”. 2005.

Barwise, J. y Cooper, R. Generalized Quantifiers and Natural Language. Linguistics and Philosophy 4(1). 1981.

Bird, S.; Klein, E.; Loper, E. Natural Language Processing with Python. O’Reilly Media, Inc. 2009.

Briscoe, T. Lexical Issues in NLP. En E. Klein & F. Veltman (eds.) Natural Language and Speech. The Netherlands: Springer-Verlag. 1991.

Brodie, M.; Mylopoulos, J. y Schmidt, J. On Conceptual Modelling. Springer-Verlag. 1984.

Callison-Burch, C. y Osborne, M. Statistical Natural Language Processing. En Ali Farghaly (Ed.): Handbook for Language Engineers. Center for the Study of Language and Information. 2003.

Chellas, B. Modal logic: An introduction. Cambridge University press. 1980.

Cucerzan, S. y Yarowsky, D. Bootstrapping a multilingual part-of-speech tagger in one person-day. En actas de la “CoNLL”. 2002.

Dagan, I. Contextual Word Similarity. En Dale, R.; Moisl, H. y Somers, H. (Eds.): Handbook of Natural Language Processing. Marcel Dekker. 2000.

Dale, R. Symbolic Approaches to Natural Language Processing. En Dale, R.; Moisl, H. y Somers, H. (Eds.): Handbook of Natural Language Processing. Marcel Dekker. 2000.

Farghaly, A. y Hedin, B. Domain Analysis and Representation. En En Ali Farghaly (Ed.): Handbook for Language Engineers. Center for the Study of Language and Information. 2003.

Farzindar, A. y Lapalme, G. LETSum, an automatic legal text summarizing system. En Gordon, T. (Ed.): Legal Knowledge and Information Systems, IOS Press, Amsterdam. 2004.

Geer, D. Statistical Machine Translation Gains Respect. Computer 38(10). 2005.

Grossman, D. y Frieder, O. Information Retrieval: Algorithms and Heuristics. Springer. 2004

Hajič, J. y Hajičová, E. Some of Our Best Friends Are Statisticians. In Proceeding of the 10th International Conference (TSD 2007). Lecture Notes in Computer Science 4629 Springer-Verlag. 2007.

Hirst, G. Semantic Interpretation and the Resolution of Ambiguity. Cambridge University Press. 1992.

Jiang, J. y Conrath, D. Semantic similarity based on corpus statistics and lexical taxonomy. En actas de la “International conference research on Computational Linguistics. 1997.

Junqua, J. y van Noord, G. Robustness in Language and Speech Technology, vol. 17 of Text, Speech and Language Technology. Kluwer Academic Publishers. 2001

Jurafsky, D. and Martin, J. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentince Hall. 2008.

Lari, K. y Young, S. J. The Estimation of Stochastic Context-Free Grammars Using the Inside-Outside Algorithm. Computer Speech and Language 4. 1990.

Liddy, E.D. Natural Language Processing. In Encyclopaedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc. 2001.

Liu, F. Liu, C. y W. Meng. An effective approach to document retrieval via utilizing Wordnet and recognizing phrases. In Proceedings of the 2004 ACM SIGIR Conference on Research and Development in Information Retrieval. 2004.

Mahesh, K. and Nirenburg, S. A Situated Ontology for Practical Natural Language Processing. En actas del taller sobre “Basic Ontological Issues and Knowledge Sharing”. 1995.

Manning, D. Raghavan, P. y Schütze, H. Introduction to Information Retrieval. Cambridge University Press. 2008.

Mark, W.; Dukes-Schlossberg, J.; Kerber, R. Ontological Commitment and Domain-Specific Architectures: Experience with Comet and Cosmos. Towards Very Large Knowledge Bases. IOS Press. 1995.

Matsumoto, Y. y Utsuro, T. Lexical Knowledge Acquisition.. En Dale, R.; Moisl, H. y Somers, H. (Eds.): Handbook of Natural Language Processing. Marcel Dekker. 2000.

Mellish, C. y Sun, X. The semantic web as a linguistic resource: Opportunities for natural language generation. Knowledge Based Systems 19(5). 2006.

Miller, G., Beckwith, R., Fellbaum, C., Gross, D., Miller, K.J. Introduction to WordNet: An On-line Lexical database. International Journal of Lexicography, 3. 1990.

Nirenburg, S. Bar Hillel and Machine Translation: Then and Now. En actas del “Fourth Bar-Ilan Symposium on Foundations of Artificial Intelligence. 1995.

Nirenburg, S. y Raskin, V. Ontological Semantics. The MIT Press. 2004.

Nirenburg, S.; Raskin, V. y Onyshkevych, B. Apologiae Ontologiae. En actas de la sexta conferencia internacional sobre temas teoréticos y metodológicos en la traducción automática. 1995.

Poesio, M. Semantic Analysis. En Dale, R.; Moisl, H. y Somers, H. (Eds.): Handbook of Natural Language Processing. Marcel Dekker. 2000.

Pustejovsky, J. The Generative Lexicon. Computational Linguistics, 17:4. 1991.

Resnik, P. Disambiguating noun groupings with respect to WordNet senses. En actas del “third workshop on very large corpora”. 1995.

Russel S. y Norvig P. Artificial Intelligence A Modern Approach. Segunda Edición. Prentice Hall. 2002.

Sowa J. Knowledge representation: logical, philosophical, and computational foundations. Brooks/Cole Publishing. 1999.

Wilks, Y., Slator, B. y Guthrie, L. Electric Words: Dictionaries, Computers and Meanings. MIT Press. 1996.

Wong, H. K. T. y Mylopoulos, J. Two Views of Data Semantics: Data Models in Artificial Intelligence and Database Management. INFOR, 15(3). 1977.

Zvolenszky, Z. Is a possible-worlds semantics of modality possible? A problem for Kratzer’s semantics. Semantics and Linguistic Theory XII. Cornell University Press 2002.


== Enlaces externos ==
== Enlaces externos ==
*[http://www.fdi.ucm.es/profesor/fernan/fsp/html/ontology_and_terminology.html Grupo de Investigación sobre ontologías y terminologías]
*[http://www.sepln.org/ Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)]
*[http://www.sepln.org/ Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)]
*[http://www.cs.famaf.unc.edu.ar/~pln/ Grupo de Procesamiento de Lenguaje Natural - FaMAF - Universidad Nacional de Córdoba - Argentina]
*[http://www.cs.famaf.unc.edu.ar/~pln/ Grupo de Procesamiento de Lenguaje Natural - FaMAF - Universidad Nacional de Córdoba - Argentina]
Línea 264: Línea 54:
*[http://www.corodebabel.com.ar/Linguistica-Computacional/modelos-de-comprension-produccion-del-lenguaje.html Modelos de comprensión y producción del lenguaje]
*[http://www.corodebabel.com.ar/Linguistica-Computacional/modelos-de-comprension-produccion-del-lenguaje.html Modelos de comprensión y producción del lenguaje]
*[http://es.geocities.com/recuperacionprocesamientoln// Procesamiento del lenguaje para la recuperación del información]
*[http://es.geocities.com/recuperacionprocesamientoln// Procesamiento del lenguaje para la recuperación del información]

== Referencias ==
*[http://cvc.cervantes.es/obref/congresos/sevilla/tecnologias/ponenc_carbonell.htm ''El procesamiento del lenguaje natural, tecnología en transición.'' Jaime Carbonell. Congreso de la Lengua Española, Sevilla, 1992]
*[http://cvc.cervantes.es/obref/congresos/sevilla/tecnologias/ponenc_ajordan.htm ''Lenguas y tecnologías de la información.'' Ángel G. Jordán. Congreso de la Lengua Española, Sevilla, 1992]
*[http://extractioninformationretrieval.googlepages.com/extraccionrecuperacioninformacion.html Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso]
*[http://www.youtube.com/watch?v=aHfhun5NWEs Entrevista a Antonio Valderrábanos (Bitext) sobre buscadores y procesamiento del lenguaje natural]


[[Categoría:Procesamiento de lenguaje natural| ]]
[[Categoría:Procesamiento de lenguaje natural| ]]

Revisión del 16:33 6 nov 2009

El Procesamiento de Lenguajes Naturales —abreviado PLN, o NLP del idioma inglés Natural Language Processing— es una subdisciplina de la Inteligencia Artificial y la rama ingenieril de la lingüística computacional. El PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de lenguajes naturales. El PLN no trata de la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación—. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos.

Historia

El Procesamiento del Lenguaje Natural (PLN) es una de las piedras angulares tempranas de la inteligencia artificial (IA). La Traducción automática, por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». No obstante, el PLN ha desempeñado múltiples papeles en el contexto de la IA, y su importancia dentro de este campo ha crecido y decrecido a consecuencia de cambios tecnológicos y científicos. Los primeros intentos de traducir textos por ordenador a finales de los cuarenta y durante los cincuenta fracasaron debido a la escasa potencia de los ordenadores y a la escasa sofistificación lingüística. Sin embargo, los esfuerzos realizados en las décadas de los sesenta y los setenta para producir interfaces en lenguaje natural para bases de datos y otras aplicaciones informáticas obtuvieron un cierto grado significativo de éxito. La década de los ochenta y el principio de la de los noventa han visto resurgir la investigación en el terreno de la Traducción Automática.

Dificultades en el procesamiento de lenguajes naturales

Ambigüedad

El lenguaje natural es inherentemente ambiguo a diferentes niveles:

  • A nivel léxico, una misma palabra puede tener varios significados, y la selección del apropiado se debe deducir a partir del contexto oracional o conocimiento básico. Muchas investigaciones en el campo del procesamiento de lenguajes naturales han estudiado métodos de resolver las ambigüedades léxicas mediante diccionarios, gramáticas, bases de conocimiento y correlaciones estadísticas.
  • A nivel referencial, la resolución de anáforas y catáforas implica determinar la entidad lingüística previa o posterior a que hacen referencia.
  • A nivel estructural, se requiere de la semántica para desambiguar la dependencia de los sintagmas preposicionales que conducen a la construcción de distintos árboles sintácticos. Por ejemplo, en la frase Rompió el dibujo de un ataque de nervios.
  • A nivel pragmático, una oración, a menudo, no significa lo que realmente se está diciendo. Elementos tales como la ironía tienen un papel importante en la interpretación del mensaje.

Para resolver estos tipos de ambigüedades y otros, el problema central en el PLN es la traducción de entradas en lenguaje natural a una representación interna sin ambigüedad, como árboles de análisis.

Detección de separación entre las palabras

En la lengua hablada no se suelen hacer pausas entre palabra y palabra. El lugar en el que se debe separar las palabras a menudo depende de cuál es la posibilidad que mantenga un sentido lógico tanto gramatical como contextual. En la lengua escrita, idiomas como el chino mandarín tampoco tienen separaciones entre las palabras.

Recepción imperfecta de datos

Acentos extranjeros, regionalismos o dificultades en la producción del habla, errores de mecanografiado o expresiones no gramaticales, errores en la lectura de textos mediante OCR

Componentes

  • Análisis morfológico. El análisis de las palabras para extraer raíces, rasgos flexivos, unidades léxicas compuestas y otros fenómenos.
  • Análisis sintáctico. El análisis de la estructura sintáctica de la frase mediante una gramática de la lengua en cuestión.
  • Análisis semántico. La extracción del significado de la frase, y la resolución de ambigüedades léxicas y estructurales.
  • Análisis pragmático. El análisis del texto más allá de los límites de la frase, por ejemplo, para determinar los antecedentes referenciales de los pronombres.
  • Planificación de la frase. Estructurar cada frase del texto con el fin de expresar el significado adecuado.
  • Generación de la frase. La generación de la cadena lineal de palabras a partir de la estructura general de la frase, con sus correspondientes flexiones, concordancias y restantes fenómenos sintácticos y morfológicos.

Aplicaciones

Las principales tareas de trabajo en el PLN son:

Véase también

Enlaces externos

Referencias