El tamaño importa: grandes colecciones de textos, necesarias en el procesamiento del lenguaje

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Desde el inicio de los intentos de enseñar idiomas a las máquinas se han utilizado aproximaciones intuitivas y simplificadoras. Los conocimientos lingüísticos de los lingüistas pasaban a estructuras que las máquinas comprendían con la ayuda de los informáticos, y a través de ellas se trataba la lengua. Sin embargo, en los últimos años cada vez son más las técnicas basadas en grandes corpus y en métodos puramente estadísticos.
El tamaño importa: grandes colecciones de textos, necesarias en el procesamiento del lenguaje
01/11/2009 | Leturia Azkarate, Igor | Informático e investigador
(Foto: Guillermo Roa)

El procesamiento del lenguaje existe casi desde la creación de ordenadores. Las primeras máquinas electrónicas programables creadas en los años 40 del siglo pasado, debido a la Segunda Guerra Mundial, se utilizaron principalmente para descifrar los mensajes y romper los códigos, pero, tras la guerra, comenzó a trabajar mucho en el procesamiento del lenguaje, sobre todo en el campo de la traducción automática.

En aquellos inicios, sobre todo los matemáticos, utilizaban técnicas muy sencillas, influidas por las costumbres de la criptografía: básicamente pretendían obtener la traducción automática a través de los diccionarios y las modificaciones del orden de palabras. Pero pronto se dieron cuenta de que las lenguas eran más que eso, y que había que utilizar modelos lingüísticos más complejos. Así, se fueron incorporando lingüistas a los grupos y aplicando las teorías de Saussure y Chomsky. Desde entonces, y a lo largo de décadas, en todos los ámbitos del procesamiento del lenguaje (morfología, corrección ortográfica, sintaxis, desambiguación de significados...) ha predominado una aproximación: la adaptación del conocimiento basado en la intuición de los lingüistas a estructuras sencillas que pueden ser tratadas por los ordenadores (reglas, árboles, grafos, lenguajes de programación...).

Pero estos métodos también tienen sus limitaciones. Por un lado, los mejores lingüistas tampoco pueden tener en cuenta toda la casuística que ofrece una lengua; por otro, las lenguas tienen una gran complejidad y riqueza para expresarse mediante estructuras simples. Estas limitaciones son aún mayores en el lenguaje conversacional. Sin embargo, no había otro camino; teniendo en cuenta la capacidad de las máquinas de la época, ésta era la única manera de hablar con el lenguaje. Y con estas técnicas el progreso ha sido relativamente lento durante muchos años.

Llegada de corpus y estadística

Sin embargo, en las dos últimas décadas, un acercamiento más empírico está dominando el procesamiento del lenguaje, basado en la explotación de grandes colecciones de textos y en métodos estadísticos. En lugar de basarse en el conocimiento intuitivo, se utilizan grandes muestras lingüísticas reales, es decir, corpus, para tener en cuenta el mayor número de casos posibles de la lengua. Y sobre ellos se utilizan métodos como la estadística o el aprendizaje automático, con pocas técnicas lingüísticas. Incluso en aquellos casos en los que se intenta modelizar la lengua mediante estructuras computables, extraen los modelos automáticamente de los corpus. Por eso, trabajando con métodos estadísticos, para que una máquina pueda hablar, debe tener acceso a una enorme colección de textos y a recursos para trabajar con ella.

Este cambio metodológico se debe principalmente a dos factores. Por un lado, los ordenadores actuales, a diferencia de los anteriores, tienen la capacidad de manejar cantidades ingentes de datos. Por otro lado, hay más textos disponibles en formato electrónico que nunca, sobre todo desde la creación de Internet.

Así, se utilizan corpus y técnicas estadísticas en los correctores ortográficos (buscando contextos similares a la palabra incorrecta en corpus), en la traducción automática (utilizando memorias de traducción o textos de sitios web multilingües para obtener estadísticamente traducciones de palabras, sintagmas o frases lo más grandes posible), en la desambiguación de sentidos, en la extracción terminológica automática, etc. Y en general se puede decir que cuanto más grandes son los corpus, mejores resultados obtienen los sistemas. Por ejemplo, Franz Joseph Och de Google presentó en el congreso de la ACL (Association for Computational Linguistics) de 2005 su sistema de traducción automática estadística, entrenado sobre un corpus de 200.000 millones de palabras. Y desde entonces su sistema es la principal referencia en la traducción automática y la que gana todos los concursos. Algo parecido ocurre en otros ámbitos.

(Foto: iStockphoto.com/chieferu)

Futuro, hibridación

Sin embargo, esta metodología también tiene limitaciones. En algunas lenguas y tareas ya se utilizan corpus realmente gigantescos, y se puede decir que ya han alcanzado la cota superior, ya que son muy difíciles de seguir mejorando mucho más los resultados obtenidos. En otras lenguas y ámbitos no existe un corpus tan grande, y con métodos exclusivamente estadísticos no se pueden obtener resultados tan buenos.

Por ello, la tendencia reciente a mejorar los métodos estadísticos es combinarlos con las técnicas lingüísticas y crear métodos híbridos. Y en el futuro esa será la vía para avanzar en el procesamiento del lenguaje. Si queremos que las máquinas comprendan y traten el lenguaje en breve, y queremos que las máquinas hablen, será necesario que los matemáticos, informáticos y lingüistas vayan de la mano.

Adam Kilgarriff: "Las bases de datos gigantes a texto se pueden recopilar con relativa facilidad"
El uso de los corpus en el procesamiento del lenguaje ha supuesto una revolución en los últimos años, y sin duda el inglés Adam Kilgarriff ha sido testigo de ello. Ha trabajado desde hace años con corpus en inglés, y hoy en día es un referente en el uso de internet como corpus. Sketch Engine (www.sketchengine.co.uk) es uno de los fundadores de la herramienta que sirve para trabajar en esta línea. Participó en el congreso SEPLN 2009 sobre procesamiento del lenguaje organizado por el grupo IXA de la UPV en Donostia.
¿Cuáles son las principales dificultades para que una máquina pueda hablar?
Hay muchos. El hombre sabe muchas cosas. Desde que nacimos estamos aprendiendo, viendo, percibiendo... tenemos mucha sabiduría en la cabeza y sabemos cuál es la relación entre las ideas. La investigación de 50 años no es suficiente para que la inteligencia artificial pueda hacer lo mismo. Nosotros tenemos todos los datos en la cabeza. De ahí la mayor dificultad que tienen las máquinas para hablar: todavía no hemos acertado para que un montón de materiales sean útiles para el ordenador.
Por otro lado, tenemos muchos problemas relacionados con el lenguaje. Hay muchas formas de decir cualquier cosa, y para los ordenadores es muy difícil entender que dos frases expresan la misma idea. No comprenderá que las frases "Este lugar es maravilloso" y "Aquí hay una playa hermosa" expresan básicamente la misma idea. Lo contrario, una sola frase puede tener más de un significado. La frase "He visto un ratón" tiene diferente significado en el Palacio Miramar o en un laboratorio de biología.
Estos son los principales problemas generales (pero hay otros muchos pequeños).
(Foto: Guillermo Roa)
¿Es necesario utilizar la inteligencia artificial en el procesamiento del lenguaje?
El aprendizaje automático está siendo utilizado para cada vez más cosas en el procesamiento del lenguaje. Pero la inteligencia artificial no es sólo una cosa, sino que se han desarrollado muchas estrategias en diferentes ámbitos. La aproximación que me interesa para el tratamiento de la lengua es encontrar patrones a partir de muchos datos. Un niño lo hace, busca patrones en los sonidos, los significados, la gramática, etc. y es lo que crea el léxico del niño. Es nuestro trabajo. Por ejemplo, partimos de una palabra y con ella buscamos palabras que aparecen en el mismo contexto.
El aprendizaje automático, por ejemplo, permite buscar patrones y construir conocimiento por ordenador. Se trata, por tanto, de una forma de afrontar uno de los principales problemas del procesamiento del lenguaje, es decir, de resolver un caso en el que una sola palabra tiene más de un significado. Esto es posible si utilizamos corpus grandes.
¿El mejor corpus es Internet?
Depende del objetivo. En muchos de mis trabajos, cuantos más datos utilizo, mejor funciona. Pero la red también plantea algunas dificultades. Hay mucho spam. Por lo tanto, la mejor estrategia para gestionar estos datos es la que utilizan Google y Yahoo: recopilar muchos sitios web y buscar sólo el texto para trabajar con menos información (en un gigabyte entran pocos vídeos, pero hay mucha cantidad de texto). De esta forma se pueden recopilar de forma relativamente sencilla bases de datos gigantes a texto. En la actualidad, el inglés más grande tiene 5.500 millones de palabras. Y de este tipo se pueden encontrar muchos patrones.
El problema es que el lenguaje en el que una máquina conversará no debe ser, por ejemplo, el mismo estilo que escriben los científicos en los artículos. Debería ser el idioma en el que hablamos. Por lo tanto, no sirve para ello un gran corpus de textos escritos en artículos o periódicos. Se necesita un corpus grande basado en la conversación, basado en chats. Pero es difícil recopilar estos textos y la confidencialidad lo hace aún más difícil. Para nuestra investigación recogemos textos de blogs donde la escritura tiene menos formalidad.
Leturia Azkarate, Igor
Servicios
258
2009
Resultados
020
Robótica
Artículo
Servicios
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila