Hablando del lenguaje de las máquinas. Suelas de expertos

Roa Zubia, Guillermo

Elhuyar Zientzia

Hemos reunido a algunos expertos para hablar de las tendencias en el procesamiento de la lengua y de las peculiaridades del euskera respecto a otras lenguas. Hemos estado con los informáticos del grupo IXA de la UPV Kepa Sarasola, I aki Alegria y Eneko Agirre. De hecho, el grupo IXA ha organizado en Donostia el congreso SEPLN sobre el procesamiento de la lengua de este año y ha reunido a numerosos expertos en la materia.
Hablando del lenguaje de las máquinas. Suelas de expertos
01/11/2009 | Roa Zubia, Guillermo | Elhuyar Zientzia Komunikazioa
(Foto: Subir I no)
¿Cuáles son actualmente los principales retos del procesamiento del lenguaje?

Eneko Agirre: Yo creo que son cuestiones relacionadas con la comprensión. La investigación llevada a cabo en los últimos años ha supuesto un gran salto cualitativo, pero eso no significa que la máquina nos "entienda" ahora. Yo creo que se han dado pequeños pasos y las máquinas comprenden cosas en cada vez más zonas. Qué es un lugar, por ejemplo. Con los apellidos siempre hay problema, Azpeitia ¿es una persona o un lugar? ¿O una empresa? Empezar a comprender estas cosas es un paso adelante. Y aunque a las personas les parezca muy sencillo, sin contexto son difíciles. Por tanto, el reto es enseñar a la máquina fragmentos de este tipo de conocimientos.

De hecho, los métodos matemáticos y estadísticos basados en corpus están tocando de alguna manera, están haciendo lo que podían hacer y tienen dificultades para avanzar. Los basados en las reglas también dieron la suya y quedaron un poco atascados. Por lo tanto, yo creo que ahora el reto es aprender las reglas de los textos, y desde los corpus tratar de contrastarlas aprendiendo y contrastándolas de alguna manera, y saber qué ha aprendido bien y qué mal.

Kepa Sarasola: Para ver cuáles son los retos a los que nos enfrentamos en la actualidad, pueden existir dos niveles: uno de aplicaciones y otro de tripas dentro del lenguaje, herramientas básicas que luego se deben utilizar en las aplicaciones. Se puede afirmar que las necesidades de léxico en la actualidad se encuentran casi al 100% cubiertas. Hace 20 años no había diccionarios computacionales, todos eran de papel. Ahora tienes en Internet el significado de todas las palabras, cómo se dicen en otras lenguas, etc. Morfológicamente, para lenguas difíciles (como el euskera), el 95-98% está lleno. En sintaxis hace un 90% bien para inglés.

Entonces, ¿a qué nos vamos? Pues a la semántica y a la pragmática. Y para ello aquí hay un cambio tremendo. Hace 20 años, para hablar de cualquier tema, no hablamos de qué. Hoy, por ejemplo, tenemos Wikipedia, o Wordnet, Internet en sí, etc. Ahora tenemos nuevos recursos para entender el significado de los textos. Y eso nos ha abierto una puerta, pero todavía no se ha trabajado mucho.

Kepa Sarasola. Ed. : Subir I no.
¿Se ha dado fuerza en el congreso SEPLN 2009?

I Aki Alegría: Al Congreso acudieron ponentes invitados que reflexionan sobre el tema. Por ejemplo, el experto en sintaxis de la Universidad de Uppsala, Joakim Nivre, señaló que el problema de la sintaxis no se resuelve al 100%, pero que está muy trabajado. Siguiendo con la semántica, Eneko presentó la situación a la que se ha referido. También se presentó el proyecto KIOTO, un sistema que permite definir los significados de palabras y términos a través de una plataforma wiki. También se habló de la extracción de conocimiento de los datos. Y en su intervención, Horacio Rodríguez, de la Universidad Politécnica de Cataluña, señaló que tenemos que intentar retomar algunos de los retos de la inteligencia artificial clásica, pero con más datos y por nuevas vías. Y yo también soy un poco de esa opinión.

En este camino, Google ha obtenido muy buenos resultados utilizando algunos métodos básicos de inteligencia artificial. Pero si no utilizan un conocimiento más profundo, a corto plazo saldrá poca innovación.

Ha mencionado Google, ¿hasta qué punto estas grandes empresas están investigando en el procesamiento del lenguaje?

I. A. Yo creo que Google está inventando aprovechar lo que está hecho. Invierte mucho, saca buen partido, ha ganado fama y ha hecho una marca. Este conocimiento o herramientas podrían integrarse en aplicaciones para todos los públicos y a nivel industrial. Pero no aportan suficiente información y la demanda de las aplicaciones es menor de lo esperado.

I Aki Alegría. Ed. : Subir I no.

R. A. En la investigación no sabes quién vendrá con la buena idea. Aunque haya un gran equipo de investigación, quizá las buenas ideas no salgan de ahí, no se puede predecir. Por ello, las grandes empresas, como Google, además de desarrollar sus proyectos, fichan a investigadores de éxito.

Mucha gente ha ido a Google. En Estados Unidos han mencionado que los mejores investigadores han ido a Google. Entre los jóvenes se ha recibido mucha gente y en las universidades se ha notado eso. La gente ha ido allí, luego han dicho que en Google no todo es tan bonito, pero muy pocos han hecho fama desde allí.

I. A. En esta área se detallan las aplicaciones que dan dinero. Killer applications. Históricamente se han incluido en este grupo tres tipos de aplicaciones: traducción automática, proofing tools (es decir, herramientas para editores de texto, principalmente correctores) y búsqueda. Precisamente, el inicio de Google fue el mundo de la búsqueda. Ahora se está tratando la traducción automática y últimamente también se está trabajando en sistemas operativos de teléfonos y en proofing tools. De alguna manera, el riesgo puede ser que Google monopolice todas estas investigaciones.

Ese riesgo afectará a vuestro trabajo, ¿no?

C. S: Nosotros, por un lado, estamos contentos porque se ve claramente que las técnicas que trabajamos son útiles. Se demuestra una y otra vez. Pero, por otro lado, nos preocupa que Google tenga datos porque ellos son los únicos. Ellos saben lo que la gente pide, lo que busca. Y qué elige la gente en los resultados de la búsqueda. Para ellos es muy importante para mejorar el sistema. Pidiendo una palabra la mayoría de la gente clica la cuarta opción y poco después esa cuarta será la misma. Estos datos de uso son muy importantes, pero son propiedad de Google.

R. A. Google sabe que la innovación es el camino para avanzar. Dirigen todas las energías a la innovación.

Eneko Agirre. Ed. : Subir I no.

I. A. Y dan prioridad al dinero. El dinero, allí, ellos. Y eso tiene algunas consecuencias. Por ejemplo, Google busca muy mal en euskera. Y se les ha dicho. Pero no les interesa. En un momento determinado se decidió trabajar con un máximo de cuarenta idiomas. En el resto hacen una búsqueda literal. Eso es un problema, pero la marca tiene mucha fuerza. Además se integra en muchas aplicaciones, etc. Pero hoy en día la aplicación Elebila busca mucho mejor la versión en euskera.

¿En qué situación se encuentra el euskera en relación con otras lenguas para el tratamiento de la lengua?

I. A. El inglés es la referencia. Por ejemplo, vino al congreso un investigador de Etiopía. Allí hablan en lengua materna. Es un lenguaje semítico, tienen que utilizar otro tipo de teclado, pero al no existir este tipo de teclados en los teléfonos móviles, los mensajes se envían sólo en inglés.

Está claro que el euskera es pequeño. Desde un punto de vista economicista, la demanda es baja, por lo que hay problemas. A nivel de investigación, nosotros estamos satisfechos. En algunos ámbitos, al menos, somos una referencia para otras lenguas minoritarias. Las aplicaciones basadas en corpus requieren inversiones para conseguir los propios corpus.

R. A. Como lengua, el euskera tiene una tipología propia, pero no es especialmente difícil de computar si lo comparamos con otras lenguas. Aunque la morfología es más difícil de tratar, en otros ámbitos, como la fonética, es muy fácil. Cada lengua tiene sus diferencias difíciles y sencillas, pero en general, teniendo en cuenta todas las características de la lengua, la dificultad de todas las lenguas es similar.

I subir Ib no

Y para comparar con otras lenguas, hay que ver cada lengua en función del número de hablantes. Yo creo que el euskera está bastante cerca de las lenguas que más se hablan. La diferencia más significativa es el pequeño tamaño de los corpus utilizados, que yo creo que es la principal carencia en euskera. En inglés, por ejemplo, hay corpus de miles de millones de palabras. Y las máquinas aprenden de grandes corpus. Pero, dependiendo de los recursos, estamos en la parte superior de la lista.

C. S: En cuanto al número de hablantes, vi el euskera en la lista 256, y en la investigación estamos entre los 50 primeros. ¿Por qué? Porque ha habido ayudas oficiales, y creo que los que estamos aquí hacemos las cosas ordenadas. Hemos hecho las cosas de una manera ordenada y planificada. Las herramientas y recursos que generas en un momento determinado son valiosos en el futuro. Trabajamos de forma incremental.

El grupo IXA trabaja en el procesamiento del euskera. No son los únicos. Pero un robot es investigador de referencia en el esfuerzo por hablar en euskera. Si las grandes empresas, por ejemplo, quisieran desarrollar aplicaciones en euskera, probablemente deberían dirigirse a ellas. Entre otros, han participado en el desarrollo del proyecto ANHITZ, creando un personaje virtual que responde a preguntas científicas. En definitiva, un robot que habla. Es un buen ejemplo del procesamiento del lenguaje; visto desde fuera, ANHITZ no parece una aplicación revolucionaria, ya que no responde tan rápido y fácilmente como un robot de ficción. Por el contrario, quien conoce el trabajo que hay detrás del proyecto realiza una valoración muy positiva. Hay mucho que hacer en el procesamiento del lenguaje, no hay duda. Pero lo que está hecho es un trabajo enorme, no hay duda de ello.

Imma Hernaez: "Las voces de los sistemas de síntesis actuales son perfectamente comprensibles"
Imma Hernaez trabaja en el laboratorio Aholkularitza de la UPV/EHU. Experto en sistemas de reconocimiento y síntesis de voz por máquinas. Entre otras cosas, ha participado en el proyecto ANHITZ, realizando un personaje virtual que responde a preguntas científicas. En este proyecto, Hernaez y el personal del laboratorio Aholab desarrollaron sistemas de reconocimiento y voz de los personajes.
¿Cuáles son las principales dificultades para conocer y sintetizar voz?
Las dificultades no son las mismas en el conocimiento o en la síntesis. Para conocer la voz, la propia variedad lingüística dificulta el trabajo, ya que existen dialectos, acentos, registros, etc. Además, la voz es muy variable según diversos factores. El estado de ánimo de la persona, la salud, la hora del día y otros factores cambian el habla. Además, hay problemas del entorno como el ruido, la calidad de los sistemas de audio, etc.
Lo difícil es dotar a la voz sintética de naturalidad, espontaneidad y humanidad, es decir, dotar a la voz de la 'identidad' que queremos.
¿Qué crees que hay superado y qué no?
(Foto: Imma Hernaez)
En el conocimiento de la voz, cuando el vocabulario a conocer es reducido y se da voz al sistema, se obtienen resultados muy satisfactorios, a pesar de las condiciones ambientales adversas. Los problemas comienzan cuando se aleja de estas condiciones: para una conversación instantánea (es decir, con vocabulario sin restringir y que se corta de forma continua), todavía no se consiguen resultados muy satisfactorios. Es obligatorio el uso de un micrófono tipo “piloto” y el sistema se adapta a la voz del orador, es decir, se forma con muestras de voz del orador.
Las voces de los sistemas de síntesis actuales son perfectamente comprensibles. También se consigue la naturalidad de la voz cuando las frases o los párrafos son breves y se utiliza un estilo neutro en la lectura de textos. A la hora de expresar la emoción o expresividad, sin embargo, los sistemas de síntesis fracasan por el momento; los sistemas actuales próximos a la naturalidad están basados en corpus, es decir, utilizan bases de datos gigantescas, y la calidad final depende del tamaño de estas bases de datos: cuanto más grande sea la base de datos, mejor la calidad.
Además, es siempre la voz de una sola persona y si se quiere cambiar de voz se deben crear nuevas bases de datos. Por lo tanto, el mejor método sería utilizar bases de datos más pequeñas, pero para crear diferentes voces, modificar ciertos parámetros en el modelo utilizado para crear voz, aunque de momento no sabemos exactamente qué parámetros deben tener, para evitar pérdidas significativas en la calidad de la señal.
¿Cómo está el euskera comparado con otras lenguas? (No sé si es un lenguaje específico en sí mismo desde el punto de vista de la pronunciación).
Desde el punto de vista de la investigación, el euskera no está muy lejos de otras lenguas, sobre todo si nos centramos en métodos y técnicas. Desde el punto de vista comercial (sobre todo en el ámbito del conocimiento), la construcción de sistemas comerciales requiere de bases de datos estándar por parte de las empresas desarrolladoras para la formación y testeo de sistemas que permitan utilizar el software que utilizan con otras lenguas. Y tenemos muy pocos. Por otra parte, los desarrollos realizados hasta el momento se han limitado al euskara unificado en general, y la realidad del euskera hablado no es la misma que la de nuestras lenguas vecinas (por ejemplo, la lengua principal de Europa). La distancia entre el batua y los dialectos puede ser muy grande, y si los sistemas de conocimiento no se ajustan a los dialectos, es posible que sólo una parte limitada de la sociedad los utilice.
Puente Roa, Guillermo
Servicios
258
2009
Resultados
021
Robótica
Artículo
Otros
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila