Falando da linguaxe das máquinas. Adoites de expertos

Roa Zubia, Guillermo

Elhuyar Zientzia

Reunimos a algúns expertos paira falar das tendencias no procesamiento da lingua e das peculiaridades do eúscaro respecto doutras linguas. Estivemos cos informáticos do grupo IXA da UPV Kepa Sarasola, I aki Alegria e Eneko Agirre. De feito, o grupo IXA organizou en Donostia o congreso SEPLN sobre o procesamiento da lingua deste ano e reuniu a numerosos expertos na materia.
Falando da linguaxe das máquinas. Adoites de expertos
01/11/2009 | Roia Zubia, Guillermo | Elhuyar Zientzia Komunikazioa
(Foto: Subir I non)
Cales son actualmente os principais retos do procesamiento da linguaxe?

Eneko Agirre: Eu creo que son cuestións relacionadas coa comprensión. A investigación levada a cabo nos últimos anos supuxo un gran salto cualitativo, pero iso non significa que a máquina nos entenda" agora. Eu creo que se deron pequenos pasos e as máquinas comprenden cousas en cada vez máis zonas. Que é un lugar, por exemplo. Cos apelidos sempre hai problema, Azpeitia é una persoa ou un lugar? Ou una empresa? Empezar a comprender estas cousas é un paso adiante. E aínda que ás persoas parézalles moi sinxelo, sen contexto son difíciles. Por tanto, o reto é ensinar á máquina fragmentos deste tipo de coñecementos.

De feito, os métodos matemáticos e estatísticos baseados en corpus están a tocar dalgunha maneira, están a facer o que podían facer e teñen dificultades paira avanzar. Os baseados nas regras tamén deron a súa e quedaron un pouco atrancados. Por tanto, eu creo que agora o reto é aprender as regras dos textos, e desde os corpus tratar de contrastalas aprendendo e contrastándoas dalgunha maneira, e saber que aprendeu ben e que mal.

Kepa Sarasola: Paira ver cales son os retos aos que nos enfrontamos na actualidade, poden existir dous niveis: uno de aplicacións e outro de tripas dentro da linguaxe, ferramentas básicas que logo se deben utilizar nas aplicacións. Pódese afirmar que as necesidades de léxico na actualidade atópanse case ao 100% cubertas. Fai 20 anos non había dicionarios computacionales, todos eran de papel. Agora tes en Internet o significado de todas as palabras, como se din noutras linguas, etc. Morfológicamente, paira linguas difíciles (como o eúscaro), o 95-98% está cheo. En sintaxe fai un 90% ben paira inglés.

Entón, a que nos imos? Pois á semántica e á pragmática. E paira iso aquí hai un cambio tremendo. Fai 20 anos, paira falar de calquera tema, non falamos de que. Hoxe, por exemplo, temos Wikipedia, ou Wordnet, Internet en si, etc. Agora temos novos recursos paira entender o significado dos textos. E iso abriunos una porta, pero aínda non se traballou moito.

Kepa Sarasola. Ed. : Subir I non.
Deuse forza no congreso SEPLN 2009?

I Aki Alegría: Ao Congreso acudiron relatores invitados que reflexionan sobre o tema. Por exemplo, o experto en sintaxe da Universidade de Uppsala, Joakim Nivre, sinalou que o problema da sintaxe non se resolve ao 100%, pero que está moi traballado. Seguindo coa semántica, Eneko presentou a situación á que se referiu. Tamén se presentou o proxecto KIOTO, un sistema que permite definir os significados de palabras e termos a través de una plataforma wiki. Tamén se falou da extracción de coñecemento dos datos. E na súa intervención, Horacio Rodríguez, da Universidade Politécnica de Cataluña, sinalou que temos que tentar retomar algúns dos retos da intelixencia artificial clásica, pero con máis datos e por novas vías. E eu tamén son un pouco desa opinión.

Neste camiño, Google obtivo moi bos resultados utilizando algúns métodos básicos de intelixencia artificial. Pero si non utilizan un coñecemento máis profundo, a curto prazo sairá pouca innovación.

Mencionou Google, até que punto estas grandes empresas están a investigar no procesamiento da linguaxe?

I. A. Eu creo que Google está a inventar aproveitar o que está feito. Inviste moito, saca bo partido, gañou fama e fixo una marca. Este coñecemento ou ferramentas poderían integrarse en aplicacións paira todos os públicos e a nivel industrial. Pero non achegan suficiente información e a demanda das aplicacións é menor do esperado.

I Aki Alegría. Ed. : Subir I non.

R. A. Na investigación non sabes quen virá coa boa idea. Aínda que haxa un gran equipo de investigación, quizá as boas ideas non saian de aí, non se pode predicir. Por iso, as grandes empresas, como Google, ademais de desenvolver os seus proxectos, fichan a investigadores de éxito.

Moita xente foi a Google. En Estados Unidos mencionaron que os mellores investigadores han ido a Google. Entre os mozos recibiuse moita xente e nas universidades notouse iso. A xente foi alí, logo dixeron que en Google non todo é tan bonito, pero moi poucos fixeron fama desde alí.

I. A. Nesta área detállanse as aplicacións que dan diñeiro. Killer applications. Historicamente incluíronse neste grupo tres tipos de aplicacións: tradución automática, proofing tools (é dicir, ferramentas paira editores de texto, principalmente correctores) e procura. Precisamente, o inicio de Google foi o mundo da procura. Agora estase tratando a tradución automática e ultimamente tamén se está traballando en sistemas operativos de teléfonos e en proofing tools. Dalgunha maneira, o risco pode ser que Google monopolice todas estas investigacións.

Ese risco afectará ao voso traballo, non?

C. S: Nós, por unha banda, estamos contentos porque se ve claramente que as técnicas que traballamos son útiles. Demóstrase unha e outra vez. Pero, doutra banda, preocúpanos que Google teña datos porque eles son os únicos. Eles saben o que a xente pide, o que busca. E que elixe a xente nos resultados da procura. Paira eles é moi importante paira mellorar o sistema. Pedindo una palabra a maioría da xente clica a cuarta opción e pouco despois esa cuarta será a mesma. Estes datos de uso son moi importantes, pero son propiedade de Google.

R. A. Google sabe que a innovación é o camiño paira avanzar. Dirixen todas as enerxías á innovación.

Eneko Agirre. Ed. : Subir I non.

I. A. E dan prioridade ao diñeiro. O diñeiro, alí, eles. E iso ten algunhas consecuencias. Por exemplo, Google busca moi mal en eúscaro. E dicir. Pero non lles interesa. Nun momento determinado decidiuse traballar cun máximo de corenta idiomas. No resto fan una procura literal. Iso é un problema, pero a marca ten moita forza. Ademais intégrase en moitas aplicacións, etc. Pero hoxe en día a aplicación Elebila busca moito mellor a versión en eúscaro.

En que situación atópase o eúscaro en relación con outras linguas paira o tratamento da lingua?

I. A. O inglés é a referencia. Por exemplo, veu ao congreso un investigador de Etiopía. Alí falan en lingua materna. É unha linguaxe semítico, teñen que utilizar outro tipo de teclado, pero ao non existir este tipo de teclados nos teléfonos móbiles, as mensaxes envíanse só en inglés.

Está claro que o eúscaro é pequeno. Desde un punto de vista economicista, a demanda é baixa, polo que hai problemas. A nivel de investigación, nós estamos satisfeitos. Nalgúns ámbitos, polo menos, somos una referencia paira outras linguas minoritarias. As aplicacións baseadas en corpus requiren investimentos paira conseguir os propios corpus.

R. A. Como lingua, o eúscaro ten una tipoloxía propia, pero non é especialmente difícil de computar se o comparamos con outras linguas. Aínda que a morfología é máis difícil de tratar, noutros ámbitos, como a fonética, é moi fácil. Cada lingua ten as súas diferenzas difíciles e sinxelas, pero en xeral, tendo en conta todas as características da lingua, a dificultade de todas as linguas é similar.

I subir Ib non

E paira comparar con outras linguas, hai que ver cada lingua en función do número de falantes. Eu creo que o eúscaro está bastante preto das linguas que máis se falan. A diferenza máis significativa é o pequeno tamaño dos corpus utilizados, que eu creo que é a principal carencia en eúscaro. En inglés, por exemplo, hai corpus de miles de millóns de palabras. E as máquinas aprenden de grandes corpus. Pero, dependendo dos recursos, estamos na parte superior da lista.

C. S: En canto ao número de falantes, vin o eúscaro na lista 256, e na investigación estamos entre os 50 primeiros. Por que? Porque houbo axudas oficiais, e creo que os que estamos aquí facemos as cousas ordenadas. Fixemos as cousas dunha maneira ordenada e planificada. As ferramentas e recursos que xeras nun momento determinado son valiosos no futuro. Traballamos de forma incremental.

O grupo IXA traballa no procesamiento do eúscaro. Non son os únicos. Pero un robot é investigador de referencia no esforzo por falar en eúscaro. Se as grandes empresas, por exemplo, quixesen desenvolver aplicacións en eúscaro, probablemente deberían dirixirse a elas. Entre outros, participaron no desenvolvemento do proxecto ANHITZ, creando un personaxe virtual que responde a preguntas científicas. En definitiva, un robot que fala. É un bo exemplo do procesamiento da linguaxe; visto desde fóra, ANHITZ non parece una aplicación revolucionaria, xa que non responde tan rápido e facilmente como un robot de ficción. Pola contra, quen coñece o traballo que hai detrás do proxecto realiza una valoración moi positiva. Hai moito que facer no procesamiento da linguaxe, non hai dúbida. Pero o que está feito é un traballo enorme, non hai dúbida diso.

Imma Hernaez: "As voces dos sistemas de sínteses actuais son perfectamente comprensibles"
Imma Hernaez traballa no laboratorio Aholkularitza da UPV/EHU. Experto en sistemas de recoñecemento e síntese de voz por máquinas. Entre outras cousas, participou no proxecto ANHITZ, realizando un personaxe virtual que responde a preguntas científicas. Neste proxecto, Hernaez e o persoal do laboratorio Aholab desenvolveron sistemas de recoñecemento e voz dos personaxes.
Cales son as principais dificultades paira coñecer e sintetizar voz?
As dificultades non son as mesmas no coñecemento ou na síntese. Paira coñecer a voz, a propia variedade lingüística dificulta o traballo, xa que existen dialectos, acentos, rexistros, etc. Ademais, a voz é moi variable segundo diversos factores. O estado de ánimo da persoa, a saúde, a hora do día e outros factores cambian a fala. Ademais, hai problemas da contorna como o ruído, a calidade dos sistemas de audio, etc.
O difícil é dotar á voz sintética de naturalidade, espontaneidade e humanidade, é dicir, dotar á voz da 'identidade' que queremos.
Que crees que hai superado e que non?
(Foto: Imma Hernaez)
No coñecemento da voz, cando o vocabulario a coñecer é reducido e dáse voz ao sistema, obtéñense resultados moi satisfactorios, a pesar das condicións ambientais adversas. Os problemas comezan cando se afasta destas condicións: paira una conversación instantánea (é dicir, con vocabulario sen restrinxir e que se corta de forma continua), aínda non se conseguen resultados moi satisfactorios. É obrigatorio o uso dun micrófono tipo “piloto” e o sistema adáptase á voz do orador, é dicir, fórmase con mostras de voz do orador.
As voces dos sistemas de sínteses actuais son perfectamente comprensibles. Tamén se consegue a naturalidade da voz cando as frases ou os parágrafos son breves e utilízase un estilo neutro na lectura de textos. Á hora de expresar a emoción ou expresividade, con todo, os sistemas de sínteses fracasan polo momento; os sistemas actuais próximos á naturalidade están baseados en corpus, é dicir, utilizan bases de datos xigantescas, e a calidade final depende do tamaño destas bases de datos: canto máis grande sexa a base de datos, mellor a calidade.
Ademais, é sempre a voz dunha soa persoa e si quérese cambiar de voz débense crear novas bases de datos. Por tanto, o mellor método sería utilizar bases de datos máis pequenas, pero paira crear diferentes voces, modificar certos parámetros no modelo utilizado paira crear voz, aínda que de momento non sabemos exactamente que parámetros deben ter, paira evitar perdas significativas na calidade do sinal.
Como está o eúscaro comparado con outras linguas? (Non sei si é unha linguaxe específica en si mesmo desde o punto de vista da pronuncia).
Desde o punto de vista da investigación, o eúscaro non está moi lonxe doutras linguas, sobre todo se nos centramos en métodos e técnicas. Desde o punto de vista comercial (sobre todo no ámbito do coñecemento), a construción de sistemas comerciais require de bases de datos estándar por parte das empresas desarrolladoras paira a formación e testeo de sistemas que permitan utilizar o software que utilizan con outras linguas. E temos moi poucos. Por outra banda, os desenvolvementos realizados até o momento limitáronse ao euskara unificado en xeral, e a realidade do eúscaro falado non é a mesma que a das nosas linguas veciñas (por exemplo, a lingua principal de Europa). A distancia entre o batua e os dialectos pode ser moi grande, e se os sistemas de coñecemento non se axustan aos dialectos, é posible que só una parte limitada da sociedade utilíceos.
Ponte Roia, Guillermo
Servizos
258
2009
Resultados
021
Robótica
Artigo
Outros
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila