…e traballando as tecnoloxías lingüísticas 20!

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

A Fundación Elhuyar cumpre este ano a súa 50 aniversario, pero ademais cumpre 20 anos desde que en Elhuyar iniciamos a investigación, desenvolvemento e comercialización das tecnoloxías lingüísticas. 20 anos, coa única intención e o único obxectivo de desenvolver e pór a disposición da sociedade as tecnoloxías lingüísticas e da fala, tan necesarias como calquera outra lingua. Froito desta actividade son, entre outros, os nosos corpus, dicionarios, correctores, tradutores automáticos (Elia.eus), transcriptores automáticos (Jakin.eus) ou sintetizadores de fala que se converteron en imprescindibles para moitos e moi coñecidos.

eta-hizkuntza-teknologiak-lantzen-20
Ed. Elhuyar

O ano 2002 supuxo un fito importante para Elhuyar. O paso da asociación cultural que deu ese mesmo ano que cumpriu 30 anos á fundación. Pero, ademais, conscientes da súa importancia futura e anticipándose ao futuro, comezou a traballar no ámbito das tecnoloxías lingüísticas. E parece que cun non bastaba, e fíxoo en dúas frontes.

Eleka e Elhuyar I+D

Por unha banda, a creación da empresa Eleka. O Grupo IXA da UPV/EHU levaba varios anos realizando unha investigación básica en tecnoloxías do perfil para o eúscaro, e xa realizara o etiquetador (entón Euslem, logo Eustagger ), o corrector ( Xuxen ) e o tradutor automático ( Matxin ). Pero os traballos que a súa posta a disposición ou comercialización requiría (adaptacións a diferentes plataformas, novas versións, etc.) estaban fóra das tarefas habituais dun equipo de investigación universitario, polo que non era desexable e realizábase correctamente. Elhuyar mostrou a súa disposición a axudar a cubrir este buxán e así se creou conxuntamente a empresa Eleka. Desde entón, non só estes primeiros, senón que continuou comercializando moitas outras ferramentas baseadas nas tecnoloxías da linguaxe e da fala, até a actualidade. E co tempo, a investigación propia de Elhuyar foi orientando cada vez máis cara á socialización, en estreita e frutífera colaboración.

De feito, dentro de Elhuyar creouse un novo departamento, Elhuyar I+D, cuxo obxectivo era a investigación e desenvolvemento das tecnoloxías lingüísticas que necesitaban outros departamentos de Elhuyar. Nun principio orientou a súa actividade cara á elaboración de ferramentas especialmente para a elaboración de dicionarios, un departamento importante para Elhuyar: En 1996 viu claro o euskera -castelán/español-euskara Elhuyar Hiztegia era un referente, pretendíase estender a produción de dicionarios a máis idiomas, facer máis dicionarios terminolóxicos… Así, Elhuyar I+D iniciou traballos de recompilación de corpus textuais (por exemplo, corpus ZT), desenvolveu técnicas e ferramentas para a recompilación automática de corpus de diferentes tipos (monolingües xenerais e especializados, bilingües paralelos e comparables…), desenvolveu técnicas para a creación automática de ontologías, desenvolveu ferramentas para a construción automática de dicionarios desde corpus… Ademais destes, a serie pronto comezou a investigar sobre os materiais da procura e desenvolveu ferramentas como o buscador multilingüe existente na Ciencia. Como se pode observar, estas coñecidas ferramentas doutros departamentos de Elhuyar eran un excelente escaparate e reflexo do que facía Elhuyar I+D. Pero a actividade non se limitou a iso e diversificouse moito nos últimos 20 anos.

Como en todos os grupos de investigación, a investigación realizouse seguindo as tendencias internacionais en Elhuyar I+D, baseándose nas últimas investigacións académicas e achegando ao campo. Así, publicou máis de 100 artigos científicos en congresos ou revistas especializadas e realizáronse 7 teses doutorais no Departamento. Elhuyar I+D mantivo unha estreita e continua colaboración co Grupo IXA. E durante máis de 15 anos colaborou co Grupo IXA Taldea, o Grupo de Investigación Aholab da UPV/EHU e os grupos de investigación Tecnalia e Vicomtech en varios proxectos de colaboración en investigación estratéxica, en moitos casos como líderes.

Momento actual das redes neuronais profundas

Ao longo dos 20 anos produciuse unha gran evolución nas técnicas utilizadas nas tecnoloxías do perfil. Cando empezamos a isto, dominaban as técnicas que se chamaban de regras. Nestes casos, o coñecemento da lingua (palabras, normas de declinación…) situábase en linguaxes e estruturas comprensibles para os computadores. Con estes métodos, algunhas cousas facíanse moi ben (a mencionada etiquetaxe, a corrección ortográfica, a procura, etc.), pero non tan ben como a tradución automática ou o coñecemento da fala. Posteriormente apareceron métodos de aprendizaxe automática ou estadísticos que aprendían dos exemplos, pero tampouco con eles obtíñanse os resultados suficientes nalgunhas tarefas, polo menos en eúscaro.

Orai está a desenvolver un altofalante intelixente en eúscaro Mycroft. Ed. Elhuyar

Fai cinco ou seis anos apareceron en escena os métodos coñecidos como redes neuronais profundas (Deep Neural Networks) ou estudos profundos (Deep Learning). De feito, son un caso particular da aprendizaxe automática, e ademais as redes neuronais existían desde hai tempo, pero ao non dar bos resultados estaban descartadas. O avance da tecnoloxía permitiu o uso de redes neuronais máis grandes e complexas (de aí a denominación de “profundas”), a GPU ou os cartóns gráficos aceleraron moito os seus tempos de condución ou adestramento, e o gran avance da dixitalización e Internet proporcionou moitos máis datos para o seu adestramento e, en suma, moitas tarefas complexas, como a tradución automática ou a transcrición automática, cuxo resultado foi moito máis recente que até entón. E despois das probas vimos que conseguiamos o mesmo co eúscaro. Case dun día para outro, en moitos traballos os resultados son aceptables. Por fin!

Desde entón desenvolvemos con éxito diversas tecnoloxías para o eúscaro, que estamos a pór a disposición da sociedade: O tradutor automático Elia.eus, o transcriptor automático Jakin.eus, a síntese falada personalizada, os modelos neuronais de linguaxes tipo BERT, os chats bots, o altofalante intelixente en eúscaro Mycroft.eus… todos eles tiveron unha influencia notable na sociedade vasca e na situación dixital do eúscaro, e probablemente máis intensa no futuro.

O futuro é Orai

Coa explosión provocada polas redes neuronais profundas, a actividade de Elhuyar nas tecnoloxías da linguaxe e da fala e o equipo de traballo, que agrupan a persoas dedicadas á investigación e ao desenvolvemento de ferramentas e servizos, experimentou un importante crecemento.

E este ano, 2022, tan significativo para Elhuyar, demos outro salto significativo: O departamento de I+D de Elhuyar conta agora con novos nomes e marcas, as tecnoloxías Orai NLP. Pero é máis que un simple cambio de nome, tamén cambiou o ser. Sen abandonar o labor de creación dos recursos e ferramentas lingüísticas necesarias para o eúscaro, preténdese incrementar o esforzo na aplicación do potencial da intelixencia artificial e as tecnoloxías do perfil ás empresas vascas, mediante a realización dunha investigación a medida e contribuíndo a que estas sexan máis competitivas e superen as barreiras lingüísticas. Ademais, preténdese profundar máis no camiño xa emprendido para ser un vehículo demostrativo e de acompañamento para as outras linguas minoritarias, e, como desenvolvemos tradutores automáticos e sintetizadores de fala para os membros occitanos e aragoneses, quérese seguir elaborando máis ferramentas para eles ou para outras linguas minorizadas. Tal e como recolle a lema do aniversario de Elhuyar, 50 anos máis tarde en Orai miramos para que a sociedade vasca, o eúscaro e outras linguas pequenas teñan un futuro luminoso.

Elhuyar sempre soubo, atento á evolución da sociedade, gañar novos espazos para o eúscaro e responder ás novas necesidades do eúscaro. Fai 20 anos demostrou un forte instinto de futuro á hora de dar un paso firme e decidido a favor das tecnoloxías da linguaxe e, por fe ou por xenerosidade, mantivo a súa aposta ao longo destes anos (a pesar de ser anos unha travesía de verdadeiro deserto: crise, promesas de bos resultados que non se cumprían na tradución automática e outras tarefas…). Estamos a recibir os froitos, e nós mesmos estamos de parabén, porque en Elhuyar estamos a facer moitas cousas interesantes e sorprendentes, pero tamén o eúscaro, que está a adquirir ferramentas para non quedarme atrás no mundo dixital actual e futuro, e si permítenme o atrevemento, e isto que escribe esas liñas, porque desde case un principio tiven o privilexio e a honra de traballar no grupo de I+D das tecnoloxías lingüísticas de Elhuyar. Por tanto, felicidades e grazas, Elhuyar! E parabén tamén a Ori e ao grupo das tecnoloxías do perfil, e por moitos anos!

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila