La grandària importa: grans col·leccions de textos, necessàries en el processament del llenguatge

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Des de l'inici dels intents d'ensenyar idiomes a les màquines s'han utilitzat aproximacions intuïtives i simplificadores. Els coneixements lingüístics dels lingüistes passaven a estructures que les màquines comprenien amb l'ajuda dels informàtics, i a través d'elles es tractava la llengua. No obstant això, en els últims anys cada vegada són més les tècniques basades en grans corpus i en mètodes purament estadístics.
La grandària importa: grans col·leccions de textos, necessàries en el processament del llenguatge
01/11/2009 | Leturia Azkarate, Igor | Informático i investigador
(Foto: Guillermo Roa)

El processament del llenguatge existeix gairebé des de la creació d'ordinadors. Les primeres màquines electròniques programables creades en els anys 40 del segle passat, a causa de la Segona Guerra Mundial, es van utilitzar principalment per a desxifrar els missatges i trencar els codis, però, després de la guerra, va començar a treballar molt en el processament del llenguatge, sobretot en el camp de la traducció automàtica.

En aquells inicis, sobretot els matemàtics, utilitzaven tècniques molt senzilles, influïdes pels costums de la criptografia: bàsicament pretenien obtenir la traducció automàtica a través dels diccionaris i les modificacions de l'ordre de paraules. Però aviat es van adonar que les llengües eren més que això, i que calia utilitzar models lingüístics més complexos. Així, es van anar incorporant lingüistes als grups i aplicant les teories de Saussure i Chomsky. Des de llavors, i al llarg de dècades, en tots els àmbits del processament del llenguatge (morfologia, correcció ortogràfica, sintaxi, desambiguació de significats...) ha predominat una aproximació: l'adaptació del coneixement basat en la intuïció dels lingüistes a estructures senzilles que poden ser tractades pels ordinadors (regles, arbres, grafs, llenguatges de programació...).

Però aquests mètodes també tenen les seves limitacions. D'una banda, els millors lingüistes tampoc poden tenir en compte tota la casuística que ofereix una llengua; per un altre, les llengües tenen una gran complexitat i riquesa per a expressar-se mitjançant estructures simples. Aquestes limitacions són encara majors en el llenguatge conversacional. No obstant això, no hi havia un altre camí; tenint en compte la capacitat de les màquines de l'època, aquesta era l'única manera de parlar amb el llenguatge. I amb aquestes tècniques el progrés ha estat relativament lent durant molts anys.

Arribada de corpus i estadística

No obstant això, en les dues últimes dècades, un acostament més empíric està dominant el processament del llenguatge, basat en l'explotació de grans col·leccions de textos i en mètodes estadístics. En lloc de basar-se en el coneixement intuïtiu, s'utilitzen grans mostres lingüístiques reals, és a dir, corpus, per a tenir en compte el major nombre de casos possibles de la llengua. I sobre ells s'utilitzen mètodes com l'estadística o l'aprenentatge automàtic, amb poques tècniques lingüístiques. Fins i tot en aquells casos en els quals s'intenta modelizar la llengua mitjançant estructures computables, extreuen els models automàticament dels corpus. Per això, treballant amb mètodes estadístics, perquè una màquina pugui parlar, ha de tenir accés a una enorme col·lecció de textos i a recursos per a treballar amb ella.

Aquest canvi metodològic es deu principalment a dos factors. D'una banda, els ordinadors actuals, a diferència dels anteriors, tenen la capacitat de manejar quantitats ingents de dades. D'altra banda, hi ha més textos disponibles en format electrònic que mai, sobretot des de la creació d'Internet.

Així, s'utilitzen corpus i tècniques estadístiques en els correctors ortogràfics (buscant contextos similars a la paraula incorrecta en corpus), en la traducció automàtica (utilitzant memòries de traducció o textos de llocs web multilingües per a obtenir estadísticament traduccions de paraules, sintagmes o frases el més grans possible), en la desambiguació de sentits, en l'extracció terminològica automàtica, etc. I en general es pot dir que com més grans són els corpus, millors resultats obtenen els sistemes. Per exemple, Franz Joseph Och de Google va presentar en el congrés de l'ACL (Association for Computational Linguistics) de 2005 el seu sistema de traducció automàtica estadística, entrenat sobre un corpus de 200.000 milions de paraules. I des de llavors el seu sistema és la principal referència en la traducció automàtica i la que guanya tots els concursos. Alguna cosa semblança ocorre en altres àmbits.

(Foto: istockphoto.com/chieferu)

Futur, hibridació

No obstant això, aquesta metodologia també té limitacions. En algunes llengües i tasques ja s'utilitzen corpus realment gegantescos, i es pot dir que ja han aconseguit la cota superior, ja que són molt difícils de continuar millorant molt més els resultats obtinguts. En altres llengües i àmbits no existeix un corpus tan gran, i amb mètodes exclusivament estadístics no es poden obtenir resultats tan bons.

Per això, la tendència recent a millorar els mètodes estadístics és combinar-los amb les tècniques lingüístiques i crear mètodes híbrids. I en el futur aquesta serà la via per a avançar en el processament del llenguatge. Si volem que les màquines comprenguin i tractin el llenguatge en breu, i volem que les màquines parlin, serà necessari que els matemàtics, informàtics i lingüistes vagin de la mà.

Adam Kilgarriff: "Les bases de dades gegants a text es poden recopilar amb relativa facilitat"
L'ús dels corpus en el processament del llenguatge ha suposat una revolució en els últims anys, i sens dubte l'anglès Adam Kilgarriff ha estat testimoni d'això. Ha treballat des de fa anys amb corpus en anglès, i avui dia és un referent en l'ús d'internet com a corpus. Sketch Engine (www.sketchengine.co.uk) és un dels fundadors de l'eina que serveix per a treballar en aquesta línia. Va participar en el congrés SEPLN 2009 sobre processament del llenguatge organitzat pel grup IXA de la UPV en Donostia.
Quines són les principals dificultats perquè una màquina pugui parlar?
Hi ha molts. L'home sap moltes coses. Des que vam néixer estem aprenent, veient, percebent... tenim molta saviesa al cap i sabem quina és la relació entre les idees. La recerca de 50 anys no és suficient perquè la intel·ligència artificial pugui fer el mateix. Nosaltres tenim totes les dades al cap. D'aquí la major dificultat que tenen les màquines per a parlar: encara no hem encertat perquè un munt de materials siguin útils per a l'ordinador.
D'altra banda, tenim molts problemes relacionats amb el llenguatge. Hi ha moltes maneres de dir qualsevol cosa, i per als ordinadors és molt difícil entendre que dues frases expressen la mateixa idea. No comprendrà que les frases "Aquest lloc és meravellós" i "Aquí hi ha una platja bella" expressen bàsicament la mateixa idea. El contrari, una sola frase pot tenir més d'un significat. La frase "He vist un ratolí" té diferent significat en el Palau Miramar o en un laboratori de biologia.
Aquests són els principals problemes generals (però hi ha molts altres petits).
(Foto: Guillermo Roa)
És necessari utilitzar la intel·ligència artificial en el processament del llenguatge?
L'aprenentatge automàtic està sent utilitzat per a cada vegada més coses en el processament del llenguatge. Però la intel·ligència artificial no és només una cosa, sinó que s'han desenvolupat moltes estratègies en diferents àmbits. L'aproximació que m'interessa per al tractament de la llengua és trobar patrons a partir de moltes dades. Un nen el fa, busca patrons en els sons, els significats, la gramàtica, etc. i és el que crea el lèxic del nen. És el nostre treball. Per exemple, partim d'una paraula i amb ella busquem paraules que apareixen en el mateix context.
L'aprenentatge automàtic, per exemple, permet buscar patrons i construir coneixement per ordinador. Es tracta, per tant, d'una manera d'afrontar un dels principals problemes del processament del llenguatge, és a dir, de resoldre un cas en el qual una sola paraula té més d'un significat. Això és possible si utilitzem corpus grans.
El millor corpus és Internet?
Depèn de l'objectiu. En molts dels meus treballs, quants més dades utilitzo, millor funciona. Però la xarxa també planteja algunes dificultats. Hi ha molt spam. Per tant, la millor estratègia per a gestionar aquestes dades és la que utilitzen Google i Yahoo: recopilar molts llocs web i buscar només el text per a treballar amb menys informació (en un gigaoctet entren pocs vídeos, però hi ha molta quantitat de text). D'aquesta forma es poden recopilar de forma relativament senzilla bases de dades gegants a text. En l'actualitat, l'anglès més gran té 5.500 milions de paraules. I d'aquest tipus es poden trobar molts patrons.
El problema és que el llenguatge en el qual una màquina conversarà no ha de ser, per exemple, el mateix estil que escriuen els científics en els articles. Hauria de ser l'idioma en el qual parlem. Per tant, no serveix per a això un gran corpus de textos escrits en articles o periòdics. Es necessita un corpus gran basat en la conversa, basat en xats. Però és difícil recopilar aquests textos i la confidencialitat ho fa encara més difícil. Per a la nostra recerca recollim textos de blogs on l'escriptura té menys formalitat.
Leturia Azkarate, Igor
Serveis
258
2009
Resultats
020
Robòtica
Article
Serveis
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila