Mapes virtuals d'idiomes

Artetxe Zurutuza, Mikel

Hizkuntzaren prozesamenduan doktoregaia EHUn

Desenes de milers de coordenades, centenars de dimensions, nord o no, i paraules en part de les ciutats. Potser maldestres i absurds, però també mapes, utilitzats per les màquines per a navegar per l'oceà del llenguatge. Gràcies a ells, un ordinador pot deduir per si mateix que les reines són dones o que es diu chien en el gos francès. Benvinguts al meravellós món de les embeddings. Comença el viatge.
hizkuntzen-mapa-birtualak
Figura . Visualització d'alguns embeddings en basc mitjançant la tècnica tSNE.

És curiós l'idioma. Tant en l'escriptura com en la pronunciació, les paraules porc i polls són molt similars, mentre que les paraules porc i senglar són completament diferents. Entre els animals, no obstant això, els porcs estan molt més prop dels senglars que dels polls. En definitiva, la relació entre les paraules d'una llengua i els seus significats és arbitrària, i les relacions entre els conceptes de porc, poll i senglar només viuen en la nostra ment.

No obstant això, en fer una cerca en Google o parlar amb Siri, la qual cosa tenim tan interioritzat es converteix en una gran dificultat per a les màquines. I igual que quan ens perdem en la muntanya o en la carretera, les màquines utilitzen mapes per a avançar en el laberint de llengües. Aquests mapes es denominen Embedding i, a través d'ells, el processament del llenguatge s'ha internalitzat en terrenys que semblaven impensables. Farem aquest viatge pas a pas.

De mapes de ciutats a mapes de paraules

Abans d'endinsar-nos en el territori de la llengua, parem momentàniament per a fixar-nos en els nostres mapes comuns. Bàsicament, els mapes que coneixem són representacions gràfiques d'un territori, per exemple, que assignen un punt a cada ciutat en cada cas. Lògicament, perquè els mapes tinguin sentit, aquests punts no estan dispersos de qualsevol manera, sinó que la ubicació del mapa respecta les distàncies que tenim en la realitat. Així, en un mapa, París ens apareixerà més prop de Brussel·les que de Moscou, perquè en la realitat la capital francesa està més prop de la belga que de la russa.

Els mapes d'idiomes no són molt diferents. En lloc d'explicar les ciutats, cada punt representa una paraula i les distàncies entre elles depenen de la semblança semàntica de les paraules. Per tant, en un mapa d'aquest tipus, el punt corresponent a la paraula porc estarà més prop del corresponent al senglar que al poll, ja que la similitud semàntica entre les paraules porc i senglar és major que entre les paraules porc i polls.

Figura . Estudi d'Embedding per comptatge. A partir d'un text llarg, una taula mostra el nombre de frases que apareixen simultàniament cada combinació de paraules. La llista numèrica de cada fila dóna les coordenades de la paraula corresponent. En la pràctica, aquesta aproximació bàsica se sol afinar amb tècniques d'adaptació de la freqüència de les paraules i reducció de la dimensionalitat.

Però no tot és tan senzill: per a captar correctament la complexitat del llenguatge, les 2 dimensions del paper es queden curtes, i aquests mapes normalment tenen unes 300 dimensions. Però que no t'espantin els grans números! Com hi ha un salt d'una sola dimensió de la recta a les dues dimensions del quadrat, i un salt de les dues dimensions del quadrat a les tres del cub, pots imaginar que existeix un salt semblant des de les tres dimensions del cub a les quatre de la tenacitat, i així podríem seguir fins a arribar a les 300 dimensions citades.

Però com construir un mapa de 300 dimensions si vivim en tres dimensions? No et preocupis, no començarem! En realitat, aquests mapes no són físics sinó objectes matemàtics que viuen en la memòria dels ordinadors. De fet, tots els mapes poden ser reproduïts mitjançant números. Per a això se sol consensuar un sistema de referència, indicant cada punt en funció de la seva posició respecte als diferents eixos. Així, segons la distància angular respecte a l'equador i al meridià de Greenwich, les coordenades de París (48.86, 2.35) són les de Brussel·les (50.85, 4.35) i Moscou (55.75, 37.62). Aquestes coordenades ens permeten, entre altres coses, calcular matemàticament les distàncies entre ciutats. El mateix es fa amb els mapes d'idiomes, però com en lloc de tenir 2 dimensions, són necessaris 300 números per a descriure cada punt. Perquè cadascuna d'aquestes seqüències de números que representen una paraula és el que anomenem embedding.

Partint del text i cartografiant les màquines

La realització de mapes és un treball laboriós. Els cartògrafs recopilen i analitzen diverses fotografies, mesuraments i estadístiques, i elaboren representacions gràfiques que coincideixen amb aquestes dades. La descripció de les llengües també ha estat realitzada per l'home: aquí estan, entre altres, els diccionaris que ens són tan comuns. Però els mapes que ens ocupa no són manuals. Analitzant textos llargs, les màquines les creen automàticament i és una recepta senzilla i eficaç.

Com es mostra en la Figura 2, suposem que construïm una taula gegant amb totes les paraules d'una llengua. Per a cada paraula tindrem una fila i una columna, de manera que cada cel·la s'adapti a un parell de paraules. Per a emplenar la taula, prendrem un text llarg i comptarem el nombre de frases que apareixen simultàniament cada parella de paraules. I voilà, tenim el nostre mapa! Per a cada paraula agafarem la llista de números de la fila corresponent, que seran les coordenades de la paraula.

Encara que sembli mentida, aquesta simple aproximació genera mapes bastant assenyats. De fet, segons la hipòtesi distributiva de la semàntica [8, 7], paraules similars solen tenir patrons de representació similars, per la qual cosa el procediment anterior els assignarà coordenades similars. També per al nostre exemple inicial, les paraules senglar o porc apareixeran amb freqüència al costat de la paraula gla i poques vegades al costat de la paraula picor, i amb la paraula zorri ocorrerà a l'inrevés. Per tant, els porcs i taulells tindran unes coordenades similars i quedaran pròxims entre si en el mapa. Les coordenades dels polls seran bastant diferents, per la qual cosa s'allunyarà d'elles.

Figura . Resolució d'analogies. Part d'una paraula masculina i, a través d'una trajectòria humana, aconsegueix el seu equivalent femení.

Però hi ha alguna cosa que falta en aquesta recepta. I és que, encara que les 300 dimensions esmentades anteriorment semblaven molt, aquest procediment generaria mapes de desenes de milers de dimensions, ja que els idiomes formaran les seves coordenades amb tantes paraules com números. Com reduir el nombre de dimensions? La resposta no ens és molt estranya: els nostres mapes comuns solen tenir dues dimensions, encara que en la realitat es parla d'un món tridimensional. De fet, a l'hora de crear mapes, sol excloure's la dimensió de l'altura, ja que no és molt significativa a l'hora de calcular distàncies entre ciutats. Alguna cosa semblança es fa amb els mapes de les llengües: utilitzant diferents tècniques matemàtiques s'identifiquen els eixos de major variabilitat (els més significatius) i s'exclouen del mapa la resta de dimensions. Malgrat algunes adaptacions per a corregir l'efecte de la freqüència, aquesta és la idea bàsica que subjeu en les tècniques de comptatge per a l'estudi de les embeddings [3]; tingui's en compte que les tècniques basades en l'aprenentatge automàtic [11, 4] segueixen el mateix procediment de manera implícita [10].

Jugant amb mapes

Malgrat la seva senzillesa, els nostres mapes comuns oculten més secrets del que en principi sembla. Encara que no han estat pensats per a això, també serveixen per a apreciar, per exemple, la temperatura que es produeix en qualsevol part del món. De fet, els punts que es troben en latituds extremes, els més pròxims als pols, solen ser més freds, mentre que els punts més pròxims a l'equador són més calorosos. Així com l'eix de la latitud es relaciona amb la temperatura, en els mapes de les llengües també es poden identificar eixos similars que relacionen la polaritat de les paraules (grau de positivitat i negativitat) amb altres característiques [12]. Gràcies a ells, les aplicacions d'anàlisi automàtica d'opinions han adquirit gran força en els últims temps.

Però el que ha fet les embeddings tan populars ha estat la resolució d'analogies [11]. La idea no pot ser més senzilla: Per a anar des de París a Brussel·les és necessari recórrer 222 km al Nord i 144 km a l'est; així mateix, en cadascun dels eixos del mapa de la llengua es necessitarà una certa distància des de la paraula home fins a la paraula dona, per exemple. Perquè si comencem per la paraula rei i seguim els mateixos passos, arribem a la paraula erregin! De fet, la trajectòria estudiada codifica la relació home-dona i la trasllada al seu equivalent femení a partir de qualsevol paraula masculina. Anàlogament, es poden realitzar analogies equivalents per a les relacions pais-capital, singular-plural, present i passat.

Però no tot és tan bonic: si comencem per la paraula informàtica seguint la mateixa trajectòria d'homes i dones, per exemple, arribaríem a parlar de mestresses de casa [5]. En altres paraules, segons el mapa, la informàtica és cosa d'homes, i les tasques domèstiques són de dones. Què veure, aprendre allò: les embeddings es basen en textos escrits per éssers humans i reflecteixen les mateixes tendències discriminatòries arrelades en la nostra societat. De fet, segons diversos experts, afrontar aquest tipus de comportaments injustos serà un dels reptes futurs de la intel·ligència artificial.

Figura . Mapatge d'Embedding. Dos mapes d'Euskal Herria, un en basc i un altre en castellà, orientats de diferent manera, se superposen entre si acostant als parells urbans de referència (Bilbao-Bilbao, Baiona-Baiona, Vitòria-Gasteiz). Una vegada fet això, es poden extreure noves parelles de traducció atesos els punts que han quedat junts en el mapa superposat (per exemple, es pot concloure que la contraprestació de Pamplona és de Pamplona en veure que els punts corresponents han quedat junts). Amb els mapes lingüístics també s'utilitza aquest principi bàsic per a induir traduccions de paraules comunes.

Malgrat els problemes, si amb una sola llengua es poden fer aquests trucs, combinant mapes de diversos idiomes s'han aconseguit coses encara més sorprenents. Tal com s'observa en la figura 4, igual que amb la superposició de sengles mapes en basc i en castellà es poden extreure les contraprestacions en castellà de les capitals basques, amb les embeddings s'utilitza el mateix principi bàsic per a induir traduccions de paraules comunes [1, 6]. En aquest sentit, recentment s'han desenvolupat traductors automàtics capaços d'aprendre sense cap mena de conducció humana [2, 9], de llegir textos llargs en diversos idiomes i de realitzar traduccions entre ells sense altres ajudes.

Noves destinacions

Encara que el nostre viatge està a punt d'arribar al final, el camí recorregut per les embeddings sembla infinit. Al costat de la millora de les tècniques d'estudi i el desenvolupament de noves aplicacions, els intents d'abordar frases o textos més llargs a partir de mapes de paraules han cobrat força en els últims temps. Fins a on ens portarà aquest camí, però no apareix en cap mapa i, amb noves metes en l'horitzó, el futur no podia ser més emocionant.

Referències

[1] Mikel Artetxe, Gorka Labaka, and Eneko Agirre. Learning bilingual word embeddings with (almost) no bilingual data. En Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017.
[2] Mikel Artetxe, Gorka Labaka, Eneko Agirre, and Kyunghyun Cho. Unsupervised neural machine translation. En Proceedings of the Sixth International Conference on Learning Representations, 2018.
[3] Marco Baroni, Georgiana Dinu, and German Kruszewski. Don’t count, predict! a systematic comparison of context-counting vs. context-predicting semantic vectors. En Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2014.
[4] Piotr Bojanowski, Edouard Greu, Armand Joulin, and Tomás Mikolov. Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5:135–146, 2017.
[5] Tolga Bolukbasi, Kai-Wei Chang, James I Zou, Venkatesh Saligrama, and Adam T Kalai. Man is to computer programmer as woman is to homemaker? debieming word embeddings. En Advances in Neural Information Processing Systems 29, 2016.
[6] Alexis Conneau, Guillaume Lample, Marc’Aurelio Ranzato, Ludovic Denoyer, and Herve Jegou. Data Word translation without parallel. En Proceedings of the Sixth International Conference on Learning Representations, 2018.
[7] J.R. Firth. A Synopsis of Linguistic Theory, 1930-1955. 1957.
[8] Zelting Harris. Distributional structure. Word, 10(2-3):146{162, 1954.
[9] Guillaume Lample, Ludovic Denoyer, and Marc’Aurelio Ranzato. Unsupervised machine translation using monolingual corpora only. En Proceedings of the Sixth International Conference on Learning Representations, 2018.
[10] Omer Levy and Yoav Goldberg. Neural word embedding as implicit matrix factorization. En Advances in Neural Information Processing Systems 27, 2014.
[11] Tomás Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Je_ Dean. - En Advances in Neural Information Processing Systems 26, 2013.
[12] Sascha Rothe and Hinrich Schütze. Word embedding calculus in meaningful ultradense subspaces. En Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2016.

Treball presentat als premis CAF-Elhuyar.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila