AlphaGo muga berriak gainditzen ikasketa automatikoaren bidez

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Berriki jakinarazi dute lehenbiziko aldiz gai izan dela makina bat Ekialde Urrunean oso ezaguna den Go izeneko mahai-jokoko jokalari profesional bati irabazteko. Lehenengo aldia da horrelako joko batean gizakiak gainditzea lortzen dena ikasketa automatiko deritzen metodoekin. Baina ez da azkena izango.

alphago-muga-berriak-gainditzen-ikasketa-automatik
Go jokoa oso zabalduta dago Japonian eta Txinan. Xakean baino 10.100 aldiz konbinazio gehiago daude gutxienez. Arg. DOLLARPHOTOCLUB/LENZENDORFMARCUS.

Makinei adimena emateko bidean, hau da, adimen artifiziala lortzeko bidean, ohikoa izan da konplexutzat eta soilik giza burmuinak egiteko modukotzat jo izan diren atazetan edo jokoetan gizakiei irabaziko dieten makinak, programak edota teknologiak asmatzen saiatzea. Hala joan dira erortzen banan-banan, aurrez gaindiezinak ziruditen hainbat muga, eta ordenagailuak gizakia gainditzen joan dira hainbat jokotan: hiruko artzain-jokoan, jada 1952an lortu zuten partida perfektuak egin eta gutxienez berdinketa ziurtatzeko gai zen OXO makina; dama-jokoan, Chinook programak inoizko jokalari onenari irabazi zion, 1994an (eta gutxienez berdinketa ziurtatzen duen partida perfektua egiteko gai izatea lortu zuten 2007an); eta xakean, IBMren Deep Blue makinak inoizko jokalaririk onentzat jotzen den Garry Kasparovi irabazi zion, 1997an.

Go jokoa zen makinek gainditu beharreko hurrengo erronka. Gurean ezezagun samarra bada ere, Txinan eta Japonian oso hedatua dago, eta 40 milioi jokalari baino gehiago ditu munduan. 19x19 laukiko taula batean jokatzen da: fitxa beltzak eta zuriak kokatu behar dituzte bertan bi jokalarik, besteen fitxak irabazten joateko eta besteak baino fitxa gehiagorekin amaitzeko. Partida batek hainbat egun ere iraun ditzake, baina, profesionaletan, 16 ordura mugatzen dituzte partidak. Kalkulatzen da Go jokoan 2x10170 inguru konbinazio posible gerta daitezkeela, unibertsoan kalkulatzen diren atomo-kopuruaren karratua baino gehiago! Eta xakean baino gutxienez 10100 aldiz konbinazio gehiago! Konplexutasun hori dela eta, ikertzaileek ez zuten lortzen Go jokoan jokalari profesionalei irabaziko zien programarik egitea. Iazko urrira arte. Orduan, Googleren AlphaGo sistemak lehenbizikoz irabazi zion Go jokalari profesional bati.

 

Ikasketa automatikoa

Problemak ebazteko hainbat modu erabili izan dira informatikaren historian. Modurik sinpleenean, gizakiek zuzenean kodetzen dituzte, programa batean, egoera bakoitzean baldintzen arabera hartu beharreko erabakiak edo egin beharreko jokaldiak. Horrek problemarik errazenentzat besterik ez du balio, baina, ordenagailuen hastapenetan, ez zegoen besterik egiterik. Hala ere, hiruko artzain-jokoa eta beste zenbait gainditzeko balio izan du.

Beste metodologia bat “brute-force search” deritzona da, hau da, “indar basatizko bilaketa” edo bilaketa konbinatorioa edo sakona. Horren bidez, aztertzen da partidaren une bakoitzean aukera posible guztiek nora eraman lezaketen. Baina jokoaren konplexutasunaren arabera, ezin dira jokoa irabazteko aukera nahikoak
aztertu edo ezin da beharrezko sakonera minimora iritsi. Adibidez, 4 jokaldiren sakonerara iristeko milioi bat aukera aztertu behar dira; 8 jokaldiren kasurako, bilioi bat aukera; 12rako, trilioi bat… Hala ere, halako sistemak asko erabili izan dira, eta arrakastarekin, gainera. Deep Bluek, finean, metodo hori erabiltzen zuen. Baina Go jokorako sistema horrek baditu mugak; izan ere, une bakoitzean 250 jokaldi posible inguru egin daitezke.

Horregatik, azkenaldian, honelako jokoak (bai eta bestelako problema konplexu asko ere, adibidez, hizkuntza- eta ahots-teknologiaren arloko asko) ebazteko gehien erabiltzen den sistema ikasketa automatikoa da. Ikasketa automatikoan metodologia ezberdin asko batzen dira, funtzionamendu bera dutenak: datu-egitura jakin batzuk daude, zeinak sarrera batzuk emanik irteera batzuk ematen dituzten; egitura horiei sarreretarako eta beharko lituzketen irteeretarako adibide asko ematen zaizkie, eta algoritmo batzuen bidez, beren egitura egokitzen dute lortu nahi diren irteera horiek emateko. Adibidez, xakean, sarrerak taularen egoerak izan daitezke, eta irteerak, egoera horietarako jokaldirik onenak. Datu-egiturak sarrera horien aurrean irteera horiek emateko egokitzea lortzen bada, gai izango dira, gehienetan, erantzun optimoa emateko aurrez inoiz erakutsi ez zaizkien egoera berrietan ere.

Ikasketa automatikoan, neural network edo neurona-sareak deritzen datu-egiturak erabili ziren hasiera batean, giza burmuinetako neuronen jokabidea imitatzen saiatzen diren datu-egiturak. 70eko hamarkadan, adimen artifizialeko ikerketa sistema horietatik aldendu zen, baina 2000ko hamarkadaren amaieran, neurona-sareekiko interesa berpiztu zen, eta, geroztik, asko erabiltzen dira. Artikuluan mintzagai dugun AlphaGo sistema neurona-sareetan oinarrituta dago. Azken urteotako eboluzioa eta Go jokoarekin lortutako emaitzak ikusita, badirudi hurrengo urteetan adimen artifizialaren inguruko ikerketak ikasketa automatikoaren bidetik joango direla.

 

...eta harago!

Egungo ordenagailu ahaltsuek datu-egitura edo neurona-sare konplexuagoak egitea ahalbidetu dutelako berpiztu da ikasketa automatikoarekiko eta neurona-sareekiko interesa. Neurona-sareen kasuan, zehazki, orain neurona artifizialak geruza ugaritan bana daitezke, entrenatu edo ikasteko askoz datu gehiago erabil daitezke eta arazo konplexuei soluzioa eman dakieke. Deep neural network edo neurona-sare sakonak deitzen zaie horrelakoei, eta horrelako bat erabiltzen du AlphaGok.

Baina Go jokorako horrelako neurona-sare sakon bat gizakien 30 milioi jokaldirekin entrenatuta ere, ez zituzten hain emaitza onak lortu. Beste teknika bat ere erabili zuten, reinforcement learning izenekoa. Metodo horretan, lortutako sistema bere buruaren aurkako partidak jokatzen jartzen zuten, partida asko, eta, gero, partida horietako mugimenduak erabiltzen ziren ikasketa automatiko bidez sistema entrenatu eta hobetzeko. Eta hori behin eta berriz eginda, lortu zuten AlphaGo eraikitzea.

Horrek esan nahi duena ikaragarria da: jokalari artifizial bat egiteko, ikasketa automatikoko sistema bat erabili da, baina ez gizakiengandik ikasteko, bere buruarengandik ikasteko baizik! Hasierako ikasketak gizakien partidetatik abiatuta egin dira. Baina funtzionatuko al luke horiek gabe ere? Hau da, hasierako makina oso naif bat edo ausazkoa eginda eta bere buruarekin partidak jokatuta ikasten eta etengabe hobetzen jarriko bagenu, emaitza bera lortuko litzateke? Hala balitz, ondorioak itzelak lirateke.

Edonola ere, urrian, AlphaGo sistemak azpiratu zuen jokalaria, Fan Hui, Europako txapelduna izan arren 2 dan-eko jokalari profesionala da. Martxoaren erdialdean, AlphaGo sistemak Lee Se-dol izango du aurkari, inoizko jokalaririk onenetako bat eta 9 daneko rankinga duena (dagoen maximoa), Hego Korean izango den partida publikoan. Interes handiz egingo diogu jarraipena partidari, zalantzarik gabe.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila