Superando os novos límites de AlphaGo mediante a aprendizaxe automática

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Recentemente anunciaron por primeira vez que foi capaz de gañar a un xogador profesional do xogo de mesa Go, moi coñecido en Extremo Oriente. É a primeira vez que nun xogo destas características conséguese superar aos seres humanos cos métodos denominados estudos automáticos. Pero non será o último.

alphago-muga-berriak-gainditzen-ikasketa-automatik
Go é un xogo moi estendido en Xapón e China. Hai polo menos 10.100 veces máis combinacións que no xadrez. Ed. DOLLARPHOTOCLUB/LENZENDORFMARCUS.

No camiño cara á intelixencia das máquinas, é dicir , cara á intelixencia artificial, foi habitual tratar de inventar máquinas, programas ou tecnoloxías que gañen aos seres humanos en tarefas ou xogos que se consideraron complexos e meramente aptos paira a realización de cerebros humanos. Así foron caendo una a unha, límites que parecían imposibles de antemán, e os computadores foron superando ao home en varios xogos: no xogo de tres pastores, a máquina OXO, capaz de facer os partidos perfectos en 1952 e asegurar polo menos o empate; no xogo das damas, o programa Chinés venceu ao mellor xogador de todos os tempos, en 1994 (e a máquina conseguiu ser capaz de facer un partido perfecto paira o Devoep en 2007); e o Debatido aos xogadores no Blonep.

O xogo Go era o seguinte reto a superar polas máquinas. Aínda que algo descoñecido no noso país, está moi estendido en China e Xapón e conta con máis de 40 millóns de xogadores no mundo. Xógase nunha táboa do cadro 19x19 na que dous xogadores deben colocar as fichas negras e brancas paira ir gañando as fichas dos demais e terminar con máis fichas que o resto. Un partido pode durar varios días, pero en profesionais os partidos limítanse a 16 horas. Calcúlase que no xogo Go poden darse unhas 2x10170 combinacións posibles, máis que o cadrado do número de átomos calculados no universo! E polo menos 10100 veces máis combinacións que en xadrez! Debido a esta complexidade, os investigadores non conseguían facer un programa que gañase aos xogadores profesionais no xogo Go. Até outubro do ano pasado. Entón, o sistema AlphaGo de Google gañou por primeira vez a un xogador profesional Go.

 

Aprendizaxe automática

Na historia da informática utilizáronse diversas formas de resolver problemas. Da forma máis sinxela, os seres humanos codifican directamente, nun programa, as decisións ou xogadas que se deben tomar en cada situación en función das condicións. Isto só serve paira os problemas máis sinxelos, pero nos inicios dos computadores non se podía facer outra cousa. Con todo, serviu paira superar o xogo de tres pastores e outros.

Outra metodoloxía é a denominada “brute-force search”, é dicir, “procura de forza salvaxe” ou procura combinatoria ou profunda. A través dela, analízase en cada momento do partido onde poden levar todas as opcións posibles. Con todo, en función da complexidade do xogo, non se poden
analizar as posibilidades de gañar ou non se pode chegar á profundidade mínima necesaria. Por exemplo, hai que estudar un millón de oportunidades paira chegar á profundidade de 4 xogadores, un billón de opcións paira 8 xogadores, un trillón paira o 12… Con todo, este tipo de sistemas utilizáronse moito e con éxito. Deep Blue, en definitiva, utilizaba este método. Pero este sistema de xogo Go ten as súas limitacións, xa que en cada momento pódense realizar ao redor de 250 posibles xogadas.

Por iso, o sistema máis utilizado nos últimos tempos paira resolver este tipo de xogos, así como moitos outros problemas complexos, como moitos dos relacionados coa tecnoloxía lingüística e de voz, é a aprendizaxe automática. Na aprendizaxe automática combínanse diferentes metodoloxías cun mesmo funcionamento: existen determinadas estruturas de datos que proporcionan unhas entradas que proporcionan unhas saídas; a estas estruturas dánselles moitos exemplos paira as entradas e as saídas que necesitarían e a través duns algoritmos adaptan a súa estrutura paira dar as saídas que se desexan conseguir. Por exemplo, no xadrez as entradas poden ser os estados do taboleiro e as saídas, as mellores xogadas paira estas situacións. Si conséguese adaptar as estruturas de datos paira dar estas saídas fronte a estas entradas, na maioría dos casos serán capaces de dar una resposta óptima mesmo en situacións novas que nunca se lles mostrou anteriormente.

Na aprendizaxe automática utilizáronse inicialmente estruturas de datos chamadas neural network ou redes neuronais que tentan imitar o comportamento das neuronas dos cerebros humanos. Na década dos 70 a investigación en intelixencia artificial afastouse destes sistemas, pero a finais da década de 2000 rexurdiuse o interese polas redes neuronais, que son amplamente utilizadas. O sistema AlphaGo que nos ocupa está baseado en redes neuronais. Á vista da evolución dos últimos anos e dos resultados obtidos co xogo de Go, parece que nos próximos anos as investigacións sobre a intelixencia artificial avanzarán cara a unha aprendizaxe automática.

 

...e máis aló!

O interese pola aprendizaxe automática e as redes neuronais rexurdiuse porque os potentes computadores actuais permitiron estruturas de datos ou redes neuronais máis complexas. En concreto, no caso das redes neuronais, agora as neuronas artificiais poden dividirse en múltiples capas, utilizar moitos máis datos paira adestrar ou aprender e dar solución a problemas complexos.Chámanse Deep neural network ou redes neuronais profundas, e AlphaGo utiliza una destas características.

Pero una rede de neuronas destas características paira o xogo Go, a pesar de adestrar con 30 millóns de xogadores humanos, non conseguiron tan bos resultados. Outra técnica utilizada foi a reinforcement learning. Neste método, o sistema obtido púñase a xogar contra si mesmo, moitos partidos, e posteriormente utilizábanse os movementos deses partidos paira adestrar e mellorar o sistema mediante a aprendizaxe automática. E una vez feito isto, conseguiron construír AlphaGo.

Iso significa que paira facer un xogador artificial utilizouse un sistema de aprendizaxe automática, pero non paira aprender dos humanos, senón paira aprender de si mesmo! Os estudos iniciais realizáronse a partir de partidas humanas. Pero funcionaría sen eles? É dicir, si cunha máquina de partida moi naif ou aleatoria e xogando partidos consigo mesma, puxésemonos/puxésemosnos a aprender e a mellorar constantemente, o resultado sería o mesmo? De ser así, as consecuencias serían enormes.

En calquera caso, en outubro, o xogador que foi derrotado polo sistema AlphaGo, Fan Hui, é un xogador profesional de 2 d??s a pesar de ser campión de Europa. A mediados de marzo, o sistema AlphaGo enfrontarase a Le Se-dol, uno dos mellores xogadores da historia e cun ranking de 9 dans (máximo existente) no partido público que se celebrará en Corea do Sur. O seguimento do partido será sen dúbida de gran interese.