Hori da. Gizakiontzat errazak diren lan batzuk oso zailak dira makinentzat. Adibidez, udareak eta sagarrak bereizten ikasi behar badu makinak, batzuetan zaila egiten zaio, sagar batzuek udareen antza dutelako eta udare batzuek sagarrena. Zaila zaio muga non dagoen jakitea. Eta algoritmo matematiko konplexu batzuk garatu genituen muga horiek detektatzen laguntzeko: laguntza-bektoreak.
Berez, ikasketa automatikoan metodo asko erabiltzen dira. Hasieran, sare neuronaletan egin nuen doktoretza: zenbait metodo konparatu nituen, tartean nukleo-metodoak deitzen direnak. Baina, gero, Bell laborategian Vladimir Vapnik irakaslea ezagutu nuenean, laguntza-bektoreak erabili eta garatu genituen, 60ko hamarkadan asmatutako metodo batean oinarrituta, datuen diskriminatzaileen adibideak baitira.
Konturatu nintzen algoritmo horiek eta nukleo-metodoak konbina nitzakeela. Nire senarrak, Bernard Bozerrek, konbinazio hori inplementatu zuen, eta nahiko ondo funtzionatu zuen. Hainbat gauzatan aplikatzen hasi ginen. Bernard Schölkopf-ekin esparru oso bat garatu genuen nukleo-metodoen inguruan, haren aplikazioak biderkatuta.
Urte askoan aritu nintzen esparru horretan. Nire lehen amodioa, hau da, sare neuronalak, ordeztu zituen. Ez nahita, baina bi esparruak nituen lehian nire lanean. Hala ere, praktikan ez dira lehiakideak. Alderantziz, uste dut oso osagarriak direla. Oinarrizko ikasketan, sare neuronalak eta laguntza-bektoreak konbina daitezke. Orain jende askok konbinatzen ditu, eta teknika ahaltsuagoak sortzen ditu.
Hori da, inflexio-puntu bat egon zen. Sare neuronalak eta bestelako ikasketa-makinak trebatzeko adina datu eskuragarri dagoenetik, makinek gizakion gaitasuna berdindu dute. Batzuetan gainditu ere egin dute, datu-kopuru handiak prozesatzeko gaitasuna oso mugatua delako gizakiongan. Esate baterako, makina bat trebatu zuten Go jokoan jokatzeko, ehunka partida erakutsita, eta giza gaitasuna gainditu zuen. Ustekabekoa izan zen Go jokoaren txapelduna makina batek gainditzea, pentsatzen genuelako hori oraindik urruti zegoela. Eta, jakina, horrek jendearengan ametsak adina beldur eragiten ditu.
Beldur dira makinak “supergizaki” bihurtuko ote diren. Baina nik uste dut aukera handia dela, eta ez dugula beldurtu behar; aitzitik, ustiatu egin beharko dugu, eta ahalik eta biztanleria-segmentu handienaren esku jarri.
Bai, eta uste dut iraultzaren hasieran gaudela, asko zabaltzen ari baitira, batez ere, datuetan patroiak topatzen dituzten algoritmoak. Orain, gure telefonoetan eta gure ordenagailuetan, ikasketa automatikoko produktu asko daude, aurpegiak ezagutzen dituztenak edo itzulpen automatikoak egiten dituztenak, batzuk aipatzearren. Ikusmen artifizialeko aplikazio asko ere badaude, sare neuronal konboluzionalei esker. Hain zuzen, horiek Bell laborategian garatu zituzten, han lanean ari nintzenean. Eta, aldi berean, bektore-makinekin lan egiten genuen, osagarriak direlako.
Adibidez, demagun sare neuronal bat trebatzen duzula irudi bat segmentu txikitan zatitzeko, gero konbinatzeko moduko marra- eta gurutze-itxurako zatitxotan. Datu-base handiak behar dituzu ondo trebatzeko. Baina ez baldin badaukazu datu askorik eta dauzkazunak ez badira egokiak? Adibidez, imajinatu trebatu nahi duzula zure sistema aurpegiak ezagut ditzan, baina dituzun irudi gehienak objektuen irudiak direla, beste mota bateko datuak. Baina demagun umeen aurpegien irudi gutxi batzuk ere badituzula. Sistema trebatu ahal izateko, adibideetan oinarritzen den metodo bat behar duzu, bektore-makinen bidezkoa, adibidez, eta ez ikusten dituen ezaugarrietan oinarritutako metodo bat.
Hori da, eta, horrez gain, ikasteko modu ezberdinak ditugu. Adibidez, epe luzeko memoria daukagu. Memoria horrek datu asko behar ditu, eta, horri esker, patroiak bereizteko estrategiak ikasteko aukera ematen digu. Eta epe laburreko memoria ere badugu; adibide batzuk buruz ikasi besterik ez dugu egiten, eta, gero, adibide horiekin konparatuta hartzen ditugu erabakiak.
Bai, hori oso garrantzitsua izan da. Eta jarraitzen du garrantzitsua izaten. Big datari buruz hitz egiten dugu, datu asko izateari buruz, alegia. Baina nolako datuak behar ditugu? Funtsean, bi modu daude gaia aztertzeko: adibide-kopuru handia izatea eta adibide bakoitzaren ezaugarri-kopuru handia. Kimikaz ari bagara, ezaugarri asko dituen molekula bat azter dezakegu, milaka ezaugarri dituena. Gainera, ikerketa biomedikoan, pazientea bera ere azter daiteke, zeinak milaka ezaugarri baititu.
Adibidez, geneen jarduera guztiak neurtzen badituzu, milaka ezaugarri dituzu aztergai. Big data mota desberdin bat da. Ez dugu gene askorik, baina haien ezaugarri asko ditugu. Hor erabil daitezke laguntza-bektoreen makinak. Horregatik erabili dira asko biomedikuntzan, eta orain kimikan ere bai.
Bai. Eta interesgarriena da hainbat diziplina uztartzen ditugula: estatistika, optimizazioa eta beste ohiko metodo batzuk. Jende askok batu ditu indarrak azken 20 urteetan. Batzuetan, estatistikako ohiko metodoak ez ziren informatikan ezagutzen. Eta zirraragarria da beste adimen artifizial mota batzuetan lanean aritu diren pertsonentzat, gauza ahaltsuak egin ditzakegula bakarrik zenbakietatik abiatuta, batez ere zenbakiak manipulatuta eta datu asko bilduz.
Baina ez da magia beltza ere. Ehunka mila ezaugarri baditugu, nola bereiz ditzakegu patroiak? Gauza baten edo bestearen ezaugarri bereizgarrienak aurkitzen saiatzen gara? Jo dezagun txakurrak eta behiak bereizi nahi ditugula. Lau hanka izateak ez du axola, txakurrek zein behiek dituztelako lau hanka, baina behiek adarrak dituzte eta txakurrek ez. Horrelako ezaugarriak bilatu nahi dituzte. Azken batean, ehunka mila datuetatik abiatuta, sinplifikatu dezakezu arazoa, problema jakin baterako inporta zaizkizun zenbaki gutxi horiek bakarrik aztertuta.
Jendeak askotan pentsatzen du zaila dela datu asko izatea, baina datu gutxi izatea da egoerarik zailena. Hain zuzen, Vapnik-en teoriak asko lagundu zigun ulertzen ezen, datu gutxi ditugunean, eredu nahiko sinpleak erabili behar ditugula. Bitxia bada ere, sare estuak dira datu gutxi maneiatzen dituzten sare neuronalak. Teoria konplexua dago horren azpian. Orain, erregularizazio-teoria esaten zaio; alegia, datu gutxirekin lan egiteko, gakoa ez da bakarrik zer eredu erabiltzen duzun; eredu hori trebatzeko modua ere funtsezkoa da.
Bereziki interesatzen zait “datu gutxiren ikasketa laburra” deitzen duguna; alegia, adibide gutxitatik abiatuta ikasi behar duten sistemak. Horrelakoetan, lehiaketak antolatzen ditugu. Hori da nire lan egiteko modu bat. Lanak nik eta ikasleek bakarrik egin beharrean, ikertzaile-talde handi bati irekitzen diogu problema. Beraz, problemak planteatzen ditugu, eta soluzioa edozeinek emateko aukera zabaltzen dugu. Lan berri bat egin dezakegu beste lan batzuetan trebatutako sistema batekin.
Bai. GAN sareek iraultza ekarri dute azken urteetan, sare neuronalak trebatzeko garaian. Jendeak metodo berriak asmatzen ditu, eta metodo horiek ustiatzeko ideia berriak ere bai. Egin dugun gauzetako bat da datu artifizial errealistak sortzea. Helburuetako bat pribatutasuna babestea da. Izan ere, datu horiek, askotan, pribatutasun-kezkak ekartzen dituzte, edo balio komertziala dute; beraz, ezin dira besterik gabe zabaldu. Arazo handia izan da: datu pribatuak askatzeagatik salatu egin dituzte enpresa handi batzuk. Beraz, orain oso zuhurrak dira. Eta hori txarra da ikerketa-komunitatearentzat, ikertzaileek ezin baitute problema interesgarri gehiago aztertu eta soluzioa bilatzen saiatu.
Beraz, lan hau egin dut New Yorkeko RPI institutuko lankideekin: GAN sareetan oinarritutako mezuak zatitu, gizabanakoei buruzko informaziorik ez duten datu artifizial errealistak sortzeko. Datu horiek datu errealen propietate estatistiko guztiak gordetzen dituzte, eta, beraz, erabilgarriak dira ikerketarako.
Horrela, ikasleek erabil ditzakete sistemak trebatzeko. Arazoa da benetako aurkikuntzak egiteko ere erabili nahiko genituzkeela, eta horretarako ez dute balio. Benetako datuen propietateak gordeta, ikerketan erabili ahalko genituzke benetako aurkikuntzak egiteko. Saiatzen ari gara datu artifizial errealista horien mugak pixkanaka-pixkanaka zabaltzen.
Bai, biomedikuntzan, erregistro mediko faltsu asko sortu ditugu, oso informazio sentikorra baita. Oro har, datu sentikorrak dituzten enpresekin kolaboratzen ari ginen, baina ez ziguten uzten daturik esportatzen. Aldiz, orain, zenbait segurtasun- edo pribatutasun-muga gainditu zezaketen datuak sor ditzaketen ereduak esportatzen ditugu. Esperantza badut baliagarri izango zaiola zientzia-komunitateari.