Dades daurades

Waliño, Josu

Elhuyar Fundazioa

Vivim en l'era de la informació i entre les dades que s'acumulen en el nostre entorn, han trobat or. No és d'estranyar. Les organitzacions emmagatzemen cada vegada més dades i encara que és difícil trobar una agulla entre la palla, els avantatges que pot reportar aquest esforç poden ser molt variades. Les noves tècniques d'adquisició de dades poden ajudar a trencar el camí del poder.

En l'actualitat, el conjunt de dades que alberga qualsevol organització és enorme. És cert que molts d'aquestes dades s'emmagatzemen inútilment, però analitzar aquest gran grup i extreure la informació rellevant que hi ha en aquest, encara que en petites quantitats, és tan difícil com buscar una agulla entre palla. No obstant això, els beneficis econòmics que pot reportar a una empresa són molt elevats. Amb un simple exemple, comprendràs millor el que volem transmetre, suposem que ets el gestor d'un restaurant i que, basant-se en les diferents combinacions de menús que solen demanar els teus clients, saps quin nou plat us convé oferir. Els avantatges són evidents. I el mateix exemple ens serveix per a obtenir informació que els supermercats, les borses, les grans empreses o la pròpia policia poden utilitzar. I això és només el principi.

Tot això és possible avui dia gràcies a una nova tècnica denominada data mining. Els científics que estan desenvolupant aquesta tècnica tracten de prendre un conjunt complet de dades i, a través d'una sèrie d'estudis estadístics, descobrir possibles relacions entre les dades, excloent les escombraries d'aquest conjunt de dades i recollint informació realment rellevant. Treballen com a cercadors d'or, segrestant la terra dels rius, buscant petits trossos d'or.

Accés a la informació: carrera d'obstacles

Per a arribar a aquests resultats es poden utilitzar diferents tècniques. Una d'elles és la denominada “inducció d'arbres normatius”, un mètode que, mitjançant diferents combinacions, ens explicarà les normes més adequades. Per exemple, “Amanida i truita de pals a l'hora amb pebrots de costella”. Encara que sembli insignificant, aquest tipus de combinacions amb els conjunts de dades disponibles pot convertir-se en un problema degut a la complexitat de les combinacions que es generen a través d'aquest procediment: “Patates B ALDIN I (NO filets i pebrots I (NO gelat i cafè) I ...”

Per a superar aquests problemes s'han desenvolupat tècniques més avançades, entre les quals es troba l'ús de xarxes neuronals. La contribució d'aquest sistema al seu funcionament consisteix a intentar imitar la lògica del pensament humà per a buscar les relacions existents entre les dades. Les xarxes neuronals ofereixen millors resultats que la inducció (una taxa d'invenció pròxima al 75%), però el conjunt de regles que utilitza per a relacionar les dades pot resultar molt complex i sovint incomprensible. Això planteja dos problemes: d'una banda, la impossibilitat d'explicar als clients que han sol·licitat una anàlisi de les dades en què es basa el procés, com el risc de fracàs d'algunes empreses de les quals depèn, i per un altre, la impossibilitat de revisar les normes bàsiques en cas d'avaria en la xarxa.

Però aquests problemes es resoldran en breu. En l'actualitat s'han començat a utilitzar “algorismes genètics”, aplicant principis basats en normes de mesures financeres a l'hora de garbellar dades. Encara que aquesta tècnica no és molt eficaç, és més comprensible per als clients. L'altra opció és utilitzar mètodes lògics simples per a trobar regles que ens expliquin les relacions entre les dades, o basats en una forma normal disjuntiva, que dóna molt bons resultats.

Els científics que estan desenvolupant la tècnica denominada data mining tracten de prendre un conjunt complet de dades i, a través de diferents estudis estadístics, descobrir possibles relacions entre les dades, excloent d'aquest conjunt de dades les escombraries i recollint informació realment rellevant.

Però, sens dubte, entre les tècniques més reeixides i prometedores de l'actualitat s'estan imposant les basades en el llenguatge natural: tècniques que utilitzen paraules comunes al llenguatge per a controlar l'ordinador. La raó del seu èxit és evident: avui dia, la majoria de les dades existents en el món es troben en el text ordinari, guardats en paper, microfitxes o pàgines del processador de textos, per la qual cosa la seva lectura resulta difícil per als cercadors de dades.

Així, els avantatges d'aquesta nova tècnica són evidents, ja que gràcies a elles s'han creat paquets de programari que analitzen dades en textos senzills. Així es pot entendre l'interès que es manifesta en alguns sectors per desenvolupar aquestes tècniques. Per exemple, basta tenir com a text les llistes de possibles sospitosos de la policia, utilitzant la teoria i l'anàlisi lingüística dels conjunts que utilitza aquest programa, per a obtenir una resposta ràpida preguntant directament “Qui és el major sospitós?”.

Això pot resultar sorprenent, però només serà el primer pas d'un llarg procés, una tècnica recentment creada que ens permetrà sorprendre en aplicacions diferents que encara poden tenir més possibilitats.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila