Datos dourados

Waliño, Josu

Elhuyar Fundazioa

Vivimos na era da información e entre os datos que se acumulan na nosa contorna, atoparon ouro. Non é de estrañar. As organizacións almacenan cada vez máis datos e aínda que é difícil atopar una agulla entre a palla, as vantaxes que pode reportar este esforzo poden ser moi variadas. As novas técnicas de adquisición de datos poden axudar a romper o camiño do poder.

Na actualidade, o conxunto de datos que alberga calquera organización é enorme. É certo que moitos destes datos almacénanse inutilmente, pero analizar este gran grupo e extraer a información relevante que hai no mesmo, aínda que en pequenas cantidades, é tan difícil como buscar una agulla entre palla. Con todo, os beneficios económicos que pode reportar a unha empresa son moi elevados. Cun simple exemplo, comprenderás mellor o que queremos transmitir, supoñamos que es o xestor dun restaurante e que, baseándose nas diferentes combinacións de menús que adoitan pedir os teus clientes, sabes que novo prato vos convén ofrecer. As vantaxes son evidentes. E o mesmo exemplo sérvenos paira obter información que os supermercados, as bolsas, as grandes empresas ou a propia policía poden utilizar. E isto é só o principio.

Todo iso é posible hoxe en día grazas a una nova técnica denominada data mining. Os científicos que están a desenvolver esta técnica tratan de tomar un conxunto completo de datos e, a través de una serie de estudos estatísticos, descubrir posibles relacións entre os datos, excluíndo o lixo deste conxunto de datos e recollendo información realmente relevante. Traballan como buscadores de ouro, secuestrando a terra dos ríos, buscando pequenos anacos de ouro.

Acceso á información: carreira de obstáculos

Paira chegar a devanditos resultados pódense utilizar diferentes técnicas. Una delas é a denominada “indución de árbores normativas”, un método que, mediante diferentes combinacións, explicaranos as normas máis adecuadas. Por exemplo, “Ensalada e tortilla de paus á hora con pementos de chuleta”. Aínda que pareza insignificante, este tipo de combinacións cos conxuntos de datos dispoñibles pode converterse nun problema debido á complexidade das combinacións que se xeran a través deste procedemento: “Patacas B ALDIN E (NON filetes e pementos E (NON xeado e café) E ...”

Paira superar estes problemas desenvolvéronse técnicas máis avanzadas, entre as que se atopa o uso de redes neuronais. A contribución deste sistema ao seu funcionamento consiste en tentar imitar a lóxica do pensamento humano paira buscar as relacións existentes entre os datos. As redes neuronais ofrecen mellores resultados que a indución (una taxa de invención próxima ao 75%), pero o conxunto de regras que utiliza paira relacionar os datos pode resultar moi complexo e a miúdo incomprensible. Isto expón dous problemas: por unha banda, a imposibilidade de explicar aos clientes que solicitaron unha análise dos datos en que se basea o proceso, como o risco de fracaso dalgunhas empresas das que depende, e por outro, a imposibilidade de revisar as normas básicas en caso de avaría na rede.

Pero estes problemas resolveranse en breve. Na actualidade empezáronse a utilizar “algoritmos xenéticos”, aplicando principios baseados en normas de medidas financeiras á hora de cribar datos. Aínda que esta técnica non é moi eficaz, é máis comprensible paira os clientes. A outra opción é utilizar métodos lóxicos simples paira atopar regras que nos expliquen as relacións entre os datos, ou baseados nunha forma normal disxuntiva, que dá moi bos resultados.

Os científicos que están a desenvolver a técnica denominada data mining tratan de tomar un conxunto completo de datos e, a través de diferentes estudos estatísticos, descubrir posibles relacións entre os datos, excluíndo deste conxunto de datos o lixo e recollendo información realmente relevante.

Pero, sen dúbida, entre as técnicas máis exitosas e prometedoras da actualidade están a imporse as baseadas na linguaxe natural: técnicas que utilizan palabras comúns á linguaxe paira controlar o computador. A razón do seu éxito é evidente: hoxe en día, a maioría dos datos existentes no mundo atópanse no texto ordinario, gardados en papel, microfichas ou páxinas do procesador de textos, polo que a súa lectura resulta difícil paira os buscadores de datos.

Así, as vantaxes desta nova técnica son evidentes, xa que grazas a elas creáronse paquetes de software que analizan datos en textos sinxelos. Así se pode entender o interese que se manifesta nalgúns sectores por desenvolver estas técnicas. Por exemplo, basta ter como texto as listas de posibles sospeitosos da policía, utilizando a teoría e a análise lingüística dos conxuntos que utiliza este programa, paira obter una resposta rápida preguntando directamente “Quen é o maior sospeitoso?”.

Isto pode resultar sorprendente, pero só será o primeiro paso dun longo proceso, una técnica recentemente creada que nos permitirá sorprender en aplicacións diferentes que aínda poden ter máis posibilidades.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila