Elhuyar Fundazioa
Na actualidade, o conxunto de datos que alberga calquera organización é enorme. É certo que moitos destes datos almacénanse inutilmente, pero analizar este gran grupo e extraer a información relevante que hai no mesmo, aínda que en pequenas cantidades, é tan difícil como buscar una agulla entre palla. Con todo, os beneficios económicos que pode reportar a unha empresa son moi elevados. Cun simple exemplo, comprenderás mellor o que queremos transmitir, supoñamos que es o xestor dun restaurante e que, baseándose nas diferentes combinacións de menús que adoitan pedir os teus clientes, sabes que novo prato vos convén ofrecer. As vantaxes son evidentes. E o mesmo exemplo sérvenos paira obter información que os supermercados, as bolsas, as grandes empresas ou a propia policía poden utilizar. E isto é só o principio.
Todo iso é posible hoxe en día grazas a una nova técnica denominada data mining. Os científicos que están a desenvolver esta técnica tratan de tomar un conxunto completo de datos e, a través de una serie de estudos estatísticos, descubrir posibles relacións entre os datos, excluíndo o lixo deste conxunto de datos e recollendo información realmente relevante. Traballan como buscadores de ouro, secuestrando a terra dos ríos, buscando pequenos anacos de ouro.
Paira chegar a devanditos resultados pódense utilizar diferentes técnicas. Una delas é a denominada “indución de árbores normativas”, un método que, mediante diferentes combinacións, explicaranos as normas máis adecuadas. Por exemplo, “Ensalada e tortilla de paus á hora con pementos de chuleta”. Aínda que pareza insignificante, este tipo de combinacións cos conxuntos de datos dispoñibles pode converterse nun problema debido á complexidade das combinacións que se xeran a través deste procedemento: “Patacas B ALDIN E (NON filetes e pementos E (NON xeado e café) E ...”
Paira superar estes problemas desenvolvéronse técnicas máis avanzadas, entre as que se atopa o uso de redes neuronais. A contribución deste sistema ao seu funcionamento consiste en tentar imitar a lóxica do pensamento humano paira buscar as relacións existentes entre os datos. As redes neuronais ofrecen mellores resultados que a indución (una taxa de invención próxima ao 75%), pero o conxunto de regras que utiliza paira relacionar os datos pode resultar moi complexo e a miúdo incomprensible. Isto expón dous problemas: por unha banda, a imposibilidade de explicar aos clientes que solicitaron unha análise dos datos en que se basea o proceso, como o risco de fracaso dalgunhas empresas das que depende, e por outro, a imposibilidade de revisar as normas básicas en caso de avaría na rede.
Pero estes problemas resolveranse en breve. Na actualidade empezáronse a utilizar “algoritmos xenéticos”, aplicando principios baseados en normas de medidas financeiras á hora de cribar datos. Aínda que esta técnica non é moi eficaz, é máis comprensible paira os clientes. A outra opción é utilizar métodos lóxicos simples paira atopar regras que nos expliquen as relacións entre os datos, ou baseados nunha forma normal disxuntiva, que dá moi bos resultados.
Pero, sen dúbida, entre as técnicas máis exitosas e prometedoras da actualidade están a imporse as baseadas na linguaxe natural: técnicas que utilizan palabras comúns á linguaxe paira controlar o computador. A razón do seu éxito é evidente: hoxe en día, a maioría dos datos existentes no mundo atópanse no texto ordinario, gardados en papel, microfichas ou páxinas do procesador de textos, polo que a súa lectura resulta difícil paira os buscadores de datos.
Así, as vantaxes desta nova técnica son evidentes, xa que grazas a elas creáronse paquetes de software que analizan datos en textos sinxelos. Así se pode entender o interese que se manifesta nalgúns sectores por desenvolver estas técnicas. Por exemplo, basta ter como texto as listas de posibles sospeitosos da policía, utilizando a teoría e a análise lingüística dos conxuntos que utiliza este programa, paira obter una resposta rápida preguntando directamente “Quen é o maior sospeitoso?”.
Isto pode resultar sorprendente, pero só será o primeiro paso dun longo proceso, una técnica recentemente creada que nos permitirá sorprender en aplicacións diferentes que aínda poden ter máis posibilidades.