Wliquidata, base de datos libre colaborativa para o coñecemento

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Todos coñecemos a Wikipedia, unha enciclopedia libre que se vai formando entre usuarios de todo o mundo e que a Fundación Wikimedia xestiona e promove. Con todo, esta Fundación conta con outros proxectos de interese menos coñecidos e orientados á xeración conxunta de coñecemento libre: Commons para material imaxinario e audiovisual, Wictionary para dicionarios, Wikibooks, Wikisource, Wikiversity… A máis recente é Wliquidata, unha base de datos libre para o coñecemento. Aínda que existe desde 2012, floreceu nos últimos anos e achegou moitas cousas interesantes.
wikidata-ezagutzarako-datu-base-libre-kolaboratibo
Ed. -

Wliquidata é unha base de datos libre e colaborativa para o coñecemento. Pero, a diferenza de Wikipedia, que é unha colección de artigos de texto e outros recursos gráficos, Wliquidata é unha colección de información estruturada formada por rexistros con poucos e breves campos. Nesta base de datos recóllense as datas e lugares de nacemento das persoas, así como os números de cidades e outros datos. E consérvanse relacións, como as irmandades entre persoas, as provincias ás que pertencen e os seus territorios, as relacións taxonómicas das especies doutra

gran diferenza coa wikipedia é que non existe unha para cada idioma. Ao ser só datos, só hai unha Wliquidata multilingüe. Posteriormente, cada unidade de datos pode ter o seu nome e descrición en tantos idiomas como desexe.

Estrutura da wliquidata

Nos wíquidos almacénanse todo tipo de datos e as súas relacións. Pero en realidade só existen tres tipos de datos: elementos, propiedades e expresións.

Os datos de tipo elemento serven para expresar persoas, cidades, cancións, especies de papeis, conceptos abstractos, etc. Cada un deles ten un identificador en Wíquidos, composto polo carácter “Q” e un número. Por exemplo, o elemento Q1 representa o universo e pódese acceder a https://www.wliquidata/wiki/Q1; o elemento Q12256717 fai referencia aos irmáns Elhuyar; o elemento Q47588 fai referencia a Euskal Herria... Ademais, cada elemento pode ter un nome ou etiqueta, unha descrición e varios alias ou outras denominacións para cada idioma.

As propiedades mostran, pola contra, o tipo de información e de recursos que poden ter os elementos. Por exemplo, a propiedade P31 utilízase para indicar o tipo de elemento e hai propiedades para indicar a data de nacemento ( P569 ), para indicar que forma parte de algo ( P361 ), para a autoría ( P51 )…

Por último, as expresións engaden información aos elementos relacionándoos cunha propiedade a un valor ou outro elemento. Por exemplo, case todos os elementos teñen unha expresión coa propiedade P31 (tipo) que os relaciona co seu tipo; case todas as persoas teñen a expresión P569 (data de nacemento)... Por exemplo, unha expresión pode ser Q937 (Einstein) – P31 (tipo) – Q5 (persoa), ou Q937 (Einstein) – P569 (data de nacemento) – 1879/03/14, respectivamente, indican que Einstein é unha persoa e que naceu nesa data.

A combinación destes tres tipos de datos permite obter toda a información sobre calquera cousa. Na actualidade, Wliquidata ten unhas 7.000 propiedades, case 100 millóns de elementos e unhas 1.400 millóns de declaracións.

Tamén información lexicográfica

Aínda que na orixe de Wliquidata era só iso (elementos, propiedades e expresións), engadíronse novos tipos de datos para gardar tamén información lexicográfica. Os seus identificadores empezan por “L” e definen os idiomas, as palabras e as categorías (por exemplo, a palabra en euskera “nove”, da categoría “nomee”, é L74178). Un lexema pode adoptar diferentes formas, existindo un tipo de dato de formas que se identifica engadindo ao do lexema un identificador que empeza por “F”. Ademais da propia forma, pode gardar trazos gramaticais e cantas expresións desexe. Por último, os lexemas tamén poden ter diferentes acepcións, e para conservalos hai un tipo de datos de significados.

Con esta estrutura pódense formar léxicos de calquera lingua. Ademais, se os significados se asocian aos conceptos de Wíquidos, pódense establecer relacións interlingüísticas e, por tanto, formar dicionarios bilingües entre calquera par de linguas.

Utilidades, miles

E para que podería valer unha base de datos deste tipo? Para que non! O uso ofrece miles de opcións e oportunidades. Calquera usuario pode descargar Wliquidata e utilizala para o que queira. No interfaz web pódense realizar procuras simples, pero ademais das procuras habituais, tamén se poden realizar consultas na linguaxe SPARQL, que permiten realizar preguntas complexas e interesantes como o “número de ministros fillos dun ministro por país”.

E ben a través do API ou ben a través da descarga, pódense realizar programas para aproveitar a información. Por exemplo, na propia Wikipedia, na actualidade os infotablos (táboas con información que aparece á dereita ao comezo dalgúns artigos) non se editan manualmente, hai varios programas escritos que poden utilizarse para iso nos artigos de Wikipedia cunha soa liña. O programa tomará a información de Wíquita e completará a táboa e, no caso de que a información se modifique ou actualice en Wíquida, aparecerá automaticamente na táboa de infotelas do artigo sen ter que cambiar a actualización. Este novo sistema de Infotaul foi desenvolvido pola Amical Wikimedia catalá e a Asociación Cultural Vasca de Wikilaris (EWKE). A empresa CodeSyntax tamén utiliza Wliquidata para elaborar preguntas nun xogo de preguntas interrogativas dunha vez ao día .

Como se dixo, existe unha única base de datos Wliquidata, na que se pode incluír información de todos os idiomas. Así, como para o eúscaro é imprescindible que a Wikipedia estea o máis desenvolvida posible en eúscaro, a presenza de nomes e descricións e información lexicográfica en eúscaro tamén en Wíquidos é moi importante. En Elhuyar, por encargo do EWKE e en colaboración con eles, levamos a cabo dous proxectos. Por unha banda, escribimos as definicións do Dicionario Enciclpedico da Ciencia e a Tecnoloxía de Elhuyar en 6.500 elementos científicos e tecnolóxicos. Doutra banda, en 2019 incorporamos os 10.000 nomes máis utilizados do Dicionario do Alumno de Elhuyar, 65 formas de cada un e a súa acepción e definicións. Con este traballo, o eúscaro converteuse na sexta lingua en número de lexemas ou raíces, a segunda en número de formas de palabras e a primeira en número de expresións. Cos incrementos que se produciron, agora somos noveno en lexemas, preto de 23.000, pero seguimos sendo nas segundas formas, preto de 1.250.000, e somos os primeiros, expresivamente, con case 3000.

Trátase, por tanto, dun proxecto moi interesante, Wliquidata, que xa é moi útil e que no futuro, a medida que vaia crecendo, será aínda máis útil.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila