Wliquidata, base de dades lliure col·laborativa per al coneixement

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Tots coneixem la Wikipedia, una enciclopèdia lliure que es va formant entre usuaris de tot el món i que la Fundació Wikimedia gestiona i promou. No obstant això, aquesta Fundació compta amb altres projectes d'interès menys coneguts i orientats a la generació conjunta de coneixement lliure: Commons per a material imaginari i audiovisual, Wictionary per a diccionaris, Wikibooks, Wikisource, Wikiversity… La més recent és Wliquidata, una base de dades lliure per al coneixement. Encara que existeix des de 2012, ha florit en els últims anys i ha aportat moltes coses interessants.
wikidata-ezagutzarako-datu-base-libre-kolaboratibo
Ed. -

Wliquidata és una base de dades lliure i col·laborativa per al coneixement. Però, a diferència de Wikipedia, que és una col·lecció d'articles de text i altres recursos gràfics, Wliquidata és una col·lecció d'informació estructurada formada per registres amb pocs i breus camps. En aquesta base de dades es recullen les dates i llocs de naixement de les persones, així com els nombres de ciutats i altres dades. I es conserven relacions, com les germanors entre persones, les províncies a les quals pertanyen i els seus territoris, les relacions taxonòmiques de les espècies d'Una

altra gran diferència amb la wikipedia és que no existeix una per a cada idioma. En ser només dades, només hi ha una Wliquidata multilingüe. Posteriorment, cada unitat de dades pot tenir el seu nom i descripció en tants idiomes com desitgi.

Estructura de la wliquidata

En els wíquidos s'emmagatzemen tot tipus de dades i les seves relacions. Però en realitat només existeixen tres tipus de dades: elements, propietats i expressions.

Les dades de tipus element serveixen per a expressar persones, ciutats, cançons, espècies de papers, conceptes abstractes, etc. Cadascun d'ells té un identificador en Wíquidos, compost pel caràcter “Q” i un número. Per exemple, l'element Q1 representa l'univers i es pot accedir a https://www.wliquidata/wiki/Q1; l'element Q12256717 fa referència als germans Elhuyar; l'element Q47588 fa referència a Euskal Herria... A més, cada element pot tenir un nom o etiqueta, una descripció i diversos àlies o altres denominacions per a cada idioma.

Les propietats mostren, per contra, el tipus d'informació i de recursos que poden tenir els elements. Per exemple, la propietat P31 s'utilitza per a indicar el tipus d'element i hi ha propietats per a indicar la data de naixement ( P569 ), per a indicar que forma part d'alguna cosa ( P361 ), per a l'autoria ( P51 )…

Finalment, les expressions afegeixen informació als elements relacionant-los amb una propietat a un valor o un altre element. Per exemple, gairebé tots els elements tenen una expressió amb la propietat P31 (tipus) que els relaciona amb el seu tipus; gairebé totes les persones tenen l'expressió P569 (data de naixement)... Per exemple, una expressió pot ser Q937 (Einstein) – P31 (tipus) – Q5 (persona), o Q937 (Einstein) – P569 (data de naixement) – 1879/03/14, respectivament, indiquen que Einstein és una persona i que va néixer en aquesta data.

La combinació d'aquests tres tipus de dades permet obtenir tota la informació sobre qualsevol cosa. En l'actualitat, Wliquidata té unes 7.000 propietats, gairebé 100 milions d'elements i unes 1.400 milions de declaracions.

També informació lexicogràfica

Encara que en l'origen de Wliquidata era només això (elements, propietats i expressions), es van afegir nous tipus de dades per a guardar també informació lexicogràfica. Els seus identificadors comencen per “L” i defineixen els idiomes, les paraules i les categories (per exemple, la paraula en basca “nou”, de la categoria “nomeni”, és L74178). Un lexema pot adoptar diferents formes, existint un tipus de dada de formes que s'identifica afegint al del lexema un identificador que comença per “F”. A més de la pròpia forma, pot guardar trets gramaticals i quantes expressions desitgi. Finalment, els lexemes també poden tenir diferents accepcions, i per a conservar-los hi ha un tipus de dades de significats.

Amb aquesta estructura es poden formar lèxics de qualsevol llengua. A més, si els significats s'associen als conceptes de Wíquidos, es poden establir relacions interlingüïstiques i, per tant, formar diccionaris bilingües entre qualsevol parell de llengües.

Utilitats, milers

I per a què podria valer una base de dades d'aquest tipus? Per a què no! L'ús ofereix milers d'opcions i oportunitats. Qualsevol usuari pot descarregar Wliquidata i utilitzar-la per al que vulgui. En la interfície web es poden realitzar cerques simples, però a més de les cerques habituals, també es poden realitzar consultes en el llenguatge SPARQL, que permeten realitzar preguntes complexes i interessants com el “nombre de ministres fills d'un ministre per país”.

I bé a través de l'API o bé a través de la descàrrega, es poden realitzar programes per a aprofitar la informació. Per exemple, en la mateixa Wikipedia, en l'actualitat els infotablos (taules amb informació que apareix a la dreta a l'inici d'alguns articles) no s'editen manualment, hi ha diversos programes escrits que poden utilitzar-se per a això en els articles de Wikipedia amb una sola línia. El programa prendrà la informació de Wíquita i completarà la taula i, en cas que la informació es modifiqui o actualitzi en Wíquida, apareixerà automàticament en la taula d'infotelas de l'article sense haver de canviar l'actualització. Aquest nou sistema d'Infotaul va ser desenvolupat per l'Amical Wikimedia catalana i l'Associació Cultural Basca de Wikilaris (EWKE). L'empresa CodeSyntax també utilitza Wliquidata per a elaborar preguntes en un joc de preguntes interrogatives d'una vegada al dia.

Com s'ha dit, existeix una única base de dades Wliquidata, en la qual es pot incloure informació de tots els idiomes. Així, com per al basc és imprescindible que la Wikipedia estigui el més desenvolupada possible en basca, la presència de noms i descripcions i informació lexicogràfica en basca també en Wíquidos és molt important. En Elhuyar, per encàrrec de l'EWKE i en col·laboració amb ells, hem dut a terme dos projectes. D'una banda, escrivim les definicions del Diccionari Enciclpedico de la Ciència i la Tecnologia d'Elhuyar en 6.500 elements científics i tecnològics. D'altra banda, en 2019 incorporem els 10.000 noms més utilitzats del Diccionari de l'Alumne d'Elhuyar, 65 formes de cadascun i la seva accepció i definicions. Amb aquest treball, el basc es va convertir en la sisena llengua en nombre de lexemes o arrels, la segona en nombre de formes de paraules i la primera en nombre d'expressions. Amb els increments que s'han produït, ara som novè en lexemes, prop de 23.000, però continuem sent en les segones formes, prop d'1.250.000, i som els primers, expressivament, amb gairebé 3000.

Es tracta, per tant, d'un projecte molt interessant, Wliquidata, que ja és molt útil i que en el futur, a mesura que vagi creixent, serà encara més útil.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila