Help:Sobre les dades

This page is a translated version of the page Help:About data and the translation is 100% complete.

Wikidata és un banc de coneixements lliure que tant els humans com les màquines poden llegir i modificar. És només un de molts projectes wiki hostatjats i gestionats per la fundació Wikimedia, una organització sense ànim de lucre que ofereix contingut lliure i que és coneguda sobretot per la seva Wikipèdia. Cadascun dels projectes de la fundació Wikimedia té el seu propi objectiu: per exemple, Wikipèdia és una enciclopèdia, Wikimedia Commons és un banc d'imatges i altres mitjans, i Wiktionary és un diccionari que proporciona informacions lèxiques com ara definicions i sinònims. Doncs bé, l'objectiu de Wikidata és subministrar dades estructurades.

Aquesta pàgina pretén ser una visió general de les dades estructurades. Si ja hi esteu familiaritzat, però voleu saber-ne més sobre l'ús específic a Wikidata, sobre com accedir-hi a Wikidata, o sobre com contribuir-ne de pròpies a Wikidata, aneu directament a la secció sobre enllaç de dades.

Entendre Wikidata

Les dades estructurades són dades organitzades i emmagatzemades d'una manera ben determinada, sovint amb la intenció de codificar-ne el significat i de conservar les relacions existents entre els diferents elements d'un conjunt de dades.

Però, de totes maneres, què són les dades? I, per què us haurien d'interessar les dades estructurades en concret?

Definició de les dades

Les dades massives (big data), les dades experimentals, les dades obertes, les metadades... Potser ja us heu trobat amb alguna d'aquestes expressions o fins amb totes.

Cada expressió té un significat una mica diferent, però totes es basen en una concepció comuna de les dades i del seu potencial per descriure el món que ens envolta i per millorar-ne la comprensió.

Com a concepte abstracte, les dades es poden considerar un precursor de la informació, en el sentit que la informació es pot inferir o derivar de les dades.

Això és així perquè les dades, en essència, són simplement valors sobre coses. Aquests valors poden ser numèrics o quantitatius, com ara una mesura o un nombre, o bé qualitatius, com ara una descripció o una comparació. Per exemple, podem dir que "8.848 m" és un valor de dades sobre l'altitud de l'Everest i que "vermell" és un valor de dades sobre el color d'un cotxe.

Com s'ha esmentat més amunt, la informació no és la mateixa cosa que les dades, sinó que és producte de recollir i analitzar les dades. Per exemple, "8.848" (les dades) és un número més o menys mancat de sentit per ell mateix encara que sapiguem que és l'altitud d'una muntanya; que l’Everest és la muntanya més alta del món, amb 8.848 m (la informació) només ho podem dir si estem al corrent de les mesures estàndard de l'altitud i si sabem l'altitud de les altres muntanyes. És molt més fàcil fer aquesta mena d'inferències, formar-se noves idees i establir fets quan les dades estan estructurades (més avall hi tornarem en més detall).

On són les dades?

Les dades les tenim per tot arreu, i provenen de moltes menes de fonts: financeres, biològiques, socials, etc. Fins i tot aquesta pàgina té dades! Per exemple, té un nombre total de paraules, la data de creació i la de darrera modificació, un tema i un títol, un nombre de visualitzacions de pàgina i els idiomes en què el contingut n'està disponible.

Tanmateix, encara que tot pot ser una font de dades, les dades que no estan enregistrades i organitzades és com si no existissin. Sense estructura subjacent, les dades semblen mancades de sentit i no proporcionen informació útil.

Quan diem "organitzades", volem dir categoritzades d'una manera estàndard i inequívoca. Són les dades organitzades i categoritzades les que anomenem dades estructurades.

 
Wikidata permet afegir dades als elements mitjançant formularis

On és l'estructura?

Al web, l'estructura mana. La majoria de llocs web es creen mitjançant HTML, un llenguatge de marcatge que proporciona l'esquelet, o estructura, d'una pàgina web.

També s'utilitzen llenguatges de marques per etiquetar i descriure el contingut de les pàgines perquè els motors de cerca, els bots (programes robot) i les aplicacions com els agregadors de notícies puguin processar-lo i "entendre'l" fàcilment. Per exemple, les etiquetes <title> indiquen a les màquines quin és el nom d'un lloc web.

En comptes de gestionar l'estructura i els elements habituals d'una pàgina web, Wikidata proporciona estructura a tota la informació emmagatzemada a Wikipèdia i als altres projectes de Wikimedia. Wikidata, com els altres wikis de la fundació, es basa en el programa MediaWiki, però ampliat amb Wikibase, un programa que està dissenyat per gestionar grans quantitats de dades estructurades. L'estructura no s'afegeix directament al contingut de les pàgines de Wikipèdia o d'altres llocs de Wikimedia, com ara a les taules o a les llistes, ni cal que els usuaris de Wikidata coneguin cap llenguatge de marques, esquema de dades, notació d'objectes o cap altra sintaxi especial: les dades s'hi afegeixen i es modifiquen mitjançant formularis entenedors.

Totes les dades emmagatzemades a Wikidata poden utilitzar-se per generar tota mena de llistes, taules o altres pàgines estructurades que s'actualitzin automàticament, a qualsevol lloc de Wikimedia o on sigui.

Taula 1
Dades sobre muntanyes
Muntanya Propietat Valor
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Estructurar les dades

Per entendre la importància de l'estructura, observem l'exemple de la taula 1. Hi veiem dades sobre les quatre muntanyes més altes de la Terra. Si volguéssim saber una informació específica, com ara l'altura de la segona muntanya més alta del món, hauríem de poder consultar les dades subministrades i trobar-hi el valor desitjat. No obstant, només tres de les quatre muntanyes tenen les dades categoritzades com a valor d'altitud, i només dues d'aquestes tres tenen els valors en metres. Encara que nosaltres sabem que "hauteur" és com es diu altura en francès, que tant els metres com els peus (ft) serveixen per mesurar l'altitud, i com convertir metres en peus i viceversa, una màquina (com ara un bot o un programa d'ordinador) potser no.

Seria molt més fàcil (tant pels humans com per les màquines) processar la informació i respondre la pregunta original sobre la segona muntanya més alta, si totes les dades subjacents s'enregistressin d'una manera similar encara que es presentessin de maneres diferents.

Modelitzar les dades

Les col·leccions de dades estructurades com Wikidata s'organitzen seguint un model de dades, i els models de dades són llegibles per màquines, és a dir, que els ordinadors els poden entendre. Això és important perquè els ordinadors, tot i ser potents, sovint no són tan intel·ligents com nosaltres a l'hora de fer raonaments simples. Per exemple, a la taula de més amunt, una màquina no seria capaç de saber que "altura" i "hauteur" són la mateixa cosa a no ser que se li ho digués explícitament d'alguna manera.

Taula 2
Dades sobre muntanyes
Muntanya Propietat Valor
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Els models de dades varien segons les necessitats d'anàlisi, l'abast i el marc conceptual del conjunt de dades, i segons els requisits tècnics d'un sistema. Tanmateix, tots els models de dades acostumen a especificar quina mena de dades s'admeten a un sistema i quines relacions entre valors s'entenen i es representen. Per exemple, un model de dades podria especificar que altura i hauteur s'associessin l'un a l'altre perquè tots dos termes representessin un sol concepte, o que les mesures en peus es convertissin automàticament a metres. El model de dades de Wikidata configura com poden els usuaris modificar les dades i afegir-les al sistema. També és una obra en procés, i s'hi van afegint nous tipus de dades.

El model de dades també tradueix els patrons de les llengües humanes naturals a un format que les màquines puguin processar. Per exemple, en català podríem dir:

"L'Everest és la muntanya més alta del món"

Aquest format humà és també el format cru i no estructurat en què el contingut està present actualment a Wikipèdia i a tots els altres llocs de Wikimedia.

A Wikidata, això es representaria amb una declaració, que consta d'un parell propietat-valor sobre un element, en aquest cas la Terra:

Earth (Q2) (element)highest point (P610) (propietat)Mount Everest (Q513) (valor)

A més, Wikidata també tindria una declaració sobre l'element de l'Everest (indicant que és una muntanya):

Mount Everest (Q513) (element)instance of (P31) (propietat)mountain (Q8502) (valor)

Com que es poden utilitzar altres elements com a valors de les declaracions, i tots els elements tenen la seva pròpia pàgina única a Wikidata, tots els elements del sistema es poden enllaçar els uns amb els altres mitjançant un seguit de declaracions. Donat que Wikidata utilitza un format llegible per les màquines, aquest enllaçament de les dades permet que les màquines hi descobreixin noves relacions i connexions i que les processin. Per exemple, a la taula 2 veiem noves dades sobre les nostres muntanyes, aquest cop sobre la ubicació geogràfica per continent, però res sobre les altituds; suposant que aquestes dades sobre els continents estiguessin enllaçades amb les dades sobre les altituds de les muntanyes, podríem fer prediccions més segures o treure'n certes conclusions, com ara dir que a Àsia hi ha les muntanyes més altes del món.

Enllaçar les dades

Wikidata, a més de ser una col·lecció de dades estructurades, també participa en les dades enllaçades. Les dades s'anomenen enllaçades perquè es publiquen a Internet i llavors es poden enllaçar amb altres dades.

En el cas de Wikidata, això vol dir que les dades contribuïdes pels voluntaris també es poden enllaçar amb altres conjunts de dades, bases de dades i fonts de dades d'arreu del web i de diverses iniciatives externes a la família Wikimedia. Per exemple, actualment, Wikidata permet enllaçar amb conjunts de dades i bases de dades tan diversos com ara Google Books, Canmore (una de les bases de dades Historic Environment Scotland), la Vatican Library, OmegaWiki, i MusicBrainz.

 
exemple d'una declaració simple que consta d'un parell propietat-valor
 
exemple d'una declaració més complexa que consta d'un parell propietat-valor, qualificadors i una referència

Com que Wikidata segueix els principis i les pràctiques de les dades enllaçades, altres projectes també poden utilitzar-lo fàcilment.

Principis de les dades enllaçades

Wikidata utilitza identificadors únics, anomenats identificadors uniformes de recursos (URIs), per tots els seus elements, seguint els estàndards de dades enllaçades.

Tot i que Wikidata utilitza un model de dades propi, el seu contingut es pot exportar a RDF, un format estàndard molt utilitzat per les dades enllaçades. Dit en els termes de Wikidata, una declaració està composta per un element i un parell propietat-valor. La correspondència amb els termes habituals en les dades enllaçades és que un element es pot considerar el subjecte d'un triplet, la propietat en representa el predicat i el valor n'expressa l'objecte (o complement).

No obstant, les declaracions de Wikidata també poden contenir informacions que van més enllà del triplet subjecte-predicat-objecte, com ara referències i qualificadors (vegeu Help:Statements). Això fa que representar totalment el contingut de Wikidata mitjançant el llenguatge d'RDF sigui complicat (vegeu el document "Introducing Wikidata to the Linked Data Web").

Contribuir dades

Si teniu conjunts de dades amb què vulgueu contribuir a Wikidata, consulteu Wikidata:Data donation.

Accedir a les dades

Les dades de Wikidata es publiquen sota l'Oferiment al Domini Públic de Creative Commons 1.0, que en permet la reutilització lliure. Podeu copiar, modificar, distribuir i fer comunicació pública de les dades, fins i tot amb finalitats comercials, i sense demanar-ne permís.

A accés a les dades trobareu informació sobre les diferents maneres d'accedir per programa a les dades de Wikidata.

Vegeu també

Pàgines relacionades:

Per a més informació i ajuda, vegeu:

  • Project chat, per discutir tots i cadascun dels aspectes de Wikidata en anglès. En català, a Wikidata:La taverna
  • Wikidata:Glossary, el glossari de termes utilitzats en aquesta pàgina d'ajuda i altres
  • Help:FAQ, dubtes freqüents resolts per la comunitat Wikidata
  • Help:Contents, el portal d'ajuda que conté tota la documentació disponible sobre Wikidata