Help:Om data

This page is a translated version of the page Help:About data and the translation is 89% complete.

Outdated translations are marked like this.

Wikidata er en fri kunnskapsbase som kan leses og redigeres av både mennesker og maskiner. Wikidata er bare én av mange wiki-baserte prosjekter som driftes og vedlikeholdes av Wikimedia Foundation, en organisasjon trolig best kjent for Wikipedia. Hver av Wikimedia Foundations prosjekter har sitt eget fokus – for eksempel er Wikipedia for leksikalsk innhold, Wikimedia Commons for bilder og andre mediefiler, og Wiktionary gir leksikalsk informasjon om ord som definisjoner og synonymer. Fokuset for Wikidata er strukturerte data.

Denne siden er ment å gi en kort forklaring på hva strukturerte data er. Hvis du allerede er kjent med hva strukturerte data er, men ønsker å lære mer om hvordan strukturerte data brukes spesifikt på Wikidata, hvordan du kan få tilgang til data herfra, eller hvordan du kan bidra med egne data, se avsnittet om lenking av data.

Forstå Wikidata

Med strukturerte data menes data som har blitt organisert og lagret på en veldefinert måte, ofte med den hensikt å kode mening og bevare relasjoner mellom ulike datapunkter innen et datasett.

Men hva er egentlig data? Og hvorfor bry seg om strukturerte data spesielt?

Definere data

Store data, eksperimentelle data, åpne data, metadata – du kan ha støtt på noen eller kanskje alle disse begrepene tidligere.

Hvert begrep har litt forskjellig betydning, men alle er bygget på en felles forståelse av data og dets potensial for å beskrive og forbedre vår forståelse av verden rundt oss.

Som et abstrakt begrep, kan data ses på som en forløper til informasjon, noe som betyr at informasjon kan utledes eller bli avledet fra data.

Dette kommer av at når data blir kokt ned til sin essens, er det rett og slett et sett av «verdier» om «ting». Disse verdiene kan være numeriske eller kvantitative som et mål eller en mengde. De kan også være kvalitative, som en beskrivelse eller en sammenligning. For eksempel kan vi si at «8 848 m (29 029 fot)» er en dataverdi for høyden på Mount Everest, og at «rød» er en dataverdi for fargen på en gitt bil.

Som tidligere nevnt er ikke informasjon det samme som data, men heller et produkt av samlingen og analysen av data. For eksempel er «8 848» (data) i seg selv et nokså meningsløst tall, selv når vi vet at det er høyden på et fjell; vi kan bare si at «Mount Everest er det høyeste fjellet i verden med sine 8 848 m» (informasjon) hvis vi kjenner til standardmålet for høyde og kjenner høyden til andre fjell. Det blir mye enklere å trekke slike konklusjoner når data er strukturerte, og strukturerte data kan gi ny innsikt, kunnskap og være med å etablere nye fakta. Vi kommer tilbake til denne tankegangen senere.

Hvor er dataene?

Dataene er overalt rundt oss. Det finnes mange typer datakilder, inkludert finansielle, biologiske og sosiale. Selv denne siden har data! For eksempel har den et bestemt antall ord, datoer for når den ble opprettet og sist endret, et tema den omhandler, et bestemt antall sidevisninger og et språk som innholdet er tilgjengelig på.

Men selv om alt er en potensiell kilde for data, har ikke data som ikke har blitt samlet og organisert nødvendigvis noen verdi. Uten en underliggende struktur fremstår dataene meningsløse og gir ingen nyttig informasjon.

Med organisert mener vi kategorisert etter en standard og på en entydig måte. De organiserte og kategoriserte dataene er de vi viser til når vi snakker om strukturerte data.

Wikidata tilbyr skjemaer for å legge til data til elementer

Hvor er strukturen?

På nettet er strukturen konge. De fleste nettsider er laget ved bruk av HTML, et markeringsspråk som gir et grunnleggende stillas, eller struktur, til en nettside.

Markeringsspråk er også brukt for å merke og beskrive innholdet på siden slik at søkemotorer, roboter og programmer som RSS-lesere enkelt kan behandle og «forstå» det. For eksempel forteller <title> maskiner hva navnet til et nettsted er.

I stedet for å støtte strukturen og de vanlige elementene til en nettside, gir Wikidata struktur til all den informasjonen som er lagret på Wikipedia og de andre Wikimedia-prosjektene. Wikidata bygger på Mediawiki-programvaren som andre wikier, men utvidet med Wikibase, en programvare spesielt utviklet for Wikidata for å håndtere store mengder strukturerte data. Strukturen er ikke lagt direkte til innholdet på Wikipedia eller andre Wikimedia-sider, som tabeller eller lister. Det kreves heller ikke kjennskap til kodespråk, dataskjemaer, objektnotasjon eller annen spesiell syntaks for Wikidata-brukere. I stedet blir data på Wikidata lagt til og redigert gjennom brukervennlige skjemaer.

Alle data som er lagret på Wikidata kan brukes til å skape alle mulige slags automatiske og oppdaterte lister, tabeller eller andre strukturerte sider på Wikimedia-nettsteder eller andre steder.

Tabell 1
Data for fjell
Fjell	Egenskap	Verdi
Mount Everest	height	8,848 m
K2	hauteur	8,611 m
Kanchenjunga	height	8,586 m
Lhotse	height	27940 ft

Strukturere data

For et eksempel på viktigheten av struktur, se på Tabell 1. I denne tabellen kan vi se data for de fire høyeste fjellene på jorda. Hvis vi ønsker å vite en spesiell type informasjon, slik som høyden til det nest høyeste fjellet i verden, kunne vi sett på de angitte dataene for å finne riktig verdi. Det er imidlertid bare tre av de fire fjellene som har dataene kategorisert som en høydeverdi, og bare to av disse tre har verdier angitt i meter. Mens vi vet at høyde og hauteur (fransk for høyde) kan forstås som det samme, og at både meter og fot kan fungere som høydemål, er det ikke gitt at en maskin, slik som en robot eller et dataprogram, gjør det.

Det ville være mye enklere for både mennesker og maskiner å behandle informasjonen og svare på det opprinnelige spørsmålet om det nest høyeste fjellet hvis alle underliggende data hadde blitt registrert på samme måte, selv om presentasjonen kunne vært forskjellig.

Modellering av data

Samlinger av strukturerte data, slik som Wikidata, organiseres etter en «datamodell». Datamodeller er maskinlesbare, det vil si at de kan forstås av en datamaskin. Selv om datamaskiner er kraftige, er de ofte ikke så smarte som oss når det kommer til å gjøre resonneringer. For eksempel vil ikke en maskin være i stand til å vite at høyde og hauteur er det samme (se eksempel over) med mindre de blir fortalt at det er tilfelle.

element: «jorden»
egenskap: «høyeste punkt»
verdi: «Everest»

Tabell 2
Data for fjell
Fjell	Egenskap	Verdi
Mount Everest	continent	Asia
K2	continent	Asia
Kanchenjunga	continent	Asia
Lhotse	continent	Asia

Datamodeller varierer basert på analysebehovet, omfanget og det konseptuelle rammeverket til datasettet, tekniske krav, osv. Alle datamodeller vil imidlertid vanligvis spesifisere hva slags data som kan støttes og hvilke relasjoner mellom verdier som kan forstås og være representert. For eksempel kan en datamodell spesifisere at «høyde» og «hauteur» tilordnes til hverandre slik at begge termene representerer ett begrep, eller at mål angitt i fot automatisk blir konvertert til meter. Wikidata-modellen former måten data kan redigeres og legges til i systemet av brukere. Datamodellen er et pågående arbeid der nye datatyper blir lagt til over tid.

Denne datamodellen oversetter også i hovedsak menneskelige naturlige språkmønstre til noe som kan behandles av maskiner. For eksempel kan man på norsk si:

«Mount Everest er det høyeste fjellet i verden»

Dette er også det råe, ustrukturerte innholdsformatet på Wikipedia og alle andre Wikimedia-sider.

På Wikidata er dette representert av et utsagn, bestående av en par av egenskapsverdier om et element, i dette tilfellet jorden:

Earth (Q2) (element) → highest point (P610) (egenskap) → Mount Everest (Q513) (verdi)

I tillegg vil Wikidata inneholde et utsagn om elementet for Mount Everest (indikerer at det er et fjell):

Mount Everest (Q513) (element) → instance of (P31) (egenskap) → mountain (Q8502) (verdi)

Legg merke til at fordi andre elementer kan brukes som verdiene for utsagn, og alle elementene har sin egen unike side på Wikidata, betyr dette at alle elementer i systemet kan knyttes sammen gjennom en serie av utsagn. Fordi Wikidata bruker et maskinlesbart format, gjør disse koblingene av data at nye relasjoner og sammenhenger kan oppdages og behandles av maskiner. For eksempel ser vi i Tabell 2 nye data for fjellene våre. Denne gangen er det angitt geografisk plassering i verdensdel, men ingenting om høyder. Antatt at dette kontinentet var «koblet» til fjellenes høydedata, kunne man vært mer trygg på utsagn eller trekke visse konklusjoner om det, som for eksempel å si at verdens høyeste fjell ligger i Asia.

Lenking av data

Utover å være en samling av strukturerte data, støtter Wikidata også lenkede data. Lenkede data viser til praksisen med å publisere strukturerte data på en måte slik at de kan knyttes sammen.

For Wikidata betyr dette at data skapt av frivillige også kan knyttes til andre datasett, databaser og datakilder fra hele nettet, også ulike initiativ utenfor Wikimedia-familien. For eksempel støtter Wikidata for øyeblikket interlenking med datasett og databaser så forskjellige som Google Bøker, Canmore (en av Royal Commission on the Ancient and Historical Monuments of Scotlands databaser), Vatikanets bibliotek, OmegaWiki, Freebase og MusicBrainz.

eksempel på et utsagn bestående av ett egenskapsverdipar

eksempel på et mer komplisert utsagn bestående av ett egenskapsverdipar, kvalifikatorer og en referanse

Ved å følge prinsipper og praksiser for lenkede data, kan Wikidata også benyttes av andre prosjekter.

Prinsipper for lenkede data

Wikidata bruker unike identifikatorer, eller uniform resource identifier (URIer), for alle elementer etter standard for lenkede data (engelsk).

Selv om Wikidata bruker en unik datamodell, kan innholdet eksporteres til RDF (engelsk), et utbredt standardformat for lenkede data. Med Wikidata-terminologi består et utsagn av et element, en egenskap og en verdi. For de som er kjent med terminologien til lenkede data, så kan et Wikidata-element ses på som subjektet i en trippel, mens egenskapen og egenskapsverdien representerer hhv. trippelens predikat og objekt.

Wikidata-utsagn kan imildertid også inneholde elementer utover subjekt-predikat-objekt, slik som referanser og kvalifikatorer (for mer informasjon, se Hjelp:Utsagn). Dette gjør det komplisert å representere Wikidatas innhold fullstendig på RDF-språket – ytterligere informasjon om disse utfordringene kan finnes i dokumentet «Introducing Wikidata to the Linked Data Web».

Å bidra med data

Hvis du har datasett du ønsker publisert på Wikidata kan du sjekke ut Wikidata:Dataset Imports.

Tilgang til data

Data på Wikidata utgis under Creative Commons Public Domain Dedication 1.0, som tillater fri gjenbruk. Du kan kopiere, endre, distribuere og publisere dataene, også for kommersielle formål, alt uten å be om tillatelse.

See Data access for details about the different ways to programmatically access Wikidata's data.

Se også

For relaterte sider, se:

For ytterligere informasjon og veiledning, se:

Project chat, for diskusjoner rundt alle aspekter av Wikidata
Wikidata:Glossary, ordboken for begreper brukt på denne og andre hjelpesider
Help:FAQ, ofte stilte spørsmål og svar fra Wikidata-samfunnet
Help:Contents, hjelpeportal som inneholder all tilgjengelig dokumentasjon for Wikidata