Help:Om data

This page is a translated version of the page Help:About data and the translation is 88% complete.
Outdated translations are marked like this.

Wikidata är en gratis kunskapsdatabas som kan läsas och redigeras av både människor och maskiner. Det är bara en av flera wiki-baserade projekt som tillhandahålls och underhålls av the Wikimedia Foundation, en nonprofit organisation som tillhandahåller fritt innehåll på Internet. Organisationen är kanske bäst känd för Wikipedia. Vart och ett av Wikimedia Foundations projekt har sin egen inriktning, till exempel är Wikipedia ett öppet uppslagsverk, Wikimedia Commons tillhandahåller bilder och annan media och Wiktionary erbjuder lexikalisk information om ord såsom definitioner och synonymer. Fokuset för Wikidata är strukturerad data.

Denna sida är avsedd att ge en översikt över strukturerad data. Om du redan är bekant med strukturerad data men vill lära dig mer om dess specifika användning på Wikidata, hur du når data på Wikidata eller hur du kan bidra med ditt eget projekts data till Wikidata gå vidare till avsnittet om att länka data.

Att förstå Wikidata

Strukturerad data hänvisar till data som har organiserats och lagrats på ett definierat sätt, ofta med avsikten att koda betydelse och att bevara relationerna mellan olika datapunkter i ett dataset.

Men vad är data egentligen? Och varför bryr man sig om strukturerad data i synnerhet?

Definitionen av data

"Big data", experimentell data, öppen data, metadata - du kanske har stött på några, eller till och med alla, av dessa uttryck förut.

Alla uttryck betyder olika saker men bygger alla på en gemensam uppfattning av data och dess potential att beskriva och hjälpa oss förstå världen omkring oss.

Som ett abstrakt begrepp kan data förstås som ett steg innan det blir information, det vill säga att information kan antyda eller härledas från data.

Detta är ty data, när det kokas ned till sin essens, är enbart en samling av "värden" om "saker". Dessa värden kan vara numeriska eller kvantitativa, som t.ex. en mätning eller en storlek. De kan också vara kvalitativa, som t.ex. en beskrivning eller en jämförelse. Till exempel kan vi säga att "8.848 m (29.029 ft)" är ett datavärde om höjden på Mount Everest och att "röd" är ett datavärde om färgen på en bil.

Som tidigare nämnt är information inte detsamma som data, utan är istället en produkt av insamlingen och tolkningen av data. Till exempel är 8.848 (data) ett tämligen meningslöst tal i sig själv även om vi vet att det är höjden på ett berg; vi kan bara säga att "Mount Everest är med sina 8.848 m det högsta berget i världen" (information) om vi är bekanta med standarderna för höjdmätning och när vi känner till höjden på andra berg. Det blir mycket lättare att dra sådana slutsatser, uppnå nya insikter, skaffa kunskap och fastslå fakta när data är strukturerad - vi återkommer till denna idé senare.

Var finns data?

Data finns överallt omkring oss. Det finns många olika sorters datakällor, däribland finansiella, biologiska och sociala data. Till och med denna sida har data! Exempelvis har den värden för det totala antalet ord, skapelsedatum och datum för senaste ändring, ämne, antalet sidvisningar och vilka språk som innehållet är tillgängligt i.

Men även om allt potentiellt är en datakälla så kunde dåligt insamlad och organiserad data lika gärna inte existera alls. Utan en underliggande struktur framstår data som meningslös och bistår inte med användbar information.

Med "organiserad" så menar vi kategoriserad på ett standardiserat och entydigt sätt. När vi säger strukturerad data så hänvisar vi till data som organiserats och kategoriserats.

 
Wikidata möjliggör formulär-baserad inmatning för att lägga till data om objekt.

Var finns struktur?

På internet regerar strukturen. De flesta webbsidor skapas med hjälp av HTML, ett märkspråk som erbjuder den grundläggande stommen, eller strukturen, hos en webbsida.

Märkspråk används också för att "tagga" och beskriva sidinnehåll så att sökmotorer, bottar och applikationer såsom RSS-flöden enkelt kan bearbeta och "förstå" innehållet. Exempelvis berättar <title>-taggar webbsidans namn för maskiner.

Istället för att stöda hemsidors struktur och element så erbjuder Wikidata en struktur för all information lagrad i Wikipedia och i andra Wikimedia-projekt. Wikidata baseras på Mediawiki-mjukvaran precis som andra Wikimedia-projekt, utökat med Wikibase, mjukvaran som driver Wikidata och är utformad för att kunna hantera stora mängder strukturerad data. Strukturen läggs inte direkt till innehåll i Wikipedia eller andra Wikimedia-sidor t.ex. i tabeller eller listor, och det behövs heller ingen kunskap om märkspråk, datascheman, objektnotation eller annan speciell syntax för att använda Wikidata; istället läggs data in i Wikidata med hjälp av användarvänliga inmatningsformulär.

All data som lagras på Wikidata kan användas för att generera alla sorters automatiska och aktuella listor, tabeller eller andra strukturerade sidor på vilken annan Wikimedia-sida som helst, eller någon annanstans.

Tabell 1
Data för berg
Berg Egenskap Värde
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Strukturera data

För ett exempel på hur viktig strukturen är så tar vi en titt på Tabell 1. I denna tabell finns data om Jordens fyra högsta berg. Om vi vill få specifik information som t.ex. höjden hos det näst högsta berget i världen ska vi kunna titta på datan som finns och plocka ut rätt värde. Dock har bara tre av de fyra bergen sina data kategoriserad som höjdvärde, och endast två av tre har värde i meter. Vi vet att höjd och hauteur (höjd på franska) betyder samma sak och att meter och feet både kan fungera som höjdvärden, men en dator förstår inte alltid det.

Det vore mycket enklare både för människor och maskiner att ta till sig information och svara på den ursprungliga frågan om vilket som är det näst högsta berget, om all underliggande data är insamlad på ett liknande sätt, även om presentationen skiljer sig.

Modellera data

Samlingar av strukturerad data, som Wikidata, är organiserade enligt en datamodell. Datamodeller kan läsas och förstås av datorer. Datorer är kraftfulla men oftast inte lika smarta som oss människor när det kommer till enkla resonemang. Till exempel kan inte en maskin i exemplet ovan veta att höjd och hauteur är samma så länge ingen berättar att så är fallet.

Tabell 2
Data för berg
Berg Egenskap Värde
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Datamodeller varierar beroende på analysbehov, omfattning och konceptuellt ramverk hos datamängden samt systemets tekniska krav. Dock brukar alla datamodeller specificera vilken sorts data som stöds av ett system och vilka relationer värdena kan ha mellan varandra. Exempelvis kan en datamodell specificera att "höjd" och "hauteur" är kopplade till varandra så att båda ord representerar ett koncept, eller att mätvärden i feet automatiskt konverteras till meter. Wikidata's datamodell utformar sättet data kan redigeras och läggas till av användare i systemet. Det hela är också ett pågående arbete och nya datatyper läggs till i systemet vartefter.

Datamodellen översätter även i mönster inom mänskliga språk till något som kan förstås av maskiner. På svenska kan man t.ex. säga: "Mount Everest är världens högsta berg". Detta är det råa ostrukturerade formatet som Wikipedia och alla andra Wikimedia-sidor för tillfället använder för sitt innehåll.

På Wikidata hade detta påstående representerats av ett uttalande, bestående av ett egenskap-värde-par om ett objekt, i detta fall Jorden: Earth (Q2) (objekt)highest point (P610) (egenskap)Mount Everest (Q513) (värde)

Wikidata har även ett uttalande om objektet för Mount Everest (som indikerar att det är ett berg):

$#1(objekt)$#2(egenskap)$#3(värde)$#4

Lägg märke till att eftersom andra objekt kan användas som värden för uttalanden, och alla objekt har sin egen unika sida på Wikidata, så betyder detta att alla objekt i systemet kan länkas ihop genom en serie uttalanden. Wikidata använder sig av ett format maskiner förstår och därför tillåter denna sammanlänkning nya relationer och kopplingar att bli upptäckta av maskiner. Exempelvis ser vi i Tabell 2 nya data för våra berg, den här gången om deras världsdel och inte något om deras höjd. Om vi antar att denna data om världsdel är länkad till datan om bergshöjd kan vi med större säkerhet förutse eller dra vissa slutsatser, som att Asien är hemvisten för världens högsta berg.

Länkning av data

Förutom att vara en samling av strukturerad data så stöder Wikidata också länkad data. Länkade data hänvisar till den praxis att man publicerar strukturerade data så den kan kopplas samman.

För Wikidata betyder detta att data som bidragits av frivilliga också kan länkas till andra datamängder, databaser och datakällor från var som helst på nätet och från olika initiativ utanför Wikimedia-familjen. Wikidata erbjuder för tillfället exempelvis sammanlänkning mellan datamängder och databaser så skilda som Google Books, Canmore (en av databaserna hos the Historic Environment Scotland), Vatikanska biblioteket, OmegaWiki, och MusicBrainz.

 
exempel på ett enkelt uttalande som består av ett egenskap-värde-par
 
exempel på ett mer komplicerat uttalande bestående av ett egenskap-värde-par, bestämningsord och en referens

Genom att följa principer för länkad data kan Wikidata också stöda och användas av andra projekt.

Principer för länkade data

Wikidata använder unika identifierare, eller URIs, för alla sina objekt efter standarden för länkad data.

Medan Wikidata använder en unik datamodell kan dess innehåll exporteras i RDF, ett allmänt använt och standardformat för länkade data. I Wikidata-termer är ett uttalande sammansatt av ett objekt och ett egenskap-värde-par. För de som är bekanta med länkade datakoncept kan ett objekt ses som subjektdelen av en triplett; egenskapen representerar triplettens predikat; och ett värde används för att uttrycka objektet för tripletten.

Wikidata-uttalanden kan emellertid också innehålla element utöver subjekt-predikat-objektet, till exempel referenser och kvalifikationer (för mer information, se Help:Statements). Detta gör det komplicerat att fullt ut representera Wikidatas innehåll med hjälp av RDF-språket. Mer information om dessa utmaningar finns i dokumentet "Introducing Wikidata to the Linked Data Web".

Bidra med data

Om du har datamängder du vill bidra med till Wikidata, ta gärna en titt på Wikidata:Dataset Imports.

Tillgång till data

Data i Wikidata publiceras under Creative Commons Public Domain Dedication 1.0 vilket möjliggör fri återanvändning av datan. Alla data kan kopieras, modifieras, omfördelas och visas, även för kommersiella ändamål utan att be om tillåtelse.

See Data access for details about the different ways to programmatically access Wikidata's data.

Se även

För relaterade sidor:

För ytterligare information och vägledning, se:

  • Bybrunnen, för att diskutera alla aspekter av Wikidata
  • Wikidata:Glossary, ordboken över termer som används här och på andra hjälpsidor
  • Help:FAQ, vanliga frågor ställda och besvarade av Wikidatas gemenskap
  • Help:Contents, hjälpportalen med all dokumentation som finns tillgänglig för Wikidata