Help:Tietoja datasta

This page is a translated version of the page Help:About data and the translation is 69% complete.
Outdated translations are marked like this.

Wikidata on avoin tietopankki, jota voivat lukea sekä ihmiset että koneet. Se on vain yksi monista wiki-pohjaisista projekteista, joita hallinnoi ja ylläpitää Wikimedia-säätiö, avoimen tiedon voittoatuottamaton organisaatio, joka todennäköisesti tunnetaan parhaiten Wikipediasta. Kukin Wikimedia-säätiön projekteista keskittyy omaan kohteeseensa — Wikipedia sisältää tietosanakirjamaista tietoa, Wikimedia Commons tallentaa kuvia ja muita mediatiedostoja, ja Wikisanakirja tarjoaa leksikaalista tietoa sanoista, kuten määrittelyjä ja synonyymejä. Wikidatan painopiste on rakenteinen tieto.

Tämä sivu on tarkoitettu yleiskatsaukseksi rakenteiseen tietoon. Jos rakenteinen tieto on jo tuttua, mutta haluat perehtyä siihen, miten sitä käytetään juuri Wikidatassa, miten Wikidatan tietoja voi lukea, tai miten voit tarjota oman projektisi dataa Wikidataan, hyppää suoraan osioon tiedon linkittämisestä.

Wikidatan ymmärtäminen

Rakenteinen tieto viittaa dataan, joka on järjestetty ja talletettu tietyllä tavalla. Usein tarkoituksena on sisällyttää siihen merkityksiä ja säilyttää erilaisten tietoyksiköiden väliset suhteet.

Mutta mitä data on, ylipäänsä? Ja miksi pitäisi välittää juuri rakenteisesta tiedosta?

Datan määrittely

Big data, kokeellinen data, avoin tieto, metatieto – olet ehkä kohdannut joitain tai jopa kaikki nämä termit aikaisemmin.

Kukin termi merkitsee jotain hieman erilaista, mutta ne kaikki rakentuvat yhteisellä käsitykselle datasta ja sen mahdollisuuksista kuvailla ja parantaa ymmärrystämme ympäröivästä maailmasta.

Abstraktina käsitteenä dataa voi ajatella tiedon edeltäjänä, siten että tietoa voi päätellä tai tuottaa datasta

Näin siksi, että kun data yksinkertaistetaan oleellisimpaan, se on vain arvoja asioille. Nämä arvot voivat olla numeerisia tai määrällisiä, kuten mittoja tai määriä. Ne voivat olla myös laadullisia, kuten kuvailuja tai vertailuja. Voimme esimerkiksi sanoa, että "8 848 m (29 029 ft)" on Mount Everestin korkeuden data-arvo, ja että "punainen" on kissan värin data-arvo.

Kuten edellä mainittiin, informaatio ei ole sama asia kuin data, vaan se on datan keräyksen ja analysoinnin tulos. Esimerkiksi "8 484" (data) on itsekseen merkityksetön numero. Siinäkin tapauksessa, että tiedämme sen tarkoittavan vuoren korkeutta, voimme muodostaa lauseen "8 484 metriä korkea Mount Everest on maailman korkein vuori" (informaatio) vain siinä tapauksessa, että tunnemme korkeuden mittaamisen standardit sekä muiden vuorien korkeudet. Tämän kaltaisten päätelmien tekeminen, uusien huomioiden ja tiedon hankkiminen sekä faktojen toteaminen tulevat helpommiksi, kun data on rakenteellista — palaamme tähän ajatukseen myöhemmin.

Missä dataa on?

Dataa on kaikkialla ympärillämme. On monenlaisia datalähteitä, kuten taloudellista, biologista, ja sosiaalista dataa. Jopa tällä sivulla on dataa! Se sisältää esimerkiksi sanamäärän, luontipäivämäärän ja viimeisen muokkauksen päivämäärän, aiheen, katselukertojen määrän ja kieliversioiden lukumäärän.

Mutta vaikka mahdollisia datan lähteitä on kaikkialla, datalla ei tee mitään, jos sitä ei ole talletettu tai organisoitu. Data ilman rakennetta on hyödytöntä eikä siitä voi johtaa hyödyllistä informaatiota.

Organisoimisella tarkoitamme luokittelua standardisoidulla ja yksiselitteisellä tavalla. Organisoidusta ja luokitellusta datasta käytämme termiä rakenteinen tieto.

 
Wikidatan ominaisuuksiin kuuluu lomakepohjainen tapa lisätä kohteisiin tietoa.

Missä on rakennetta?

Internetissä rakennetta on kaikkialla. Suurin osa sivustoista on tehty käyttämällä HTML-merkintäkieltä, joka tarjoaa nettisivulle rakenteen.

Merkintäkieliä käytetään myös merkitsemään ja kuvailemaan sivun sisältöä niin, että hakukoneet, botit ja sovellukset kuten RSS-syötteet voivat helposti käsitellä ja "ymmärtää" sitä. Esimerkiksi <title> kertoo koneille, mikä sivuston nimi on.

Instead of supporting the structure and common elements of a web page, Wikidata provides structure for all the information stored in Wikipedia, and on the other Wikimedia projects. Wikidata is based on the Mediawiki software as is any other Wikimedia project, extended by Wikibase, the software which powers Wikidata and is designed to manage large amounts of structured data. Structure is not directly added to the content of Wikipedia or other Wikimedia site pages, as in tables or lists, nor is any knowledge of markup languages, data schemas, object notation, or other special syntax required by Wikidata users; instead, data is added to and edited in Wikidata through user-friendly input forms.

All data stored on Wikidata can be used to generate all kinds of automated and up to date lists or tables or other structured pages in any Wikimedia site or elsewhere.

Taulukko 1
Tietoa vuorista
Vuori Ominaisuus Arvo
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Datan jäsentely

For an example on the importance of structure, let's look at Table 1. In this table we can see data for the four highest mountains on Earth. If we would like to know a particular piece of information, such as the height of the second highest mountain in the world, we should be able to look at the provided data and find out the correct value. However, only three of the four mountains have their data categorized as a height value, and only two of those three mountains have values in metres. While we know that height and hauteur (French for height) can be understood as equal to each other, and how to convert metres to feet or vice versa, a machine, such as a bot or a computer program may not.

It would be much easier for both humans and machines to process the information and answer the original question about the second highest mountain when all underlying data is recorded in a similar way even if the presentation differs.

Datan mallintaminen

Rakenteisen tiedon kokoelmat, kuten Wikidata, on organisoitu datamallin mukaisesti. Datamallit ovat koneluettavia, eli tietokone ymmärtää niitä. Vaikka tietokoneet ovat tehokkaita, ne eivät yleensä ole yhtä hyviä tekemään päätelmiä kuin ihmiset. Esimerkiksi yläpuolella olevassa esimerkissä kone ei tietäisi, että height ja hauteur ovat sama asia, ellei niille sitä kerrota.

Taulukko 2
Tietoa vuorista
Vuori Ominaisuus Arvo
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Data models vary based on the analysis needs, scope and conceptual framework of the dataset, and the technical requirements of a system. However, all data models typically will specify what kind of data can be supported by a system and what relationships between values can be understood and represented. For example, a data model could specify that height and hauteur be mapped to each other so that both terms represent one concept, or that measurements in feet be automatically converted into metres. The Wikidata data model shapes the way that data can be edited and added to the system by users. It is also a work in progress, with new data types being added to the model over time.

The data model also essentially translates human natural language patterns into something that can be processed by machines. For example, in English we might say:

"Mount Everest is the highest mountain in the world"

This is also the raw, unstructured format of content currently on Wikipedia and all other Wikimedia sites.

On Wikidata, this would be represented by a statement, which consists of a property-value pair about an item, in this case Earth:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Additionally, Wikidata would also hold a statement about the item for Mount Everest (indicating it is a mountain):

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

Note that because other items can be used as the values for statements, and all items have their own unique page on Wikidata, this means that all items in the system can be linked together through a series of statements. Because Wikidata uses a machine-readable format, this interlinking of data allows new relationships and connections to be discovered and processed by machines. For example, in Table 2 we see new data for our mountains, this time about their geographical location by continent but nothing about their heights. Assuming this continent data was linked to the mountain height data, we would feel more confident making predictions or drawing certain conclusions about it, like saying that Asia is home to the world's highest mountains.

Datan linkittäminen

Besides being a collection of structured data, Wikidata also supports linked data. Linked data refers to the practice of publishing structured data so that it can be interlinked.

For Wikidata this means that volunteer-contributed data can also be linked to other datasets, databases, and data sources from all around the web and from diverse initiatives outside of the Wikimedia family. For example, Wikidata currently allows interlinking with datasets and databases as diverse as Google Books, Canmore (one of the Historic Environment Scotland databases), the Vatican Library, OmegaWiki, and MusicBrainz.

 
esimerkki yksinkertaisesta esityksestä, joka muodostuu yhdestä ominaisuus-arvo-parista
 
esimerkki monimutkaisemmasta esityksestä, joka koostuu yhdestä ominaisuus-arvo-parista, tarkenteista ja viitteestä

By following linked data principles and practices, Wikidata is also able to support and be used by other projects.

Linkitetyn datan periaatteet

Wikidata uses unique identifiers, or uniform resource identifiers (URIs), for all its items as per linked data standards.

While Wikidata uses a unique data model, its content can be exported in RDF, a widely used and standard format for linked data. In Wikidata terms, a statement is composed of an item and a property-value pair. For those familiar with linked data concepts, an item can be viewed as the subject part of a triplet; the property represents a triplet's predicate; and a value is used to express the object of a triplet.

However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".

Osallistuminen

Jos sinulla on data-aineistoja, joita haluaisit tuoda Wikidataan, katso Wikidata:Dataset Imports.

Datan käyttäminen

The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.

See Data access for details about the different ways to programmatically access Wikidata's data.

Katso myös

Katso aiheeseen liittyviä sivuja:

Katso lisätietoja ja ohjeita:

  • Project chat, kaikelle Wikidataan liittyvälle keskustelulle
  • Wikidata:Glossary, tällä ja muilla ohjesivuilla käytettävä sanasto
  • Help:FAQ, useasti kysyttyjä kysymyksiä
  • Help:Contents, ohjeportaali, jossa on kaikki Wikidataan liittyvä dokumentaatio