Help:À propos des données

This page is a translated version of the page Help:About data and the translation is 100% complete.

Wikidata est une base de connaissance libre qui peut être lue et modifiée par les humains et par les machines. Elle a pour objectif de fournir des données structurées. Le projet Wikidata est hébergé et maintenu par la fondation Wikimedia (organisation à but non lucratif qui offre du contenu libre), au même titre que Wikipédia (encyclopédie libre), Wikimedia Commons (médiathèque) et le Wiktionnaire (dictionnaire).

Cette page vise à donner un aperçu des données structurées ; si celles-ci vous sont familières mais que vous souhaitez en apprendre plus sur l′usage spécifique qu′en fait Wikidata, ou si vous voulez savoir comment contribuer à Wikidata avec les données de votre propre projet, allez directement à la section concernant la liaison des données.

Comprendre Wikidata

Le terme « données structurées » désigne des données organisées et stockées d'une façon bien définie, souvent dans l'intention d'en coder la signification et de préserver les relations entre les différents éléments dans un ensemble de données.

Mais qu'est-ce qu'une donnée ? Et pourquoi devrait-on s'intéresser en particulier aux données structurées ?

Définition d'une donnée

Le Big Data, les données expérimentales, les données ouvertes, les métadonnées — vous avez sûrement rencontré au moins l'une ou l'autre de ces expressions.

Chacune de ces expressions, bien qu'ayant une signification un peu différente, est fondée sur la même conception de ce qu'est une donnée et de la manière dont elles peuvent améliorer notre description et notre compréhension du monde.

En tant que concept abstrait, une donnée peut être pensée comme un précurseur de l'information, dans le sens où l'information peut être déduite ou dérivée d'une donnée.

C'est parce qu'une donnée, quand elle est réduite à sa plus simple expression, est simplement un ensemble de « valeurs » concernant des « choses ». Ces valeurs peuvent être numériques ou quantitatives, comme une mesure ou un montant. Elles peuvent être aussi qualitatives, comme une description ou une comparaison. Par exemple, on peut dire que « 8 848 mètres » est une valeur de donnée à propos de la hauteur du mont Everest et que « rouge » est une valeur de donnée à propos de la couleur d'une voiture.

Comme mentionné précédemment, une information n'est pas la même chose qu'une donnée mais est plutôt le produit de la collecte et de l'analyse d'une donnée. Par exemple, « 8 848 » (la donnée) est un nombre quelque peu dénué de sens en lui-même, même si nous savons que c'est la hauteur d'une montagne ; nous ne pouvons dire « le mont Everest est la plus haute montagne du monde avec 8 848 m » (l'information) que si nous sommes au courant des standards de mesure de hauteur, et une fois que nous connaissons la hauteur des autres montagnes. Il devient un peu plus facile de faire de telles déductions, d'avoir de nouvelles idées et connaissances, et ainsi d'établir de nouveaux faits quand les données sont structurées — ainsi que ceci va être développé plus loin.

Où sont les données ?

Les données nous entourent, provenant de diverses sources, financières, biologiques, sociales, etc. Même cette page peut fournir des données, puisqu'elle a, par exemple, un nombre total de mots, des dates de création et de dernière révision, un thème et un sujet, un nombre de vues et les langues dans lesquelles son contenu est disponible.

Cependant, tandis que tout est potentiellement une source de données, les données qui ne sont pas enregistrées et organisées peuvent très bien n'avoir aucune existence tangible. Sans une structure sous-jacente, les données apparaissent sans signification et échouent à fournir une information utile.

Par organisé, il faut entendre catégorisé d'une façon standard et sans ambiguïté. Les données organisées et catégorisées sont habituellement appelées données structurées.

 
Wikidata permet d'ajouter des données à des éléments au moyen d'un simple formulaire.

Où est la structure ?

Sur le web, la structure règne. La plupart des sites sont créés avec du HTML, un langage de balisage qui fournit l'échafaudage de base, ou structure, d'une page Web.

Les langages de balisage sont également utilisés pour l'identification et la description du contenu de la page afin que les moteurs de recherche, les robots (bots) et des applications telles que les flux RSS puissent facilement traiter et « comprendre » cette page. Par exemple, l'étiquette $tag-titre indique aux machines quel est le nom d'un site Web.

Au lieu de gérer la structure et les éléments habituels d'une page Web, Wikidata fournit une structure adaptée à toutes les informations réunies dans Wikipedia et les autres projets Wikimedia. Ceci repose sur le logiciel Mediawiki comme les autres wikis, complété par Wikibase, le logiciel qui fait fonctionner Wikidata en permettant de manipuler massivement des données structurées. La structure n'est pas directement insérée dans Wikipédia ou d'autres pages Wikimedia, que ce soit en liste ou en tableau, et aucune connaissance des langages de balisage, des schémas de données ou d'une autre syntaxe particulière n'est requise de la part des utilisateurs ou contributeurs de Wikidata ; au contraire, les données sont à la fois ajoutées et modifiées par le biais de simples formulaires.

Toutes les données gérées par Wikidata peuvent être exploitées pour créer toutes sortes de tableaux de données, sous forme de liste ou de toute autre présentation, publiés sur n'importe quel site, qu'il s'agisse des projets Wikimedia ou non.

Tableau 1
Données sur les montagnes
Montagne Propriété Valeur
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Structurer les données

L'importance de la structure peut être montrée au moyen du tableau 1, qui présente les données concernant les quatre montagnes les plus hautes de la Terre. Si nous voulions disposer d'une information particulière, telle que l'altitude de la deuxième plus haute montagne, nous devrions examiner et comparer cet ensemble de données pour trouver la valeur souhaitée. Mais ici, seules trois montagnes possèdent une donnée classée et présentée comme une valeur de « taille », et seulement deux de ces trois montagnes ont des valeurs fournies en mètres. Ici, un humain peut comprendre que « taille » équivaut à « hauteur » et sait comment convertir des mètres en pieds et réciproquement. Cependant, une machine, comme un robot ou un programme d'ordinateur, peut être incapable de gérer ces équivalences linguistiques, l'empêchant ainsi d'analyser ces simples données.

Il serait beaucoup plus simple - tant pour les humains que pour les machines - de traiter l'information et de répondre à la question portant sur la deuxième plus haute montagne, si toutes les données utiles étaient organisées et stockées d'une façon similaire, indépendamment de leur présentation.

Modéliser les données

Les collections de données structurées, comme Wikidata, sont toujours organisées en respectant un « modèle de données ». Les modèles de données peuvent être aisément exploités par l'informatique. Alors que les ordinateurs sont utilisés pour leurs performances, ils sont souvent moins intelligents que les hommes dès qu'est exigé le moindre raisonnement. Ainsi, dans l'exemple ci-dessus, une machine qui ne serait pas précisément dédiée à cette tache, ne pourra pas réaliser que « taille » et « hauteur » signifie la même chose dans ce contexte.

Tableau 2
Données pour les montagnes
Montagne Propriété Valeur
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Les modèles de données varient en fonction des besoins de l'analyse, de la portée et du cadre conceptuel global et des exigences techniques d'un système. Cependant, tous les modèles de données spécifieront généralement quels types de données peuvent être exploités et de quelle nature sont les relations entre les valeurs fournies. Par exemple, un modèle de données pourrait indiquer que « taille » et « hauteur » sont liés en ce qu'ils représentent une notion, ou prévoir la conversion des pieds en mètres. Le modèle de données de Wikidata détermine les modalités pratiques d'ajout d'une donnée ou d'une modification par les utilisateurs. Ceci est l'objet de mises à jour fréquentes, de nouveaux types de données étant ajoutés dès que nécessaire.

Le modèle de données traduit également les langages naturels en quelque chose qui peut être traité par des machines. Par exemple, « Le mont Everest est le plus haut sommet du monde », est une formulation brute, non structurée, que l'on peut trouver actuellement comme contenu sur Wikipedia ou tout site Wikimedia.

Sur Wikidata, une telle information serait représentée, en vertu du modèle de données, sous la forme d'une affirmation, elle-même constituée d'une paire propriété-valeur décrivant un élément, ici la Terre

Earth (Q2) (élément)highest point (P610) (propriété)Mount Everest (Q513) (valeur)

De plus, Wikidata aurait aussi une affirmation intégrée à l'élément décrivant le Mont Everest ayant pour but d'indiquer que sa nature est celle d'une montagne :

Mount Everest (Q513) (élément)instance of (P31) (propriété)mountain (Q8502) (valeur)

Tous les éléments peuvent être utilisés comme valeurs dans les affirmations, et tous les éléments ont une page dans Wikidata ; si bien que tous les éléments peuvent être reliés au sein de diverses assertions ou affirmations. Tout ceci étant interprétable par les ordinateurs, cette interconnexion des données est à la base de découvertes automatiques de nouvelles relations et associations, et de leur traitement par des machines. Par exemple dans le tableau 2, qui comprend des données décrivant les montagnes, cette fois de nature géographique telle que leur continent, leur hauteur n'est pas précisée. En supposant que les données relatives aux continents aient été liées d'une manière ou d'une autre aux données sur les altitudes, il devient simple de produire des déclarations jusqu'à présent non explicites, telle que le fait que l'Asie porte le toit du monde.

Lier les données

En plus d'être une collection de données structurées, Wikidata est aussi un acteur du monde des données liées (linked data en anglais). Les données sont dites liées ou reliées parce qu'elles sont publiées sur Internet et qu'elles peuvent donc être reliées aux bases et aux sites d'autres acteurs.

Dans le cas de Wikidata, les contributeurs peuvent ainsi ajouter des affirmations qui lient les données à d'autres ensembles ou bases de données, et des sources provenant de tout le reste du Web et d'autres initiatives externes à la famille Wikimedia. Les ressources actuellement liées à la base de données vont de Google Books à Canmore (l'une des bases de données de Historic Environment Scotland), en passant par la bibliothèque du Vatican, OmegaWiki et MusicBrainz

 
exemple d'affirmation simple constituée d'une seule paire propriété-valeur.
 
exemple d'une affirmation plus élaborée constituée d'une paire propriété-valeur, associée à ses qualificateurs, et une référence

En suivant les principes et pratiques du monde des données liées, Wikidata peut être compatible avec d'autres projets, et être librement utilisée par ceux-ci.

Principes des données liées

Wikidata utilise et crée des identifiants uniques, et des uniform resource identifiers (URIs) (identifiants uniformes de ressources en français), pour chacun de ses éléments en suivant les exigences du monde des données liées.

Wikidata utilise un modèle de donnée qui lui est spécifique, mais le contenu de la base peut être exporté en format RDF, un format standardisé largement utilisé pour les données reliées. Dans le vocabulaire de Wikidata, une affirmation est composée d'un élément et d'une paire propriété-valeur. Pour les personnes familières des concepts des données reliées, un élément peut être vu comme le sujet d'un triplet ; la propriété comme un prédicat ; et la valeur comme l'objet.

Wikidata peut cependant contenir des informations qui sortent du modèle sujet-prédicat-objet, comme les références et les qualificateurs, voir Help:Statements. Cela rend plus complexe la représentation de données Wikidata en RDF. Un document pédagogique explique et documente les problèmes et comment les données sont converties : Introducing Wikidata to the Linked Data Web (pdf, Présentation de Wikidata aux web des données reliées).

Ajouter des données

Si vous disposez de jeux de données que vous aimeriez publier et ainsi contribuer à Wikidata, veuillez vous rendre sur Wikidata:Data donation.

Accéder aux données

Les données de Wikidata sont publiées sous Creative Commons Public Domain Dedication 1.0, autorisant ainsi leur libre réutilisation. Vous pouvez copier, modifier, distribuer et améliorer les données, même dans un cadre commercial, sans avoir à demander la permission.

Voir l'Accès aux données pour les détails concernant les différentes manières d'accéder par programmation aux données de Wikidata.

Voir aussi

Pour les pages relatives à des sujets analogues, voir :

Informations et conseils supplémentaires :

  • Project chat : place de discussion pour tous les aspects de Wikidata
  • Wikidata:Glossary : glossaire des termes utilisés dans les pages d’aide
  • Help:FAQ (foire aux questions) : questions fréquentes et les réponses de la communauté
  • Help:Contents : portail d’accueil de la documentation disponible sur Wikidata