Wikidata:Tutoriel SPARQL

This page is a translated version of the page Wikidata:SPARQL tutorial and the translation is 100% complete.

WDQS, le Wikidata Query Service (service de requête de Wikidata), est un outil puissant pour fournir un aperçu du contenu de Wikidata. Ce guide vous apprendra à l'utiliser. Voir aussi le tutoriel interactif par Wikimedia Israël.

Avant de rédiger votre propre requête SPARQL, prenez le temps de regarder {{Item documentation}} ou toute autre requête générique avec modèle et voir si votre requête n'existe pas déjà.

Avant de commencer

Ce guide peut sembler très long et intimidant. Ne soyez pas effrayé ! Acquérir les bases de SPARQL va déjà vous permettre de faire pas mal de chemin — même si vous vous arrêter de lire après #Notre première requête, vous en saurez assez pour écrire de nombreuses requêtes intéressantes. Chaque section de cette page vous outille pour écrire encore plus de questions formidables.

Si vous n'avez jamais entendu parler de Wikidata, SPARQL ou WDQS jusqu'à maintenant, voici une courte explication de ces mots :

Wikidata est une base de connaissances. Cette base contient de nombreuses affirmations/déclarations, comme « la capitale du Canada est Ottawa » ou « la Joconde est peinte avec de la peinture à l'huile sur du bois de peuplier » ou encore « l'or a un point de fusion de 1 064,18 degrés Celsius ».
SPARQL est un langage pour formuler des questions (requêtes) dans une base de connaissance. Avec la bonne base, une requête SPARQL peut répondre à des questions comme « quelle est la tonalité la plus populaire en musique? » ou « quel est le personnage qui a été le plus joué par des acteurs ou actrices ? » ou « quelle est la distribution des groupes sanguins? » or « quelles sont les œuvres d'auteur qui entrent dans le domaine public cette année? »
WDQS, le service de requête Wikidata, joint les deux précédents : vous entrez une requête SPARQL, et elle s'exécute sur l'ensemble des données de Wikidata et vous montre le résultat.

Les bases de SPARQL

Une requête SPARQL simple se présente ainsi :

SELECT ?a ?b ?c
WHERE
{
  x y ?a.
  m n ?b.
  ?b f ?c.
}

La clause SELECT liste les variables que vous voulez renvoyer (les variables commencent avec un point d'interrogation) et la clause WHERE contient des restrictions sur ces variables, principalement sous la forme de triplets ; quand vous exécutez la requête, le service de requête essaye de combiner les variables avec les valeurs courantes de telle manière que les triplets résultant de ce remplissage soient présents dans la base de connaissances, et renvoie un résultat pour chaque combinaison de variables que le service trouve.

Un triplet peut être vu comme représentant deux sommets (i.e. 2 noeuds, 2 ressources) connectés par une arête ou arc (une propriété) à l'intérieur du vaste multigraphe de propriétés orienté que constitue Wikidata. - Il peut être lu comme une phrase (qui se termine avec un point), avec un sujet, un prédicat et un objet. Les termes en anglais sont : subject, predicate, and object :

SELECT ?fruit
WHERE
{
  ?fruit aCouleur jaune.
  ?fruit goût acide.
}

Les résultats pour cette question peuvent inclure, par exemple, "citron". Dans Wikidata, la plupart des propriétés sont de type "a le/la" (en anglais : “has”-kind properties), ainsi la requête pourrait aussi être lue :

SELECT ?fruit
WHERE
{
  ?fruit couleur jaune.
  ?fruit goût aigre.
}

qui se lit comme “?fruit a la couleur ‘jaune’” (et non pas “?fruit est la couleur de ‘jaune’” – gardez cela en tête pour les paires de propriétés comme “parent”/“enfant”!).

Cependant, ce n'est pas un bon exemple pour WDQS. Les goûts sont subjectifs, aussi Wikidata n'a pas de propriété pour cela. Laissons cela de côté, et intéressons-nous aux relations parent/enfant, qui sont généralement non-ambigües.

Notre première requête

Supposons que nous voulions la liste de tous les enfants du compositeur baroque Jean-Sébastien Bach. En utilisant les pseudo-éléments comme dans les requêtes ci-dessus, comment écririez-vous la requête ?

Avec un peu de chance, vous obtenez quelque chose comme cela :

SELECT ?enfant
WHERE
{
  #  enfant "a pour parent" Bach
  ?enfant parent Bach.
  # (note : tout ce qui se trouve après un « # » est un commentaire de code et est ignoré par WDQS.)
}

ou ceci,

SELECT ?enfant
WHERE
{
  # enfant "a pour père" Bach 
  ?enfant père Bach. 
}

ou ceci,

SELECT ?enfant
WHERE
{
  #  Bach "a pour enfant" enfant
  Bach enfant ?enfant.
}

Les deux premiers triplets disent que la variable ?enfant doit avoir le 'parent/père' Bach ; le troisième triplet dit que Bach doit avoir un enfant avec une variable ?enfant. Allons-y avec le deuxième pour l'instant.

Que reste-t-il à faire pour transformer cela en une requête WDQS correcte ? Dans Wikidata, les éléments et les propriétés ne sont pas identifiés par des noms lisibles par des humains tel que "père" (propriété) ou "Bach" (élément). (Pour de bonnes raisons : "Johann Sebastian Bach" est aussi le nom d'un peintre allemand et "Bach" peut aussi faire référence au nom de famille, à la commune française, au cratère sur Mercure, etc.) Au lieu de cela, éléments et propriétés de Wikidata sont affectés à un identifiant. Pour trouver l'identifiant d'un élément, nous cherchons cet élément et nous copions le Q-nombre qui semble être celui de l'élément que nous cherchons (en nous basant sur la description, par exemple). Pour trouver l'identifiant d'une propriété, nous faisons la même chose mais en cherchant “P:terme cherché” au lieu de “terme cherché”, ce qui limite la recherche aux propriétés. Ceci nous apprend que le fameux compositeur Jean-Sébastien Bach est Q1339 et que la propriété pour désigner le père d'un élément est P:P22.

Enfin, nous avons besoin d'inclure les préfixes. Pour des triplets WDQS de base, les éléments doivent être préfixés avec wd: et les propriétés avec wdt:. (Mais ceci ne s'applique qu'aux valeurs - les variables n'ont pas de préfixe !)

En mettant tout cela ensemble, nous arrivons à notre première requête WDQS correcte :

SELECT ?enfant
WHERE
{
# ?enfant père Bach
  ?enfant wdt:P22 wd:Q1339.
}

enfant	enfantLibellé
wd:Q57225	Johann Christoph Friedrich Bach
wd:Q76428	Carl Philipp Emanuel Bach
…

langage naturel	exemple	SPARQL	exemple
phrase	Juliette aime Roméo.	point	`juliette aime roméo.`
conjonction (clause)	Roméo aime Juliette et tue Roméo.	point-virgule	`roméo aime juliette ; tue roméo.`
conjonction (noms)	Roméo tue Tybalt et Roméo.	virgule	`roméo tue tybalt, roméo.`
clause relative (proposition subordonnée)	Juliette aime quelqu'un qui tue Tybalt.	crochets	`juliette aime [ tue tybalt ].`

Wikidata:Tutoriel SPARQL

Avant de commencer

Les bases de SPARQL

Notre première requête

Auto-complétion

Motifs de triplets avancés

Classes et instances

Chemins de propriétés

Qualificatifs

ORDER et LIMIT

Exercice

Les livres d'Arthur Conan Doyle

Éléments chimiques

Les rivières qui se jettent dans le Mississippi

Les rivières qui se jettent dans le Mississippi II

OPTIONAL

Expressions, FILTER et BIND

Types de données

Opérateurs

FILTER

BIND, BOUND, IF

COALESCE

Groupement

Populations des villes

Matériaux de peinture

Fusils par fabricant

Editeurs par nombre de pages

HAVING

Sommaire des fonctions d’agrégation

wikibase:Label et agrégations

VALUES

Et plus loin…

Voir aussi

`ORDER` et `LIMIT`

`OPTIONAL`

Expressions, `FILTER` et `BIND`

`FILTER`

`BIND`, `BOUND`, `IF`

`COALESCE`

`HAVING`

`VALUES`