Wikidata:Tools/OpenRefine/Edition/Alignement du schéma

This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Schema alignment and the translation is 86% complete.
Outdated translations are marked like this.
Exemple d'un schéma simple

Dans OpenRefine, un schéma est un patron de modifications Wikidata qui sera appliqué à chaque ligne du projet. Cette page décrit comment chaque partie de ce patron fonctionne, et comment les modifications sont générées à partir des valeurs dans les cellules. Ceci est un manuel de référence qui se veut exhaustif. Pour une introduction, voir le tutoriel qui explique le principe dans les grandes lignes.

Éléments

Dans un schéma, un élément représente un ensemble de changements sur un même élément Wikidata, générés par la même ligne. Cela peut inclure des changements aux termes (libelés, descriptions et alias) et déclarations.

Il est possible de faire des modifications sur plusieurs éléments pour chaque ligne du tableau. Il suffit pour cela d'ajouter plusieurs éléments dans le schéma. Chaque élément a un sujet, qui peut être entré manuellement (quand l'élément à modifier ne change pas), ou en utilisant n'importe quelle colonne réconciliée. Dans ce cas, les modifications vont dépendre de l'état de réconciliation de la cellule:

  • Si la cellule est liée à un élément, cet élément sera modifié;
  • Si cette cellule est marquée comme correspondant à un nouvel élément, un nouvel élément sera créé pour elle. Consultez la page Nouveaux éléments pour plus d'informations sur ce fonctionnement;
  • Si la cellule a des candidats de réconciliation mais aucun d'entre eux n'a été sélectionné, la modification sera ignorée (même dans les cas où il n'y a qu'un candidat de réconciliation avec un score haut);
  • Si la cellule n'est pas réconciliée ou vide, la modification est aussi ignorée.

Il est inutile d'ordonner les lignes du projet dans un ordre particulier pour l'exécution des modifications: OpenRefine groupe toutes les modifications faites sur un élément et les effectue en une action. Voir la page Envoyer les changements à ce sujet.

Termes

Les termes sont les chaînes de caractères spécifiques à chaque langue qu'on trouve en haut de chaque élément Wikidata: les libellés, les descriptions et les alias. OpenRefine permet de modifier ces termes dans le schéma.

Langues

Chaque terme est entré pour une langue spécifique. Wikidata supporte des centaines de langues qui sont désignées par des codes de langue. Pour chaque terme que vous voulez ajouter à un élément, vous allez devoir spécifier la langue pour ce terme. Il y a deux cas:

  • Soit la langue est constante dans votre jeu de données: vous savez que tous les noms dans une colonne donnée sont écrits dans la même langue. Dans ce cas, entrez le nom de la langue dans le champ et sélectionnez l'entrée appropriée dans le dialogue de suggestion. Cela va placer le code de langue approprié dans le champ.
  • Soit la langue change dans le jeu de données. dans ce cas, il faut fournir une colonne de codes de langues Wikimedia, qui indique la langue de chaque terme que vous voulez ajouter. Il suffit de glisser et déposer cette colonne dans la champ de langue. Si la colonne contient des codes invalides, les termes correspondants seront ignorés. OpenRefine traduira silencieusement tout code de langue déprécié vers sa nouvelle valeur.

Libellés

Ceci est dû au fait qu'un élément Wikidata ne peut pas avoir plus d'un libellé par langue, et donc vous devez choisir si vous voulez remplacer tout libellé existant (comportement par défaut avant la 3.2) ou bien si vous voulez simplement insérer votre libellé s'il n'existe pas encore dans la langue donnée (comportement par défaut à partir de la 3.2). Quand le contenu de la cellule fournissant le libellé est vide, rien ne sera changé (il n'est donc pas possible de supprimer les libellés).

Descriptions

Les descriptions fonctionnent comme les libellés : il y a au plus une description par langue, et OpenRefine peut écraser toute description existante, ou l laisser inchangée. Il n'est pas non plus possible de supprimer des descriptions.

Alias

Les alias sont ajoutés à la liste des alias existants dans la langue donnée. Quand on ajoute un alias dans une langue où il n'existe pas encore de libellé, l'alias est automatiquement promu en libellé pour cette langue. Il n'est pas possible de supprimer ou changer les alias existants.

Déclarations

Des déclarations peuvent être ajoutées dans les schéma: cela générera des déclarations sur les éléments correspondants. Ces déclarations seront fusionnées avec les déclarations existantes et ce processus de fusion dépend du mode de téléversement. À l'avenir il est envisageable de donner plus de contrôle à l'utilisateur sur ces stratégies de fusion.

Valeurs principales

Les déclarations doivent comporter des valeurs principales : aucune valeur (novalue) ou valeur quelconque (somevalue) ne sont pas encore prises en charge. La valeur principale d'une déclaration est une valeur de donnée dont le type dépend de la propriété utilisée pour la déclaration. Si la valeur principale ne peut être évaluée (par exemple parce qu'une des cellules dont elle dépend, est vide), alors la déclaration entière est sautée.

The main value of a statement is a data value whose type depends on the property used for the statement. If the main value cannot be evaluated (for instance because one of the cells it depends on is empty), then the entire statement will be skipped.

Voir la section valeurs des données pour plus de détails à propos de la manière de spécifier chaque type de valeur de donnée et les cas où ils seront sautés.

Qualificateurs

Les qualificateurs peuvent être ajoutés à chaque déclaration. Lorsque leurs valeurs sont sautées, seul le qualificateur est ignoré : le reste de la déclaration sera encore ajouté.

Références

Les références peuvent (et doivent) être ajoutées pour retourner chaque déclaration. Si des valeurs à l'intérieur de la référence sont sautées, la partie correspondante de la référence sera ignorée mais la référence sera encore ajoutée (à moins que la référence ne devienne vide).

Rangs

Chaque rang de déclaration est mis actuellement à Normal. Il n'est pas encore possible d'utiliser un rang différent.

Valeurs des données

Les valeurs des données sont les données que vous pouvez rechercher en tant que cible d'une déclaration (ou comme qualificateur, ou partie de référence). Chaque propriété impose un type particulier de valeur de donnée. Dans chaque cas, OpenRefine utilise un processus particulier pour traduire le contenu des cellules en valeur de données du type approprié. Cette section explique le processus pour chacun des types de données.

Éléments

Items are evaluated in the same way as the subjects of items in the schema. They can be input directly using the auto-suggest service provided, or any column reconciled against Wikidata can be used. See the first Items section to see how they are evaluated.

Chaînes et identificateurs externes

Bare strings and external identifiers can be input directly as constants (if they do not change across rows) or using any column. If a reconciled column is used for a string value, it is the value of the cell that is going to be used, not the name of the reconciled item (which is what OpenRefine displays). Values are skipped when the column is blank or null.

Textes en une seule langue

Les textes monolangue sont formés de deux parties :

Un texte monolangue est sauté lorsqu'une de ses parties est sautée (c'est à dire si la langue ou le texte ne sont pas valides).

Dates

Les dates sont analysées syntaxiquement à partir du contenu des cellules (ou à partir de toute constante fournie dans le schéma) et la précision de la date est déduite de son format. Voici les formats valides :

  • AAAAM, tel que 2001M (précision millénaire)
  • AAAAC, tel que 1901C (précision séculaire)
  • AAAAD, tel que 1981D (pécision décennale)
  • AAAA, tel que 1984 (précision annuelle)
  • AAAA-MM, tel que 2019-03 (précision mensuelle)
  • AAAA-MM-JJ, tel que 1897-08-14 (précision journalière)

Toute valeur qui ne correspondrait pas à ces formats sera ignorée. Toutes les dates sont représentées en temps universel coordonné (UTC), calendrier grégorien.

Dans OpenRefine 3.3, les nouveaux formats suivants ont été introduits :

  • TODAY renvoie la date du jour avec la précision journalière. Ceci sera évalué lorsque les modifications seront faites (ou lors de l'export vers QuickStatements);

Dans OpenRefine 3.5, le nouveau format suivant a été introduit :

  • -234 represents the year 234 BCE

Quantités

Les quantités sont faites de deux parties : le montant et les unités.

  • the amount is mandatory and must be a string, such as 18,229.1020. The precision that is displayed will be respected (the same number of trailing zeros will be shown in Wikidata). By default, no upper and lower bounds will be set. To define these, one needs to use the engineering notation, such as 3.45E+3, which will be interpreted as 3,450±5. As usual, the amount can be provided as a constant or as a column variable. In the latter case, the values in the column must be strings.
  • the unit is optional. It is an item, so it can be provided either with the auto-suggest dialog or as a reconciled column. It is important to note that if a reconciled column is used, any unreconciled cells will discard the entire quantity value. So a template for a quantity value is either always unit-less, or always has a unit.

Coordonnées terrestres

Les coordonnées géographiques sont spécifiées en tant que chaînes avec les formats suivants, où tous les composants représentent un nombre de degrés exprimé en virgule flottante (float) :

  • latitude,longitude pour une précison par défaut de dix micro degrés (par exemple : 49.265278,4.028611 peut être indiqué pour utiliser la position de Reims (Q41876)).
  • latitude,longitude,précision lorsque vous fournissez explicitement une précision (par exemple 49.265278,4.028611,0.1 peut être utilisé pour indiquer la position de Reims (Q41876) dans un intervalle d'un dizième de degré).

Toutes les coordonnées sur un globe sont décrites sur Earth (Q2).

Si vos coordonnées sont dans un format différent tel que 49° 15′ 55″ N, 4° 1′ 43″ E, vous devez d'abord les convertir dans un format décimal.

Média sur Commons

Media on Wikimedia Commons is treated like strings, whose values must exactly match filenames on Commons. These values are not checked during schema evaluations: if they are wrong, uploading the statements will fail.

Les données tableur et Geoshapes doivent être préfixées par l'espace de noms Data:. Ceci est mentionné par le positionneur dans le champ qui apparaît lors de la construction du schéma.

Propriétés

Les propriétés sont toujours constantes : il n'y a actuellement aucun moyen de réconcilier une colonne avec des propriétés. Elles doivent être sélectionnées avec le dialogue auto-suggestion.

Autres types de données

Les URLs, les expressions mathématiques et les autres types de données textuelles sont pris en charge et traités comme des chaînes. Au moment d'écrire ces lignes, tous les types de données pris en charge par Wikidata le sont également par OpenRefine.

It is not possible to add, change or delete sitelinks as of May 2024.[1]

References

  1. Issue "Adding also sitelinks to Wikidata while reconciling" on Github.