Wikidata:WikiProject Labels and descriptions/French/Tutoriels/Ajouter des libellés depuis une autre langue

Ce tutoriel a pour objectif d'ajouter massivement des libellés en français depuis une autre langue, en ne modifiant pas ou peu les libellés de la langue source.

Collecte des libellés manquants (Wikidata Query Service)

edit

En premier lieu, récupérons les libellés qui ne sont pas existant en français à partir d'une autre langue. Pour ce faire, utilisons l'outil de requête Wikidata Query Service qui permet de faire des requêtes d'élément avec le langage SPARQL (aide de Wikidata Query).

Requête

edit

Vous pouvez adapter la requête suivante à vos besoins, en créer une nouvelle ou en demander une.

SELECT ?item ?label_id WHERE {
  ?item wdt:P31 wd:Q5 .
  ?item wdt:P27 wd:Q30 .
  ?item rdfs:label ?label_id filter(lang(?label_id) = "en") .
  MINUS { ?item rdfs:label ?label_fr filter(lang(?label_fr) = "fr") . }
}
Try it!

(nature de l'élément : être humain ; pays de nationalité : États-Unis ; libellé en anglais mais pas en français)


Après avoir tapé le code de la requête, appuyez sur « Exécuter » (ou « Run ») pour lancer la requête.

Téléchargement des résultats

edit

Une fois les résultats obtenus, téléchargez les en cliquant sur « Télécharger » puis « Fichier CSV ».

Traitement des résultats (LibreOffice)

edit

Import dans LibreOffice Calc

edit

Ouvrez le fichier CSV précédemment téléchargé avec LibreOffice Calc (tableur). Dans la fenêtre « Import de texte », cochez dans « Options de séparateur » « Séparé par » et cochez :

  • Tabulation
  • Virgule
  • Point-virgule
  • Autre : (

Puis cliquez sur « OK ».

Nettoyage des identifiants

edit

Supprimer la première ligne en cliquant avec le bouton droit de la souris sur le numéro de ligne (1) puis sur « Supprimer les lignes ».

Copiez dans votre presse-papier http://www.wikidata.org/entity/ puis ouvrez l'outil Rechercher & remplacer (Ctrl+H, ou Outil → Rechercher & remplacer)

Dans la case « Rechercher », collez http://www.wikidata.org/entity/, laisser la case « Remplacer par » vide, puis cliquez sur « Tout remplacer ». Les identifiants Wikidata sont ainsi débarrassés de l'URL.

Nettoyage des libellés

edit

En important dans LibreOffice, nous avons défini les séparateurs « , », « ; » et « ( ». Ils permettent de nettoyer les libellés de la langue source. En effet, sauf exceptions, un libellés ne doit pas contenir ces caractères. Particulièrement, la parenthèse héritée du nom d'article Wikipédia n'a pas sa place sur Wikidata. Elles sont le plus souvent supprimées, mais certaines subsistent. Nous les avons éradiquées avec les séparateurs : le caractère est supprimé, et le contenu de la parenthèse se retrouve dans une troisième colonne (colonne C), voir plus loin si plusieurs caractères étaient combinés (parenthèse + virgule par exemple).

Supprimons donc le contenu des colonnes C à H (par précautions).


FACULTATIF (plus compliqué)

Dans notre exemple (citoyens américains), nous voulons aussi modifier directement les libellés. En effet, contrairement à l'anglais, l'usage français ne met pas les initiales des middle names. On veut donc les supprimer. Utilisons de nouveau Rechercher & remplacer (Ctrl+H), mais cette fois-ci la recherche est plus complexe. On coche alors dans « Autres options » l'option « Expressions régulières ». Pour supprimer les initiales (comme pour Hubert C. de la Bouillerie → Hubert de la Bouillerie), on pourrait utiliser simplement l'expression régulière «  [A-Z]\. ». Seulement, on ne veut pas supprimer les initiales en début de nom qui indiquent des prénoms inconnus (H. J. Whigham par exemple). On utilise donc «  (?<=[^.])( [A-Z]\.)+ ». On rentre cette expression dans « Rechercher » et on clique sur « Tout remplacer ».

Pour apprendre à se servir des expressions régulières, vous pouvez utiliser le site RegExr qui permet de les tester en direct et fourni de la documentation (en anglais).


Formatage pour QuickStatements

edit

Avant d'ajouter vos libellés à Wikidata, il vous faut d'abord les rendre compréhensible pour l'outil d'import QuickStatements (syntaxe détaillée sur la page d'import de l'outil).

Pour cela, décalez d'une colonne les libellés (donc de la colonne B à la colonne C). Puis sélectionnez la cellule B1, tapez-y « Lfr » (libellé en français), puis copiez cette valeur pour toutes vos lignes (soit en tirant le carré noir en bas à droite de la cellule vers le bas, soit en utilisant : « Feuille » → « Remplir les cellules » → « Vers le bas » ou Ctrl+D).

Copiez toute vote feuille.

Import (QuickStatements)

edit

Allez sur l'outil en ligne QuickStatements. Autorisez l'outil à faire des modifications en votre nom en cliquant sur le mot « WiDaR » dans la phrase : « You need to authorize WiDaR to edit Wikidata on you behalf for this tool to work! ».

Collez le contenu de votre presse-papier copié dans LibreOffice Calc dans le champ et appuyez sur « Do it ».

L'import est en cours et turbine à environ 80 modifications par minute (soit 4 800 par heure) ! (Si vous ne voyez pas la progression, cliquez sur « Show/hide HOWTO »)

Vous pouvez sans aucun problème avoir plusieurs fenêtres de QuickStatements ouvertes fonctionnant en même temps, permettant de diviser vos imports et ainsi le temps nécessaire.


Merci de participer au projet et n'hésitez à améliorer ce tutoriel avec votre propre expérience !