Wikidata:Outils/OpenRefine

This page is a translated version of the page Wikidata:Tools/OpenRefine and the translation is 100% complete.

Prix ​​WikidataCon 2019
Coolest Tool Award 2022 logo

Open Refine

2022 Coolest Tool
Award Winner

in the category
Eggbeater

Logo d'OpenRefine
Logo d'OpenRefine
Commencez par un tutoriel vidéo
Tutoriel pour débuter sur OpenRefine par Emma Carroll

OpenRefine est un outil libre d'extraction de données qui peut être utilisé pour nettoyer des tableaux, et les connecter à des bases de connaissances, dont Wikidata. Il était précédemment développé par Google (sous le nom de "Google Refine") et est maintenant soutenu par des bénévoles depuis son abandon lors de la fermeture de Freebase.

Cette page regroupe des recettes pour OpenRefine qui sont utiles pour importer des jeux de données dans Wikidata, ou pour les enrichir avec des données extraites de Wikidata. N'hésitez pas à utiliser la page de discussion pour demander de l'aide sur ce logiciel. Si vous appréciez l'outil, vous pouvez faire passer le mot via la boîte utilisateur {{User loves OpenRefine}}.

OpenRefine intègre seulement la réconciliation avec les éléments. En septembre 2022, les Lexèmes ne sont pas pris en charge.

Installer et utiliser OpenRefine

OpenRefine peut être téléchargé en tant qu'application. Il fonctionne sur les ordinateurs de bureau et portables avec les systèmes d'exploitation Windows, Mac et Linux. Il exécute un petit serveur sur votre ordinateur et vous utilisez ensuite un navigateur Web pour interagir avec lui. Il fonctionne mieux avec les navigateurs basés sur Webkit, tels que Google Chrome, Chromium, Opera et Microsoft Edge, et est également pris en charge sur Firefox.

OpenRefine possède une interface utilisateur graphique disponible dans plus de 15 langues.

Installez OpenRefine sur votre propre ordinateur de bureau ou portable

Vous pouvez trouver et télécharger la dernière version stable d'OpenRefine ici.

Exécuter OpenRefine sur PAWS

Depuis mai 2021, toute personne disposant d'un compte Wikimedia enregistré peut exécuter OpenRefine dans PAWS sur Wikimedia's Cloud Services. Veuillez noter qu'il s'agit d'une fonctionnalité expérimentale qui n'est pas prise en charge par l'équipe OpenRefine elle-même, et qui peut casser ou mal fonctionner. C'est cependant une option intéressante pour les personnes qui ne peuvent pas installer de logiciel sur leur ordinateur local.

PAWS est un outil Wikimedia Cloud qui fournit un accès hébergé aux blocs-notes Jupyter et à d'autres outils sans nécessiter d'installation locale.

Vous pouvez accéder à votre propre installation d'OpenRefine avec ce lien : https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. Vous devrez vous connecter avec vos informations d'identification wiki, mais ne cochez pas la case Se souvenir de moi : comme tous les fichiers écrits sur PAWS sont accessibles au public, vous ne voulez pas que vos informations d'identification soient accessibles. Il est également possible que vous obteniez un message d'erreur ; si tel est le cas, actualisez la page et cela devrait fonctionner.

Vous pouvez contacter YuviPanda pour les questions sur OpenRefine via PAWS.

Fonctionnalités principales

Réconciliation avec Wikidata

Dans la terminologie d'OpenRefine, la réconciliation est le processus d'alignement de données textuelles brutes avec des identifiants de bases de connaissances. Les fonctionnalités natives de réconciliation d'OpenRefine en font un outil polyvalent pour aligner des données tabulaires à de nombreuses bases de données, dont Wikidata.

 
Réconciliation semi-automatique des universités dans OpenRefine

Le wiki d'OpenRefine contient un guide détaillé du processus de réconciliation. Voilà les fonctionnalités principales :

  • Restreindre la réconciliation à une classe Wikidata. Seuls les items appartenant à des sous-classes de cette classe Wikidata seront pris en considération ;
  • Utiliser plusieurs colonnes dans votre jeu de données en les faisant correspondre à des propriétés des items à réconcilier. Cela raffine le score de réconciliation et départage les homonymes.
  • Utiliser les identifieurs externes déjà présent dans votre dataset en les comparant à ceux présents sur Wikidata;
  • Utiliser les liens vers d'autres sites Wikimedia (comme Wikipedia) - si ces pages sont liées à un item Wikidata, elles seront directement réconciliées à cet item.

Si vous voulez utiliser les fonctionnalités des réconciliations, imprégnez vous de ces manuels d'instruction :

Les API peuvent être, par exemple, une recherche sur les libellés en français avec Wikidata grâce au lien https://wikidata.reconci.link/fr/api.

Extension des données

 
Saisie d'écran montrant l'ajout de colonnes dans OpenRefine 2.8 à partir de données réconciliées.

Cette fonctionnalité est disponible à partir d'OpenRefine 2.8

Une fois qu’une des colonnes de votre tableau est réconciliée à Wikidata, il est possible d’extraire des données de Wikidata pour créer de nouvelles colonnes dans votre jeu de données. Si un item a plusieurs valeurs pour une propriété donnée, ces valeurs seront regroupées au sein d’un même « record » dans OpenRefine : de nouvelles lignes seront créées pour les insérer. Le « record mode » d’OpenRefine peut être plus adapté pour transformer ces valeurs a posteriori. L’accès aux libellés, descriptions et hyperliens des éléments est fourni par les propriétés Lxx, Dxx et Syyyy, où xx est un code de langue (fr, en, yue, etc.) et yyyy est un identifiant de projet (enwiki, ptwikisource, etc.)

Vous pouvez utiliser cette fonction récursivement sur les colonnes qui viennent d'être créées, si elles correspondent à des éléments Wikidata. Cela vous permet d'explorer le graphe de Wikidata en suivant les propriétés que vous sélectionnez. Il est aussi possible de configurer le mode de récupération des propriétés (par exemple, en filtrant par rang ou par référence).

Import de données dans Wikidata

Cette fonctionnalité est disponible à partir d'OpenRefine 3.0

OpenRefine permet de transformer des données tabulaires en modifications sur Wikidata. La transformation est régie par un « schéma » − un patron de modification Wikidata qui est appliqué à chaque ligne de votre tableau. Une fois que vous avez créé un schéma, vous pouvez :

  • prévisualiser les modifications sur Wikidata et les inspecter manuellement;
  • analyser et résoudre les problèmes de qualité détectées automatiquement par l'outil;
  • téléverser vos modifications dans Wikidata en vous connectant avec votre propre compte;
  • exporter les modifications au format QuickStatements.

Consultez la sous-page sur les imports pour plus de détails. Beaucoup de tutoriels sont disponibles pour vous permettre de commencer.

Recettes

Les manipulations faites dans OpenRefine peuvent être partagées en copiant la représentation JSON de l'historique d'édition. Cela représente les opérations que vous avez effectuées dans OpenRefine, et peut être réutilisé sur des jeux de données similaires. Cette section liste des recettes qui peuvent être utiles pour travailler avec Wikidata. Voir aussi OpenRefine Recipes.

  • Obtenir des identifiants Wikidata. Une fois que vous avez réconcilié une colonne avec Wikidata, vous pouvez obtenir les Qids dans une nouvelle colonne, en utilisant l'opération "Ajouter une colonne à partir de cette colonne", avec l'expression GREL suivante: cell.recon.match.id
  • Partagez votre recette ici!

Aider OpenRefine

OpenRefine a besoin de votre aide ! Il y a beaucoup de choses que vous pouvez faire :

Nous avons un projet Phabricator pour suivre les activités autour de OpenRefine dans Wikimedia; vous, pouvez baliser avec lui toutes les tâches qui sont en rapport avec.

En 2021–2022, OpenRefine est étendu avec le support des Données Structurées sur Wikimedia Commons (SDC). Ce projet est financé par une bourse de projet de la fondation Wikimedia.