Wikidata:Werkzeuge/OpenRefine

This page is a translated version of the page Wikidata:Tools/OpenRefine and the translation is 100% complete.

WikidataCon Award 2019
Coolest Tool Award 2022 logo

Open Refine

2022 Coolest Tool
Award Winner

in the category
Eggbeater

OpenRefine-Logo
OpenRefine-Logo
Starte mit einem Video-Tutorial
OpenRefine-Anfänger-Tutorial von Emma Carroll

OpenRefine ist ein kostenloses Werkzeug zur Datenverarbeitung, das zur Bereinigung von Tabellendaten und zur Verbindung mit Wissensdatenbanken, unter anderem Wikidata, verwendet werden kann. Es wurde früher von Google (unter dem Namen Google Refine) entwickelt und wird jetzt von einer Community entwickelt.

Diese Seite sammelt OpenRefine-Anleitungen, die nützlich sein können, um Datensätze in Wikidata zu importieren oder um Datensätze um zusätzliche Daten aus Wikidata zu ergänzen. Du kannst dich bei Fragen zur Software auf der Diskussionsseite melden. Wenn dir die Verwendung des Werkzeugs Spaß macht, kannst du das mit dem {{User loves OpenRefine}}-Babel zeigen.

OpenRefine unterstützt derzeit nur den Abgleich von Datenobjekten. Lexeme werden mit Stand vom September 2022 nicht unterstützt.

Installation und Ausführung von OpenRefine

OpenRefine kann als Anwendung heruntergeladen werden. Es funktioniert auf Desktop- und Laptop-Computern mit den Betriebssystemen Windows, Mac und Linux. Es führt einen kleinen Server auf deinem Computer aus und du nutzt dann einen Webbrowser um damit zu interagieren. Am besten funktioniert es mit Browsern, die auf Webkit basieren, wie Google Chrome, Chromium, Opera und Microsoft Edge, außerdem wird es auf Firefox unterstützt.

OpenRefine hat eine grafische Benutzeroberfläche, die in mehr als 15 Sprachen verfügbar ist.

Installation von OpenRefine auf deinem Desktop- oder Laptop-Computer

Du kannst hier die letzte stabile Veröffentlichung von OpenRefine finden und herunterladen.

Ausführen von OpenRefine auf PAWS

Seit Mai 2021 kann jeder mit einem registrierten Wikimedia-Konto OpenRefine über PAWS in den Wikimedia-Cloud-Diensten ausführen. Bitte beachte, dass dies eine experimentelle Funktion ist, die nicht vom OpenRefine-Team selbst unterstützt wird und Fehlfunktionen haben oder nicht funktionieren kann. Es ist jedoch eine interessante Option für Personen, die Software nicht auf ihrem lokalen Computer installieren können.

PAWS ist ein Werkzeug in der Wikimedia-Cloud, das Zugriff auf Jupyter-Notebooks und andere Werkzeuge bietet, ohne das eine lokale Installation erforderlich ist.

Du kannst über diesen Link auf deine eigene OpenRefine-Installation zugreifen: https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. Du musst dich mit deinen Wiki-Zugangsdaten anmelden, aber wähle Angemeldet bleiben nicht aus, da alle auf PAWS geschriebenen Dateien öffentlich verfügbar sind und du deine Zugangsdaten nicht zugänglich lassen möchtest. Es ist auch möglich, dass du eine Fehlermeldung erhältst. Lade in diesem Fall die Seite neu, dann sollte es funktionieren.

Bitte kontaktiere YuviPanda bei Fragen zu OpenRefine über PAWS.

Hauptfunktionen

Wikidata-Abgleich

In OpenRefine steht Abgleichen (reconciliation) für den Prozess der Verknüpfung von Freitext-Tabellenzellen mit Identifikatoren in Wissens-Datenbanken. OpenRefines integrierte Abgleichsfunktionen machen es zu einem vielseitigen Werkzeug zum Abgleichen von Tabellendaten mit einer Vielzahl von Datenbanken, darunter Wikidata.

 
Halbautomatischer Abgleich von Universitäten in OpenRefine

Das OpenRefine-Wiki enthält eine detaillierte Anleitung über den Abgleichsprozess. Hier die Hauptfunktionen:

  • Beschränke den Abgleich auf eine Wikidata-Klasse. Nur Datenobjekte, die einer Unterklasse dieser Wikidata-Klasse angehören, werden berücksichtigt;
  • Nutze in deinem Datensatz mehrere Spalten und ordne diese Wikidata-Eigenschaften zu, die den Abgleich verfeinern und die Entscheidung bei gleichen Namen erleichtern;
  • Nutze externe Identifikatoren deines Datensatzes und von Wikidata, um die Datenobjekte abzugleichen;
  • Nutze die Seitenlinks deines Datensatzes als externe Identifikatoren - wenn diese Wikimedia-Seiten mit einem Wikidata-Datenobjekt verknüpft sind, werden sie automatisch damit abgeglichen.

Ziehe in Erwägung, dich mit den folgenden Anleitungen zu befassen, wenn du die Abgleichsfunktionen nutzen möchtest:

Dank dem Link https://wikidata.reconci.link/fr/api können APIs beispielsweise nach französischen Bezeichnungen auf Wikidata suchen.

Erweiterung der Daten

 
Diese Video-Aufzeichnung zeigt, wie man neue Spalten hinzufügt, wenn in OpenRefine 2.8 bereits eine abgeglichene Spalte vorhanden ist.

Diese Funktion ist ab OpenRefine 2.8 verfügbar.

Sobald eine Spalte deiner Tabelle mit Wikidata abgeglichen ist, kannst du Daten aus Wikidata ziehen und in deinem Datensatz weitere Spalten erstellen. Wenn es für eine Eigenschaft mehrere Aussagen gibt, werden die Werte als Aufzeichnungen in OpenRefine gruppiert: Sie werden in zusätzlichen Zeilen gespeichert und die ursprüngliche abgeglichene Spalte bleibt frei. OpenRefines Aufzeichnungsmodus ist möglicherweise geeigneter, wenn du die Tabelle später weiter verändern möchtest. Zugriff auf Bezeichnungen von Datenobjekten, Beschreibungen von Datenobjekten und Seitenlinks in Datenobjekten werden über die Eigenschaften Lxx, Dxx und Syyyy bereitgestellt, wobei xx ein Sprachcode (en, fr, yue, etc.) und yyyy eine Seiten-ID (enwiki, ptwikisource, etc.) ist.

Du kannst die Funktion für die neu erstellten Spalten rekursiv nutzen, wenn sie Wikidata-Datenobjekten entsprechen. So kannst du die Wikidata-Darstellung für das gesamte Diagramm untersuchen. Es ist auch möglich, zu konfigurieren, dass die Eigenschaften über bestimmte Wege abgerufen werden (beispielsweise gefiltert nach Rang oder Fundstellen).

Wikidata-Bearbeitung

Diese Funktion ist ab OpenRefine 3.0 verfügbar.

OpenRefine kann Ihnen dabei helfen, tabellarische Daten in Wikidata-Anweisungen umzuwandeln. Dies funktioniert durch die Erstellung eines Schemas - einer Vorlage für die Bearbeitung von Wikidata, die auf jede Zeile Ihrer Tabelle angewendet wird. Sobald du ein Schema erstellt hast, kannst du das tun:

  • eine Vorschau der Wikidata-Bearbeitungen ansehen und diese manuell inspizieren;
  • alle vom Werkzeug automatisch aufgeworfenen Probleme analysieren und beheben;
  • deine Änderungen in Wikidata hochladen, indem du dich mit deinem eigenen Konto anmeldest;
  • die Änderungen in das QuickStatements v1-Format exportieren.

Weitere Einzelheiten findest du auf der Bearbeiten-Unterseite. Viele Tutorials sind verfügbar, um dir den Einstieg zu erleichtern.

Geheimnisse

OpenRefine-Arbeitsabläufe können geteilt werden, indem die JSON-Darstellung der Bearbeitungshistorie kopiert wird. Dies stellt die Befehle dar, die du in OpenRefine eingegeben hast und kann von anderen für ähnliche Datensätze wiederverwendet werden. Dieser Abschnitt führt einige Geheimnisse auf, die für die Arbeit mit Wikidata hilfreich sein können. Siehe auch OpenRefine Recipes.

  • Wikidata-Q-Nummern behalten. Wenn du eine Spalte mit Wikidata abgeglichen hast, kannst du die QIDs behalten, indem du den Befehl Add column based on this column mit folgendem GREL-Ausdruck ausführst: cell.recon.match.id
  • Mehr Variablen. Du kannst auf mehrere unterschiedliche Variablen für die abgeglichene Zelle zugreifen. Sie die Hilfeseite für Variablen.
  • Teile deine Geheimnisse hier!

Unterstütze OpenRefine

OpenRefine benötigt deine Hilfe! Es gibt viele Dinge, die du tun kannst:

Wir haben ein Phabricator-Projekt, das alle Aktivitäten rund um OpenRefine in Wikimedia verfolgt; fühle dich frei, alle Aufgaben mit Bezug hierzu damit zu markieren.

Von 2021 bis 2022 wird OpenRefine um Unterstützung für Strukturierte Daten auf Wikimedia Commons (SDC) erweitert. Dieses Projekt wird durch eine Projektförderung der Wikimedia Foundation finanziert.