Wikidata:Werkzeuge/OpenRefine/Bearbeiten/Anleitungen/Grundlegende Bearbeitungen

This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Tutorials/Basic editing and the translation is 98% complete.
Outdated translations are marked like this.

OpenRefine beinhaltet eine Wikidata-Erweiterung, die dich Tabellendaten in Wikidata-Aussagen umwandeln lässt. Diese Anleitung gibt einen groben Überblick darüber, wie dies funktioniert.

Erste Schritte

In dieser Anleitung werden wir Daten über Universitäten im Vereinigten Königreich importieren. Unsere Quelle ist ein von der Regierung des Vereinigten Königreichs betriebenes Portal, das uns Daten als CSV-Datei herunterladen lässt. Öffne diese Datei mit OpenRefine (du kannst die Link-Adresse kopieren und OpenRefine lädt die Datei für dich herunter).

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Ausgangsstatus des Projekts.

Der erste Schritt ist der Abgleich der Spalte EstablishmentName gegen Wikidata. Gehe in das Menü für diese Spalte und wähle AbgleichenAbgleich starten und wähle den Abgleich gegen Wikidata aus.

OpenRefine versucht, den Typ der Einträge dieser Spalte zu erraten und schlägt university (Q3918) vor: in der Praxis ist dies zu spezifisch, da einige unserer Zeilen Hochschulen oder Akademien behandeln. Wähle deshalb die Option Gegen Typ abgleichen und wähle in dem Feld einen weiter gefassten Typ wie educational organization (Q5341295) aus.

In dem Menü rechts hast du die Möglichkeit, den Abgleichsprozess durch die Verwendung anderer Spalten zu verfeinern. In unserem Beispiel enthält die Spalte URN Identifikatoren, die in Wikidata als DfE URN (P2253) gespeichert sind. Wähle Einbeziehen für diese Spalte aus und gib DfE URN in die Box auf der rechten Seite ein, und bestätige deine Auswahl im Vorschlagsdialog.

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Abgleichsdialog für den initialen Abgleichsschritt.

Starte schließlich den Abgleichsprozess und warte, bis er beendet wird. Die meisten Zeilen sollten aufgrund des eindeutigen Identifikators, den wir angegeben haben, automatisch abgeglichen werden, jedoch ist es allgemein wichtig, die Qualität der Treffer zu überprüfen.

Einige der Zellen wurden nicht automatisch abgeglichen, da es Unterschiede zwischen unserer Tabelle und Wikidata gibt. Du kannst diese isolieren, indem du auf keine im Beurteilungsaspekt auf der linken Seite klickst. Wenn du Zeit hast, kannst du diese manuell abgleichen - dies ist jedoch nicht erforderlich, um mit der Anleitung fortzufahren: nicht abgeglichene Zellen werden in den folgenden Schritten ignoriert.

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Projekt nach dem initialen Abgleich.

Planung des Imports

Scrolle horizontal, um dir die Spalten der Tabelle anzusehen. Viele von ihnen können nach Wikidata importiert werden: die Adresse der Hauptverwaltung (inklusive Postleitzahl), die URL der offiziellen Webseite, die Haupttelefonnummer und sogar der Name und Titel des Leiters der Institution.[1] Zunächst müssen wir verstehen, wie diese Art von Daten in Wikidata derzeit modelliert wird. Klicke ein paar der abgeglichenen Zellen an und sieh dir an, welche Aussagen sie bereits haben.

Nimm University of Birmingham (Q223429) als Beispiel. Dieses Datenobjekt hat bereits die folgenden Aussagen:

official website
  http://www.birmingham.ac.uk/
search formatter URL https://www.birmingham.ac.uk/search.aspx?q=$1
country United Kingdom
0 references
add reference


add value
headquarters location
  Birmingham
street address Edgbaston
postal code B15 2TT
country United Kingdom
0 references
add reference


add value

Dies zeigt uns, wie Wikidata-Eigenschaften für diese Art von Daten genutzt werden. Um eine bessere Vorstellung von der derzeitigen Abdeckung unserer Datenobjekte zu erhalten, nutzen wir die Datenanreicherungsfunktionen von OpenRefine, um die vorhandenen Wikidata-Aussagen in unser OpenRefine-Projekt zu ziehen. Klicke auf die abgeglichene Spalte und wähle Spalte bearbeitenSpalten für abgeglichene Werte hinzufügen. Wähle die Eigenschaften aus, an denen wir interessiert sind, wie official website (P856), headquarters location (P159), located in the administrative territorial entity (P131) und phone number (P1329). Bestätige und warte, bis der Vorgang abgeschlossen ist.

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Datenerweiterung.

Wir können nun auf diese Spalten Aspekte anwenden, um festzustellen, wie hoch ihre Abdeckung in unserem Datensatz ist und um ihre Werte mit denen unserer Quelle zu vergleichen. Klicke beispielsweise auf die Spalte offizielle Webseite, die wir gerade erstellt haben. Wähle AspektBenutzerdefinierte AspekteAspekt Leer. Dies erstellt einen neuen Aspekt auf der linken Seite. Der Wert false entspricht Zellen, die nicht leer sind, also den Zeilen, für die Wikidata bereits eine official website (P856) hat.

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Aspekt einer nach Leere sortierten Spalte.

Zum Zeitpunkt des Verfassens dieses Textes haben alle diese Universitäten bereits eine Webseite in Wikidata (gute Arbeit, Wikidata!). Die zwei verbleibenden Zeilen gehören zu keiner Universität. Dies kann schwierig für dich sein, wenn du nicht alle Zellen abgeglichen hast. Wir können den gleichen Aspekt für andere Spalten verwenden und stellen fest, dass noch keines der Datenobjekte eine phone number (P1329) hat. Lass uns diese importieren!

Ein Schema erstellen

Nun müssen wir OpenRefine anweisen, wie unsere Tabelle in Wikidata-Aussagen übersetzt werden soll. Dies funktioniert über die Erstellung eines Schemas: Es ist eine Vorlage (oder ein Muster) von Aussagen, die auf jede Zeile angewendet werden. Klicke auf die Schaltfläche Wikidata oben rechts auf deinem Bildschirm. Klicke auf Wikidata-Schema bearbeiten, um den Schema-Editor zu öffnen. Du kannst dir den Schema-Editor wie einen Ort vorstellen, an dem du so neue Aussagen erstellst, wie du es auch bei der direkten Erstellung in Wikidata machen würdest. Der Hauptunterschied besteht darin, dass du Spalten als Platzhalter für die Werte dieser Aussagen nutzen kannst. Diese Platzhalter (oder Variablen) werden in jeder Zeile durch den Inhalt der Spalte in dieser Zeile ersetzt. Dies ist in unserem Beispiel nützlich, da die Aussagen, die wir hinzufügen möchten, einem einfachen Muster folgen:

EinrichtungName 1329 TelefonNum

Lass uns zunächst angeben, dass die Spalte EinrichtungName die Datenobjekte enthält, zu denen wir Aussagen hinzufügen möchten. Klicke auf Datenobjekt hinzufügen, um ein neues Datenobjekt zu diesem Schema hinzuzufügen. Ziehe dann die Spalte EinrichtungName an die Stelle des Datenobjektes.

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Angabe der zu verändernden Datenobjekte.

Dann können wir eine Aussage für diese Datenobjekt-Vorlage hinzufügen. Gib die Eigenschaft (mit phone number (P1329)) an und ziehe die Spalte TelefonNum an die Stelle für den Wert der Aussage. Auf die gleiche Art können wir auch andere Aussagen für das gleiche Datenobjekt, sowie Bezeichnungen, Beschreibungen oder Aliasse (für die wir die Schaltfläche Begriff hinzufügen verwenden müssen) hinzufügen.

Probleme finden und beheben

Zu diesem Zeitpunkt zeigt der Reiter Probleme 238 Probleme mit unseren potenziellen Aussagen an.[2] Öffne den Reiter mit den Problemen, um diese zu beheben:

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Von OpenRefine nach unserem ersten Schema-Entwurf gemeldete Probleme.

OpenRefine meldet, dass das Format der Telefonnummern, die wir hinzufügen wollen, nicht dem auf Wikidata erwarteten Format entspricht. Während der angegebene reguläre Ausdruck etwas kryptisch ist, können wir die Eigenschaft anklicken und herausfinden, dass ein Format erwartet wird, bei dem die internationale Vorwahl angegeben wird: anstatt 01784434455 sollten wir +44-1784434455 hinzufügen.

Glücklicherweise können wir dies beheben: wir wissen, dass sich alle diese Institutionen im Vereinigten Königreich befinden und somit die gleiche internationale Vorwahl "+44" haben. Alles was wir tun müssen, ist, diese vor unsere Werte zu setzen und die führende 0 zu entfernen. Gehe zurück zur Tabelle. Finde die Spalte TelefonNum, öffne deren Menü und wähle Zellen bearbeitenTransformieren. Nun können wir einen einfachen GREL-Ausdruck eingeben,[3] um die Werte zu transformieren:

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Reparieren des Formats der Telefonnummern.

Wende die Transformation an und öffne den Schema-Editor erneut. Die Warnung über das Format ist nun verschwunden, aber OpenRefine beschwert sich weiterhin darüber, dass wir für unsere Aussagen keine Fundstellen hinzugefügt haben. Wir wollen nun die Quelle für diese Information angeben und es anderen erleichtern, sie zu verifizieren. In unserem Fall ist die Webseite diejenige, die über DfE URN (P2253) verlinkt ist. Somit können wir einfach diesen Identifikator als Fundstelle nutzen. Der Wert des Identifikators ändert sich für jede Aussage, sodass wir wieder die Spalte, die den Identifikator enthält, an die passende Stelle ziehen müssen:

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Finales Schema.

Wir können auch ein Abrufdatum hinzufügen, da die Daten auf der Webseite in Zukunft möglicherweise aktualisiert werden. Wir haben nun alle von OpenRefine gemeldeten Probleme gelöst und können uns die Vorschau der von unserem Schema generierten Bearbeitungen ansehen.

 
Anleitung zu grundlegenden Bearbeitungen von Wikidata mit OpenRefine, Vorschau der Bearbeitungen

Hochladen der Änderungen nach Wikidata

Nachdem wir jetzt mit unseren Aussage zufrieden sind, können wir sie nach Wikidata hochladen. Klicke auf die Wikidata-Schaltfläche in der Ecke oben rechts und wähle Nach Wikidata übertragen. Du musst dich mit deinem Wikidata-Konto anmelden: die Aussagen werden über dieses Konto hinzugefügt. Dies ist ein relativ kleiner Bearbeitungsstapel, sodass wir ihn einfach selbst ausführen können, bei größeren Gruppen ist es besser, die Änderungen auf Wikidata zu diskutieren und ein Bot-Flag zu beantragen, um die Bearbeitungen durchzuführen.

 
Screenshot eines OpenRefine-Projektes als Teil einer Anleitung zum Wikidata-Import. Finaler Dialog, in dem Bearbeitungen ausgeführt werden können.

Füge für deine Bearbeitungen eine beschreibende Bearbeitungszusammenfassung hinzu: dieser Kommentar wird in der Versionsgeschichte jedes Datenobjektes, das du bearbeitest, auftauchen. Wenn du fertig bist, klicke auf Bearbeitungen ausführen. Das Hochladen wird eine Weile dauern und du kannst den Fortschritt verfolgen, indem du dir deine eigenen Beiträge ansiehst. Wenn du den Vorgang in OpenRefine abbrichst, wird das Hochladen gestoppt, die ausgeführten Bearbeitungen werden jedoch nicht rückgängig gemacht. Wenn du einen Fehler gemacht hast und die gesamte Bearbeitungsgruppe rückgängig machen möchtest, kannst du das Werkzeug EditGroups nutzen.

Zusammenfassung

Gut gemacht, du hast mit wenigen Klicks mehr als 100 gut belegte Aussagen zu Wikidata hinzugefügt! Warum versuchst du dies nicht auch mit einem anderen Datensatz? Ach, und wenn du gerne mit OpenRefine arbeitest, kannst du auch die Benutzerbox {{User loves OpenRefine}} auf deine Benutzerseite setzen. Möchtest du etwas schwierigeres ausprobieren? Gehe dann zu der nächsten Anleitung dieser Reihe, der Anleitung Listeria Invers.

Anmerkungen

  1. Wir können den Leiter des Instituts mit Aussagen wie University of Birmingham (Q223429)director / manager (P1037)Michael Sterling (Q6834612) hinzufügen, nach dem Aufruf der entsprechenden Wikipedia-Seite stellen wir jedoch fest, dass diese Information bereits seit mehreren Jahren veraltet ist, sodass sie vom Import ausgenommen werden sollte.
  2. Wenn OpenRefine keine Format-Verletzungen meldet, hast du vielleicht die falsche Spalte ausgewählt. Wir haben in unserem Projekt zwei Spalten mit Telefonnummern: die originale aus der Quelle (TelefonNum) und diejenige, die wir aus Wikidata gezogen haben (Telefonnummer). Im Schema-Editor wollen wir TelefonNum nutzen, da sich dort unsere neuen Werte befinden.
  3. Besuche das OpenRefine-Wiki, um mehr über diese Ausdruckssprache zu erfahren (du kannst auch Python oder Closure nutzen, wenn du dich mit diesen Sprachen besser auskennst).