Wikidata:Tools/OpenRefine/Editing/New items

This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/New items and the translation is 100% complete.

OpenRefine kann neue Elemente erstellen. Diese Seite erklärt, wie sie erzeugt werden.

Gefahrenzone

  • Die Tatsache, dass OpenRefine beim Abgleich einer Zelle kein Element vorschlägt, bedeutet nicht, dass das Element auf Wikidata nicht exisitert. Bitte stelle sicher, dass du keine Duplikate erstellst!
  • Das Löschen von Elementen erfordert besondere Rechte: Wenn du eine Bearbeitungsgruppe, die neue Elemente enthält, rückgängig machen willst, musst du einen Administrator bitten, dies zu tun.

Überblick des Arbeitsablaufs

 
Als "neu" abgeglichene Zellen im Vergleich zu einer Zelle, die zu einem bereist vorhandenen Datenobjekt passt.

Typischerweise würdest du mit OpenRefine wie folgt neue Datenobjekte erstellen:

  • Eine Spalte abgleichen;
  • Einige der Zellen als neue Datenobjekte markieren. Dadurch werden noch keine neuen Datenobjekte erstellt. Wenn du viele Zeilen als neue Datenobjekte markieren musst, kannst du den Befehl AbgleichenAktionenFür jede Zelle ein neues Datenobjekt erstellen nutzen.
  • Erstelle wie gewöhnlich ein Wikidata-Schema und nutze dabei die Spalte, in der neue Datenobjekte markiert sind;
  • Führe die Bearbeitungen aus: An diesem Punkt werden die neuen Datenobjekte auf Wikidata erstellt;
  • Die Zellen, die du als neue Datenobjekte markiert hast, werden jetzt mit den neu erstellten Datenobjekten abgeglichen.

Es ist häufig hilfreich (jedoch nicht erforderlich), neue Datenobjekte einzeln zu behandeln und ihnen eigene Schemas zu widmen. Dies hilft dir dabei, neuen Datenobjekten viele Aussagen hinzuzufügen (darunter Bezeichnungen und Beschreibungen), ohne bei bereits vorhandenen Datenobjekten mit entsprechenden Bearbeitungen Chaos zu verursachen. Nutze einen Aspekt des Beurteilungsstatus der abgeglichenen Spalte, um neue Datenobjekte zu isolieren und ihre Bearbeitungen getrennt vorzunehmen. Wie immer bei OpenRefine werden nur die Zeilen zum Hochladen der Bearbeitungen nach Wikidata genutzt, die von deinem Aspekt abgedeckt werden: Wenn eine Zelle mit einem neuen Datenobjekt abgeglichen wurde, jedoch außerhalb des Aspektes liegt, wird dafür kein neues Datenobjekt erstellt.[1]

Beachte, dass selbst wenn du weißt, dass alle Datenobjekte deiner Spalte neu sind, zunächst ein Abgleich mit einem der Wikidata-Abgleichsservices vorgenommen werden muss und anschließend der Abgleichsstatus auf "neu" gesetzt werden kann. Wenn du den ersten Teil überspringst, wird OpenRefine nicht wissen, dass die Spalte mit Wikidata abgeglichen wurde (sie könnte mit anderen Services abgeglichen worden sein) und sie dich nicht an der Stelle eines Datenobjektes in einem Wikidata-Schema nutzen lassen.

Du kannst die Bearbeitungen auch über QuickStatements ausführen - in diesem Fall wird OpenRefine dein Projekt nicht mit den neuen QIDs aktualisieren.

Bezeichnungen zu neuen Datenobjekten hinzufügen

 
Probleme bei der Erstellung neuer Datenobjekte mit wenig Inhalt.

Der Text in einer Zelle, der als "neu" abgeglichen wurde, wird nicht automatisch als Bezeichnung für das neu erstellte Datenobjekt genutzt. Dies liegt daran, dass OpenRefine nicht erraten kann, zu welcher Sprache diese Bezeichnung gehört. Wenn du neue Datenobjekte erstellst, musst du die Bezeichnung explizit in dem Schema angeben. Für die Bezeichnung kann die abgeglichene Spalte als Quelle genutzt werden, wenn du jedoch andere Zellen mit existierenden Datenobjekten abgeglichen hast, musst du darauf achten, deren Bezeichnungen nicht zu überschreiben (wenn dies nicht deine Absicht ist).

OpenRefine wird es ablehnen, Bearbeitungen vorzunehmen, bei denen Datenobjekte ohne Bezeichnung erstellt werden würden (da dies ein kritisches Problem ist). Andere Probleme werden ebenfalls gemeldet, wenn die Datenobjekte nicht genügend Basisinformationen enthalten (diese Warnungen werden dich jedoch nicht davon abhalten, die Bearbeitungen auszuführen).

Mehrere Zellen als identische Datenobjekte markieren

Wenn du einzelne Zellen als neue Datenobjekte markierst, wird für jede Zelle ein neues Datenobjekt erstellt. Manchmal gehören mehrere Zeilen zu dem gleichen Datenobjekt. OpenRefine ermöglicht es, alle zusammengehörigen Zellen als das gleiche neue Datenobjekt zu markieren. Dabei müssen zwei Bedingungen erfüllt werden:

  • die abgeglichenen Zellen müssen sich in der selben Spalte befinden (es ist nicht möglich, zwei Zellen in unterschiedlichen Spalten als gleiches neues Datenobjekt zu markieren);
  • die Zellen müssen den gleichen Ausgangs-Textwert enthalten.

Wenn diese beiden Bedingungen erfüllt werden, kannst du die Zellen mit Aspekten isolieren und auf AbgleichenAktionenEin Datenobjekt für ähnliche Zellen erstellen gehen. Dies markiert die Zellen als neu und zum gleichen Datenobjekt gehörend.

Abrufen der QIDs der neu erstellten Datenobjekte

Wenn du deine Bearbeitungen mit OpenRefine ausgeführt hast, werden alle von dem Aspekt umfassten neuen Zellen mit den neuen QIDs aktualisiert. Du kannst diese QIDs über Spalte bearbeitenFüge Spalten basierend auf dieser Spalte hinzu abrufen und den Ausdruck cell.recon.match.id nutzen. Beachte, dass du zu diesem Zeitpunkt nicht mehr neue Datenobjekte über Aspekte isolieren kannst (da der Aspekt als abgeglichen aktualisiert wird), sodass es sinnvoll sein kann, diese Zeilen zu markieren (beispielsweise mit einem Stern oder einer Flagge), bevor die Bearbeitungen ausgeführt werden.

  1. Die einzige Ausnahme für die Regel betrifft mehrere Zellen, die für die gleichen Datenobjekte markiert sind: In diesem Fall werden, wenn eine der Zellen von dem Aspekt abgedeckt wird, nach Abschluss der Bearbeitungen alle anderen Zellen mit der neu erstellten QID aktualisiert.