Wikidata:Werkzeuge/Author Disambiguator

This page is a translated version of the page Wikidata:Tools/Author Disambiguator and the translation is 98% complete.
Outdated translations are marked like this.

Author Disambiguator ist ein Werkzeug zur Bearbeitung der Autoren von in Wikidata vorhandenen Werken. Es wurde als Teil der m:WikiCite-Initiative entwickelt und wird teilweise zusammen mit dem Scholia-Projekt koordiniert, das basierend auf in Wikidata vorhandenen Informationen wissenschaftliche Literatur visuell repräsentiert. Stand Oktober 2020 zeigt die Scholia-Statistik, dass Wikidata Daten zu über 36 Millionen wissenschaftlichen Artikeln enthält, bei denen die Autoren in 133 Millionen Fällen als einfache Zeichenkette (Eigenschaft author name string (P2093)) und in 19 Millionen Fällen als Links auf die Datenobjekte der Autoren (Eigenschaft author (P50)) angegeben sind. Die Verbindung mit dem Datenobjekt des Autors ermöglicht eine gründlichere Analyse und Verfolgung der Beziehungen zwischen Forschern und ihren Werken, Institutionen, etc. Anspruch dieses Werkzeugs ist es, die Konvertierung der Zeichenketten in Links auf Datenobjekte von Autoren so effizient und einfach wie möglich zu gestalten.

Hauptfunktionen

Finde und gruppiere Werke mit einer vorgegebenen Namens-Zeichenkette

 
Eingabeformular des Author Disambiguator für den Namen des Autors

Das Hauptfeld im Eingabeformular ist das Feld für den Namen des Autors - dieser Name wird sowohl genutzt, um Werke mit dieser Namenszeichenkette, als auch potenzielle Datenobjekte von Autoren in Wikidata zu finden, die die Zeichenketten ersetzen könnten. Der Name sollte in der normalen Reihenfolge (beispielsweise Vorname(n) Familienname(n) für westliche Autoren) angegeben werden. Du kannst den Namen auch aus der Zeichenkette eines Beispielwerkes kopieren und einfügen. Im Hintergrund wird der Name in seine Komponenten aufgeteilt (getrennt durch Leerzeichen oder Striche), um andere potenzielle Formen zu generieren, die in Werken verwendet worden sein könnten. Im Detail bestimmen die ausgewählten Optionen, wie der Name für die Suche genutzt wird:

  • Fuzzy match: Dies ist die aggressivste Form des automatischen Zerlegens von Namen, wobei nach Vornamen und Mittelnamen als Initialen, großgeschriebenen Versionen des Namens, dem "Last F"-Format, etc gesucht wird. In den meisten Fällen ist dies die nützlichste Option, um die größtmögliche Auswahl von Werken zu finden, die zusammenpassen. Davon ausgenommen sind jedoch Fälle mit sehr häufigen Familiennamen. (Beachte, dass hier nur nach Teilen der Zeichenkette des Autorennamens selbst gesucht wird; beispielsweise gibt eine Suche nach "Jim Smith" Ergebnisse für "J Smith" und "Smith J", jedoch nicht für "Jimmy Smith".)
  • Wikibase search: Standardmäßig werden nur genaue Übereinstimmungen der Zeichenkette mit den generierten Namensversionen genutzt. Mit dieser Option wird die Suche ausgeweitet, sodass das Wikidata-Suchfeld für den Namen genutzt wird (es werden alle Akzente und Groß- und Kleinschreibung ignoriert). Der Suchbegriff wird als Zitat behandelt, sodass "James Baker" Ergebnisse für "Peter James Baker" und "James Baker-Jarvis", jedoch nicht für "James F. Baker" oder "James Kenneth Baker" bringt.
 
Beispiel der Box "Specify name strings" mit Variationen des angegebenen Namens.
  • Specify name strings: Wähle diese Option und klicke auf "Look for author" und eine Textbox mit möglichen Namensvarianten erscheint, die so ähnlich aussieht wie auf dem Bild rechts. Standardmäßig zeigt diese Box die automatisch aus dem eingegebenen Namen generierten Namensvarianten an - in diesem Fall werden Versionen mit und ohne Akzente, mit Initialen für Mittelnamen oder ohne Mittelnamen sowie der vollständige Name angezeigt. Die Textbox erlaubt es dann, Namen aus der Liste zu entfernen oder Namen hinzuzufügen, die nicht automatisch generiert wurden. Gib einen Namen je Zeile ein. Dies ermöglicht eine präzisere Auswahl der Namen, die zur Suche nach Werken und Datenobjekten von Autoren genutzt werden. Im Beispiel hat selbst Fuzzy match die häufige Variante "J. Benlloch" nicht automatisch generiert, sodass es sinnvoll war, diese hinzuzufügen.
  • Additional SPARQL filters: Dies ist am nützlichsten, wenn du zu viele passende Werke erhältst (beispielsweise mehr als 500!) oder wenn du die passenden Werke aus anderen Gründen filtern möchtest. Die Filter werden auf die entsprechenden Werke angewendet, sodass jede Eigenschaft eines Werkes genutzt werden kann. Der Beispielvorschlag nutzt main subject (P921), vielleicht möchtest du jedoch auch nach author name string (P2093) (Namenszeichenkette eines Mitautors), author (P50) (ein bestimmter, identifizierter Mitautor), published in (P1433), etc. filtern.
  • Filter potential authors as well?: Dies wendet den SPARQL-Filter auf alle Werke an, bei denen es einen author (P50) gibt, sodass nur Autoren mit passenden Werken aufgeführt werden.

Die Suche nach Autoren-Datenobjekten sucht auch nach Werten object named as (P1932), die häufig als Qualifikatoren für author (P50)-Aussagen genutzt werden, sowie nach Bezeichnungen und Aliassen der Autoren-Datenobjekte selbst. Wenn du über ein in der Ergebnisliste erscheinendes Autoren-Datenobjekt überrascht bist, kann dies an einem unerwarteten (oder fehlerhaften) Alias oder einem Wert object named as (P1932) liegen.

Wenn Werke gefunden wurden, die zu der Namenszeichenkette des Autoren passen, wird ein Clustering-Algorithmus genutzt, um sie in Gruppen geordnet anzuzeigen. Die Gruppen basieren auf mehreren Kriterien, darunter den Namen oder Identifikatoren von Mitautoren, allen angegebenen Themen oder dem Journal, indem das Werk veröffentlicht wurde. Über den Gruppen ist über einen Link auch ein alternativer Clustering-Algorithmus verfügbar, der strikt auf dem Namenszeichenkettenformat des angegebenen Autors und den (sofern vorhandenen) vorherigen und nachfolgenden Autorennamen oder Namenszeichenketten basiert. Die Gruppen werden grob nach Größe geordnet, wobei zuerst die größten Gruppen aufgeführt werden und Werke innerhalb der Gruppen absteigend nach Veröffentlichungsdatum geordnet werden, sofern vorhanden. Werke ohne in Wikidata angegebenem Veröffentlichungsdatum werden am Ende jeder Gruppe angegeben. Alle Werke, die nicht mit anderen zusammengefasst werden können, werden unten in einer Gruppe "Misc" zusammengefasst, die ansonsten genauso sortiert ist. Das Clustering soll Werke unterschiedlicher Autoren in unterschiedliche Gruppen einsortieren, sodass es normalerweise sinnvoll sein sollte, alle Werke einer Gruppe auszuwählen (außer bei der "Misc"-Gruppe), um diese mit dem entsprechenden Autoren-Datenobjekt zu verbinden.

 
Beginn der Liste "Potential Publications" mit den ersten Gruppen von Werken.

Es wird für jedes Werk der Titel angezeigt, der auf die Seite des Werkes im Tool verlinkt. Dann folgt die Autorenliste mit bereits genutzten Autoren-Datenobjekten in grün (verlinken auf die Seite des Autors im Tool) und nicht verknüpften Autoren in blau (verlinken auf die entsprechende Seite zur Namenssuche). Der den Suchkriterien entsprechende Autorennamen wird in schwarz angezeigt mit einem Auswahlfeld, um festzulegen, ob wir die Namenszeichenkette des Autors durch das ausgewählte Autoren-Datenobjekt ersetzen wollen. Andere Links in der Tabelle verweisen entweder auf das entsprechende Wikidata-Datenobjekt oder die externe Webseite (für DOI und andere Identifikatoren). Publikationen und Themen (und für Autoren-Datenobjekte Institutionen) verlinken auch zur entsprechenden Scholia-Seite der damit assoziierten "fehlenden" Artikel, wo eine Liste zusammengehöriger, jedoch nicht zusammengelegter Autoren-Namenszeichenketten zu finden ist.

Wenn die Clustering-Kriterien (Mitautoren, Publikationen, Themen) mit einem der gefundenen Autoren-Datenobjekte übereinstimmen, wird in der ganz rechten Spalte der Tabelle der entsprechende Autor angezeigt (oder die Autoren, wenn es mehr als einen passenden gibt), wobei ebenfalls die Seite des Autors im Tool verlinkt ist.

 
Zusammenpassende Werke eines Autors, die Namenszeichenkette des Autors wird in der Autorenliste angezeigt, das erwartete Ergebnis ist auf der rechten Seite zu sehen.

Beachte, dass die Autorenliste auf die ersten zehn Einträge und die fünf die passende Autoren-Namenszeichenkette umgebenden Einträge beschränkt ist, wenn es eine sehr große Anzahl von Autoren eines Werkes gibt. Wenn es mehr als eine passende Autoren-Namenszeichenkette gibt, werden alle passenden Autoren mit einem entsprechenden Auswahlfeld angezeigt, sodass der korrekte ausgewählt werden kann.

Unter den Werk-Gruppen befindet sich eine Liste weiterer potenziell zusammenpassender Autoren. Es kann entweder einer ausgewählt werden oder die Option "Other Q number for this author" gewählt werden, um einen Autor zu nutzen, der nicht aufgeführt wird. Es gibt auch ein Formular zum Erstellen eines neuen Autoren-Datenobjektes auf Wikidata, sofern dies erforderlich ist.

 
Liste potenzieller Autoren mit einem Knopf zum Starten des Verlinkungsprozesses

Durch Klicken auf "Link selected works to author" startet ein Prozess, der bei jedem aufgeführten Werk die ausgewählte Autoren-Namenszeichenkette durch das Autoren-Datenobjekt mit den gleichen Qualifikatoren und Fundstellen und einem zusätzlichen Qualifikator object named as (P1932) für die ursprüngliche Namenzeichenkette ersetzt.

Finde Werke für einen angegebenen Autor

 
Eingabeformular für die Wikidata-QID des Autors

Diese Seite (zu finden über den Link "Authors" oben rechts in der Navigationsleiste oder über Autoren-Datenobjekt-Links auf anderen Seiten innerhalb des Tools) zeigt alle Werke für einen vorgegebenen author (P50)-Wert an. Ähnlich wie bei der Seite zur Namenssuche kann ein zusätzlicher SPARQL-Filter genutzt werden, um die erhaltene Werkliste nach Themen, Publikationsort, Mitautoren, etc. zu filtern. Die erhaltene Werkliste ist ebenfalls chronologisch nach absteigendem Veröffentlichungsdatum sortiert, wobei die gleichen Links wie bei den Werken auf der Seite der Namenssuche angezeigt werden. Wenn Werke einem falschen Autoren-Datenobjekt zugeordnet wurden, können sie mithilfe des Formulars am Ende der Werkliste zu dem richtigen verschoben werden, wobei die Wikidata-ID des korrekten Autoren-Datenobjektes angegeben werden muss.

Das Auswahlfeld "Find duplicates to merge" bewirkt eine Suche nach Werken, die auf diesen Autor verlinken und mehr als einen Autorennamen mit dem gleichen series ordinal (P1545)-Wert haben - dies sind häufig Duplikate oder es wurde vergessen, den Wert author name string (P2093) zu entfernen, als der Wert author (P50) hinzugefügt wurde. Wenn die Namen (basierend auf ähnlichen Kriterien wie bei der Suche nach übereinstimmenden Autorennamen) übereinstimmen, wird neben dem Werk ein Auswahlfeld angezeigt, dass es ermöglicht, die Werte zusammenzufügen (d.h. author name string (P2093) und das doppelte author (P50) werden entfernt und Qualifikatoren und Fundstellen zusammengeführt, etc.). In Fällen, in denen die Namen nicht zusammenpassen, wird ein Indikator für eine fehlerhafte Zuordnung angegeben, der individuell überprüft werden sollte, um den Fehler zu beheben.

Autoren eines bestimmten Werks ansehen und bearbeiten

 
Eingabeformular für die Wikidata-QID eines Werk-Datenobjektes

Die Seite kann über den Werke-Link in der Navigationsleiste oben rechts oder über einen Link auf einer der anderen Seiten erreicht werden. Je nach den ausgewählten Optionen bietet die Seite unterschiedliche Möglichkeiten zum Ansehen oder Bearbeiten der Autorenliste eines Werkes. Die Haupttabelle zeigt immer die Autoren sortiert nach ihrem series ordinal (P1545)-Wert an. Autoren ohne series ordinal (P1545) werden am Ende aufgeführt. Wie bei der Seite zur Namenssuche werden Einträge, bei denen es sich um Zeichenketten handelt (author name string (P2093)), blau dargestellt und verlinken auf die entsprechende Seite zur Namenssuche, wohingegen Autoren-Datenobjekte (author (P50)) grün angezeigt werden und auf die entsprechende Autorenseite in diesem Tool verlinken.

Im Standardmodus (keines der Auswahlfelder im obigen Formular ausgewählt) erlaubt die Seite des Werkes das Entfernen aller nicht nummerierten Autoren oder das Zusammenführen mehrerer Autoren/Autoren-Namenszeichenketten, denen die gleiche Nummer zugeordnet ist. Wenn keine dieser Änderungen möglich ist, wird unten auf der Seite kein Knopf zum Ausführen angezeigt.

Im Modus "renumber" (wähle "Renumber authors?" aus) können die Ordnungsnummern für jeden Autorennamen und jedes Autoren-Datenobjekt geändert werden. Dies funktioniert nur bei Werken mit maximal 5000 Autoren. Beachte hierbei bitte, wie auch bei anderen Modi für Datenobjekte von Werken, dass die Bearbeitung in einer einzigen Bearbeitung des Wikidata-Datenobjekts erfolgt - dies verringert die Belastung durch notwendige Aktualisierungen des Query Service. Autoren, bei denen sich die Ordnungsnummer nicht ändert, sind von so einer Bearbeitung nicht betroffen.

Im Modus "match" (wähle "Suggest matches?" aus) wird eine Liste potenziell zusammenpassender Autoren-Datenobjekte genutzt, um Datenobjekte zu finden, die möglichst viele der noch vorhandenen Autoren-Namenszeichenketten ersetzen können. Standardmäßig wird diese Liste aus allen Datenobjekten, die Mitautoren (anderer Werke) der Autoren-Datenobjekte sind, die bereits über dieses Werk identifiziert wurden, generiert. Über das ausklappbare Menü "Author List" können auch andere Optionen ausgewählt werden, die genutzt werden können, um Listen von Autoren zu generieren - siehe den Abschnitt "Listen von Autoren-Datenobjekten verwalten" unten. Wähle das Feld 'Use "stated as" names' aus, um den vollständigen Algorithmus zu nutzen, der object named as (P1932)-Werte anderer Werke des Autors nutzt, wodurch die Wahrscheinlichkeit, dass ein Autoren-Datenobjekt gefunden wird, das mit der Autoren-Namenzeichenkette übereinstimmt, erhöht wird; für Autoren mit vielen Werken dauert diese Abfrage jedoch sehr lange, weshalb sie vermieden werden sollte, wenn sie nicht erforderlich ist.

Listen von Autoren-Datenobjekten zum Zusammenführen verwalten

Diese Funktion befindet sich noch in der Entwicklung. Die Seite kann über den Link "Lists" in der Navigationsleiste oben rechts erreicht werden. Sie erlaubt das Erstellen und Verwalten von Listen von Wikidata-Autoren-Datenobjekten - sei es eine große Sammlung, andere Mitautoren oder eine Liste zu einem bestimmten Thema. Die Listen können auf der Seite des Werk-Datenobjektes zum Zusammenführen von Autoren ausgewählt werden.

Die Reihenfolge innerhalb dieser Listen ist bedeutungslos; Autoren werden in der Reihenfolge angezeigt, in der sie hinzugefügt wurden. Autoren können einzeln hinzugefügt werden oder es können alle ermittelten Autoren eines bestimmten Werkes oder bestimmter Werke hinzugefügt werden. Autorenlisten können miteinander und mit den Autoren eines bestimmten Werkes verglichen werden, um Gemeinsamkeiten und Unterschiede festzustellen.

Beobachten, Stoppen oder Neustarten von Bearbeitungsstapeln

Bearbeitungen an Datenobjekten, die über das Werkzeug Author Disambiguator vorgenommen werden, erfolgen im Hintergrund über einen Stapelmodus. Jeder Stapel besteht aus einem oder mehreren Bearbeitungen, die mit deinen Aktivitäten bei einem bestimmten Autoren- oder Werk-Datenobjekt zusammenhängen. Alle deine Stapel findest du unter dem Link "Batches" in der Menüleiste. Stapel werden in antichronologischer Reihenfolge aufgeführt (basierend auf dem Datum der letzten Veränderung, nicht der Erstellung). Jeder Stapel ist außerdem mit einer "Bearbeitungsgruppe" verbunden, die über das Werkzeug Bearbeitungsgruppen angesehen werden kann.

Jeder angemeldete Benutzer kann, (sobald er sich über OAuth identifiziert hat) höchstens einen Stapel gleichzeitig ausführen und innerhalb dieses Stapels nur eine Bearbeitung gleichzeitig vornehmen - diese Bearbeitung hat den Status "Running". Andere Bearbeitungen, die warten, werden als "Ready" angezeigt. Eine erfolgreiche Bearbeitung wird als "Done" angezeigt. Wenn es ein Problem mit einer Bearbeitung gegeben hat, wird dies mit dem Status "Error" gekennzeichnet, dabei wird auf der Seite für den entsprechenden Stapel eine entsprechende Nachricht sichtbar. Dies sollte eine hilfreiche Nachricht sein, die angibt, wo das Problem liegt, beispielsweise gibt "duplicate ordinal '129'" an, dass zwei oder mehr Autoren-Datenobjekte die gleiche Ordnungsnummer 129 erhalten sollten. Wenn die Fehlermeldung ein temporäres Problem angibt (beispielsweise eine Nachricht "failed to save" von der Wikidata-API), kann der Link "Reset errors" auf der Seite des Stapels oder der Stapelliste genutzt werden und der Stapel kann neu gestartet werden, um die Bearbeitung erneut vorzunehmen. Auf der Stapelliste können Stapel auch angehalten und neu gestartet werden.

Es kann Zeitpunkte geben, an denen die Wikidata-Server stark ausgelastet sind, wodurch eine Bearbeitung längere Zeit (eine Stunde oder länger) den Status "Running" behalten kann. Überprüfe die Verzögerungs-/Maxlag-Statistik auf Grafana, um zu überprüfen, ob dies der Fall ist. Versuche, den Stapel anzuhalten und neu zu starten, wenn dies nicht das Problem ist.

Das Löschen beendeter (oder fehlerhafter) Stapel wird empfohlen; dies hat keine Auswirkungen auf die Funktion "Bearbeitungsgruppen" oder erfolgreiche Bearbeitungen und hält die Datenbank etwas sauberer.

Quellcode, Änderungswünsche, etc.

Das Tool Author Disambiguator läuft auf ToolForge, der Code wird in einem GitHub-Repositorium verwaltet. Bitte nutze die GitHub-Themenseite, um Änderungen vorzuschlagen oder andere Anfragen zu stellen.