Topic on User talk:MisterSynergy

Kolja21 (talkcontribs)
MisterSynergy (talkcontribs)

Morgen. Das dürfte schon ein bisschen her sein. Ich habe das mal eine Weile mit den Abfragen unter User talk:Jneubert#Queries gemacht, die aber nicht mehr laufen. Soweit ich weiß, sind die Tns auch nicht mehr Teil der GND, richtig?

Kolja21 (talkcontribs)

Ja, seit Juli 2020 sind die Tns offiziell nicht mehr Bestandteil der Gemeinsamen Normdatei. Alle Titel wurden entlinkt. In VIAF sind sie mittlerweile auch nicht mehr enthalten. Laut Wikidata:WikiProject Authority control/Tn fand der letzte Botlauf im Juni 2018 statt, aber eventuell wurden auch später noch Tns per Bot gelöscht, ohne dass die Löschung dokumentiert wurde.

MisterSynergy (talkcontribs)

Sind die (ehemaligen) Tns denn noch irgendwo GND-seitig dokumentiert?

Kolja21 (talkcontribs)

Die alten Datensätze lassen sich noch aufrufen (Beispiel: Tn 154405787), aber man sieht leider nicht mehr, welche Titel einst verknüpft waren. Hilfreich sind allerdings die Schreibvarianten, die in den Tns genannt werden, vor allem wenn die Namen transkribiert wurden. Deswegen haben wir sie auch in deWP nicht per Bot aus der Normdatenvorlage entfernt, sondern arbeiten sie von Hand ab.

MisterSynergy (talkcontribs)

Hmm, beim Query Endpoint von User:Jneubert sind die Tns offenbar nicht mehr enthalten.

Ich müsste irgendeinen Zugangspunkt finden, wo ich die ehemaligen Tns abrufen kann. Das Format ist eigentlich relativ egal. Dann könnte ich das mit dem Bestand in Wikidata abgleichen und Dir eine Arbeitsliste zusammenstellen.

Kolja21 (talkcontribs)

Kannst du umgekehrt vorgehen und eine Liste erstellen, die alle in Wikidata eingetragenen IDs, die nicht in der aktuellen GND-Liste verzeichnet sind, enthält? Das müssten dann Tns und Verwechlungen mit anderen Katalognummern sein. @Wurgl: Hast du einen Tipp?

Wurgl (talkcontribs)

Hmm, den letzten (oder vorletzten) Dump der Tns vom März 2020 hab ich hier rumliegen. 374.601.910 Bytes als gzip. Ich kann dir auch einfach eine Liste von Ids erstellen (7.032.817 Stück), allerdings ist es in beiden Fällen durchaus möglich, dass in der Zwischenzeit aus einem Tn ein Tp wurde, das müsste man in einem zweiten Schritt (Zugriff auf die Webseite) filtern. Im Dump sind 7.046.133 Tns, in meiner Datenbank nur 7.032.817, die Differenz von 13.316 sind wohl so umgewandelte, aber nur die bis Nov. umgewandelten, neueren Dump der DNB gibt es nicht.

MisterSynergy (talkcontribs)

Wenn Du mir einen Link zu Deinem Tn-Dump gibst, schaue ich mir das heute Abend mal genauer an.

Wurgl (talkcontribs)
MisterSynergy (talkcontribs)

9 GB rohes RDF. Lovely.

Naja, es gibt ja Parser für alles mögliche… :-D

Kolja21 (talkcontribs)

Danke euch beiden! Mich interessiert vor allem die Größenordnung. Wenn es weniger als hundert Fehler sind, arbeite ich die Liste gerne von Hand ab.

Wurgl (talkcontribs)
MisterSynergy (talkcontribs)

Wurgl, die Datei ist in bisschen groß fürs schnelle Extrahieren mit meinen bereits vorhandenen Skripten. Hast Du auch eine direkte Liste von Tn-Identifikatoren, so dass ich das nicht erst neu zusammenbasteln muss? Dann würde ich die direkt nehmen und die RDF-Datei erstmal beiseite lassen.

Wurgl (talkcontribs)
MisterSynergy (talkcontribs)

Danke, das ist auf die Schnelle tatsächlich einfacher.

Hier ist nichts eilig, ich kann eh meist nur kurz reinschauen und brauche keine zügige Antwort. Allerdings bekommst Du doch eigentlich sowieso eine Notification, wenn hier Aktivität im Topic ist – oder?

Wurgl (talkcontribs)

In den globalen Einstellungen hab ich einen Haken bei "Diskussionsseiten-Abonnement", der wirkt sich wohl nur auf diese neue Antworten-Funktion aus, nicht hier auf diese "andere" Art der Diskussionsseite. Jedenfalls hab ich da einmal so als Test aktiviert und dann gabs einen blauen Knubbel. Hier passiert nix.

Hab ma geforscht. Da scheinen ja Schlaumeier am Werk zu sein. Wenn ich hier auf "globale Einstellungen" gehe, dann sehe ich "Strukturierte Diskussion" als Ankreuzpunkt. Wenn ich die Einstellungen in deWP aufmache und dort auf "globale Einstellungen" gehe, dann gibt es den Punkt "Strukturierte Diskussion" nicht, daher hab ich dort auch keinen Haken. Woher soll ich als hauptsächlicher deWP-user auch wissen, dass es hier andere globale Einstellungen gibt. Irgendwie muss ich da an die Multiversen denken, analog sind hier Multigloben oder sowas. Haken gesetzt, jetzt ist der Pro-Tipp obsolet und ich werde in de:WP:TWS mal nörgeln.

MisterSynergy (talkcontribs)

Ah, interessant. Mir ist es längst in Fleisch und Blut übergegangen, dass ich für Antworten (und neue Topics auf Seiten, die ich beobachte) Wikimedia-weit benachrichtigt werde. Sehr praktisch.

Problem könnte sei, dass dewiki die "Structured Discussions" (formerly known as "Flow") überhaupt nicht hat. Es gab da mal eine Diskussion im Kurier, danach war die Einführung praktisch vom Tisch. Leider.

Wurgl (talkcontribs)
MisterSynergy (talkcontribs)

So, ich habe jetzt den Bestand mit dem Tn-Dump abgeglichen. Da lassen sich 2699 Identifikatoren finden, die wahrscheinlich eine Tn sind und nicht missbilligten Rang haben.

User:Kolja21, das sind vermutlich zu viele für händisches bearbeiten – richtig? Wenn ich da einen Bot mache, entferne ich dann lieber diese Aussagen, oder stelle ich den Rang auf missbilligt? Wenn ja, soll ein entsprechender Qualifikator dazu?


Nachtrag: das entsprechende Skript und die Ergebnisliste sind auch öffentlich abrufbar.

Wurgl (talkcontribs)

So 10 Stück aus der Liste (nicht die ersten, sondern einfach ein paar) hab ich geguckt, alle Tn ("Status: Datensatz ist nicht mehr Bestandteil der Gemeinsamen Normdatei (GND)"). Sieht gut aus.

Kolja21 (talkcontribs)

Das sind mehr Tns als ich befürchtet hatte. Bislang wurden nur die Listen dokumentiert und anschließend die Platzhalter per Bot entfernt:

Mit Rängen zu arbeiten (Grund für die Zurückweisung: fehlerhafter Wert des Identifikators = Q54975531) ist keine schlechte Idee, macht aber vermutlich zu viel Arbeit. Man bräuchte wiederum eine Liste, in der diese Fälle aufgeführt sind, müsste anschließend die Einträge löschen, in denen bereits eine GND vorliegt etc.

Kolja21 (talkcontribs)

PS: Mit Rängen zu arbeiten, hätte allerdings den Vorteil, dass wir die Arbeit in Wikipedia und Wikidata zusammenlegen könnten. Was haltet ihr von der Idee, die Tns aus Wikipedia nach Wikidata zu exportieren und in Wikipedia zu löschen? Das würde die de:Kategorie:Wikipedia:GND fehlt entlasten, ohne das Informationen verloren gehen.

Wurgl (talkcontribs)
Kolja21 (talkcontribs)

Das mit dem Export war nur eine spontane Idee. Ich will kein großes Fass aufmachen. Erst mal sollten wir die Frage klären, wie wir in Wikidata vorgehen: Tns löschen oder die ehemaligen Platzhalter mit "missbilligter Rang" kennzeichnen?

Wurgl (talkcontribs)

Ich tendiere zu rauswerfen. hab mir ein paar angeguckt, gefühlt 30% sind per Batch eingetragen, die anderen von mir total unbekannten Benutzern, somit wohl nicht aus deWP

MisterSynergy (talkcontribs)

Tja und ich wäre für den missbilligten Rang. Der vermeidet einigermaßen, dass das erneut importiert wird und macht die Zuordnung weiter verfügbar.

Ich könnte auch einen Bot anbieten, der das täglich oder wöchentlich einmal glattzieht (oder einen Report schreibt). Tn-Verwaltung ist nicht besonders komplex, das kann und sollte automatisiert werden um die wertvollen manuellen Edit-Kapazitäten für wirklich wichtige Sachen zurückzuhalten. Davon gibt es bei der GND-Verwaltung ja genug zu tun.

Wurgl (talkcontribs)

Erneutes Importieren wird es nicht geben weil es die Ids nicht mehr gibt. Es wird auch kein Dump der Tns mehr zur Verfügung gestellt, dieses Dumpfile oben ist vom März 2020, danach gabs das nicht mehr, du findest diese Datensätze auch ausschließlich mit der ID.

Kolja21 (talkcontribs)
Kolja21 (talkcontribs)

Oh, ich war zu langsam ... Habe die neuen Beiträge noch nicht gelesen.

Kolja21 (talkcontribs)

Mein Vorschlag: Wer immer die Arbeit übernimmt, kann entscheiden, welche der beiden Vorgehensweisen er bevorzugt. Die Tns sind einerseits überflüssig und störend, andererseits helfen die Namensvarianten, die dort dokumentiert sind, in manchen Fälen bei der Recherche. Nachdem die Fälle von Hand überprüft wurden, sollten die Tns allerdings endgültig gelöscht werden, so wie wir es auch in Wikipedia handhaben.

MisterSynergy (talkcontribs)

Wir haben auch abseits von diesen ~2700 Fällen noch etwas über 2000 weitere, die bereits missbilligten Rang haben: https://w.wiki/4pgH.

Ich würde die 2700 Fälle erstmal dazu tun, damit das weiter zugänglich ist. Nach außen sind diese missbilligten Identifikatoren für Datennutzer kaum sichtbar, das wäre echt für interne Zwecke so abgelegt.

Importe können halt aus diversen Quellen vorgenommen werden, wo die alten Tns irgendwie noch zugeordnet sind.

Wenn wir das zeitlich eng getaktet überwachen, sollte das aber nicht wieder so aus dem Ruder laufen und damit in Zukunft hoffentlich kein Problem mehr sein. Oder?

Kolja21 (talkcontribs)

Perfekt! An der Abfrage gefällt mir vor allem die Spalte "Reason for deprecation". Mit Wikidata Query Service kann man besser arbeiten als mit den Listen. - Nochmal herzlichen Dank für deine Mühe.

MisterSynergy (talkcontribs)
MisterSynergy (talkcontribs)

So, ich habe jetzt einen Bot, der diese Aussagen auf missbilligten Rang setzt und den reason for deprecated rank (P2241)-Qualifikator mit Wert incorrect identifier value (Q54975531) ergänzt. Beispieledits sind hier.

Das Skript macht einen Lookup jedes zu verändernden GND-Identifikators über User:Jneubert's SPARQL-Endpoint bei der ZBW, um zu verifizieren dass es sich tatsächlich nicht mehr um einen in der GND enthaltenen Identifikator handelt. Das Skript ist dasselbe wie bereits zuvor verlinkt.

Soll ich das erstmal so einmal durchlaufen lassen für die ~2700 Fälle?

Kolja21 (talkcontribs)

Ja gerne! Die drei Beispiele sehen gut aus. Das macht dann insgesamt ~4770 Fälle. Ich vermute, es werden in Zukunft nicht mehr viele hinzukommen; zumindest was die Tns betrifft. Mit deiner Abfrage (w.wiki/4pgW) lässt sich das dann leicht überprüfen.

MisterSynergy (talkcontribs)

So, der Rückstau an abzuarbeitenden Fällen ist erstmal erledigt. Zumindest nach Wurgl's Liste sind zurzeit keine Tn's mehr in Wikidata mit nicht-missbilligtem Rang.

Zwei Sachen noch:

  • Man könnte sicherlich diverse andere Sachen auch automatisiert managen. Wenn jemand zum Beispiel eine Liste aller zurzeit gültigen GND-Identifikatoren auftreiben kann, können wir gut abgleichen, was wir sonst so für ungültige GNDs haben. Auch die Sache mit den Weiterleitungen könnten wir weiter automatisieren. Mehr Ideen sind willkommen – über den SPARQL-Endpoint der ZBW können wir wirklich vieles abgleichen.
  • Außerdem sollten wir das regelmäßig und automatisiert glattziehen. Ich kann dazu einen Bot anbieten, mit Task-Bewilligung und regelmäßiger, zum Beispiel täglicher Aktualisierung. Dann könnten wir die wertvolle manuelle Editierarbeit für die wirklich komplizierten, nicht-automatisierbaren Fälle reservieren.

Meinungen?

Wurgl (talkcontribs)

Also eine Liste der Gültigen kannst haben. Kein Problem.

ABER: Die Dumps der GND gibts nur alle 4 Monate und in der Zeit seit dem letzten Dump (mindestens sind das zwei Tage) werden IDs neu angelegt, du müsstest bei den Dump-Unbekannten also prüfen, was die Webseite murmelt. Wobei ich bei angelegten Weiterleitungen (der GNDs, nicht die bei uns) nicht ganz sicher bin, ich glaub die liefern auch eine gültige Webseite (das Weiterleitungsziel) aus.

https://persondata.toolforge.org/data/GNDs.txt.gz 9.035.300 Einträge

MisterSynergy (talkcontribs)

Danke, ich schau es mir mal an. Von wann ist der letzte Dump?

Insgesamt haben wir zwar immer "tausende" Fälle zu bearbeiten, aber das kann man ganz gut abgleichen. Hab ich mit den "potentiellen" Tns ja auch gerade so gemacht. Einfach blind bearbeiten wäre sicherlich nicht so schlau.

Wurgl (talkcontribs)
Kolja21 (talkcontribs)

Weiterleitungen wurden früher schon mal automatisiert umgebogen, dabei aber leider die Fundstelle und das Abfragedatum beibehalten. Bei Personen (GND, Typ p) ist das nicht so problematisch (es gibt keine Vorgänger und Nachfolger und ein meist eindeutige Zuordnung), aber bei Geografika, Werken und Sachbegriffen geht das schnell schief und es gab einiges Chaos.

MisterSynergy (talkcontribs)

Bei Weiterleitungen würde ich nicht auflösen, sondern erstmal einen entsprechenden Qualifikator ergänzen sowie – sofern gewünscht – einen einheitlichen Rang einstellen.

Wurgl, haben wir auch alle GND-Weiterleitungen irgendwo schnell abrufbar?

Wurgl (talkcontribs)

Zu Weiterleitungen hab ich kein Dump-File, ich weiß nichtmal ob es eines gibt.

MisterSynergy (talkcontribs)

Fürchte dann muss ich doch mal irgendeinen Dump durchparsen. Beim SPARQL-Endpoint kann man das zwar grundsätzlich abfragen – aber es gelingt mir nicht, alle Weiterleitungen in einer Abfrage zu bekommen; offenbar sind es zu viele.

Kolja21 (talkcontribs)

Mach' dir nicht zu viel Arbeit. Mit den Tns sind wir schon mal einen riesigen Schritt weiter. (Danke noch mal!) Wenn eine Weiterleitung vorliegt, gibt es in der Regel zwei oder mehr GND-Einträge, die dann in div. Fehlerlisten auftauchen.

Übrigens: Ein Botauftrag, der noch offen ist, betrifft die Vereinheitlichung von Qualifikatoren. User:Emu hatte darauf hingewiesen, dass einheitlich named as (P1810) verwendet werden sollte. Der Botlauf wurde genehmigt, aber nicht vollständig ausgeführt, siehe Wikidata talk:Requests for permissions/Bot/AmmarBot.

MisterSynergy (talkcontribs)

Das ist eigentlich nicht so viel Arbeit. Ich will zurzeit eh mal wieder was nicht-administratives hier machen, was zuletzt viel zu kurz gekommen ist. Der Admin-Kram ist nämlich mit Sicherheit nicht der spaßige Teil der Beteiligung an diesem Projekt hier.

MisterSynergy (talkcontribs)

So, erstmal zu den GND-Weiterleitungen: ich glaube, ich habe die nun beim GND-SPARQL-Endpoint extrahieren können. Demnach haben wir zurzeit wohl keine einzige gültige GND, die hier per reason for deprecated rank (P2241)-Qualifikator als Weiterleitung markiert ist (gut!); andersherum sind aber etwas über 1300 GND-Weiterleitungen hier nicht als solche identifiziert, und häufig auch nicht mit dem missbilligten Rang ausgestattet. Ich würde anbieten, per Bot…

  • … den entsprechenden Qualifikator zu ergänzen
  • … den Rang auf missbilligt setzen
  • … das GND-Weiterleitungsziel mit normalem Rang zu ergänzen, sofern nicht vorhanden

Stößt das auf Zustimmung?

MisterSynergy (talkcontribs)

Das sollte auch fertig sein. Alle GND-Weiterleitungen haben nun missbilligten Rang, den entsprechenden Qualifikator, und dazu ist das Weiterleitungsziel ebenfalls als Aussage (mit normalem oder bevorzugtem Rang) vorhanden.

MisterSynergy (talkcontribs)

Dann zu darüberhinaus ungültigen GNDs: davon finde ich zurzeit rund 800. Was das sein kann:

  • Neuerer Identifikator, der im Dump beim GND-SPARQL-Endpoint noch nicht enthalten ist (i.e. eigentlich doch gültig)
  • Fehlnutzung von GND ID (P227) anstelle von DNB editions (P1292)
  • Sonstiger Fehler

Diese Liste braucht vermutlich manuelles Abarbeiten. Soll ich sie mal irgendwo hinspeichern zum genaueren Untersuchen?

Kolja21 (talkcontribs)

Wikidata:WikiProject Authority control/GND (Rotlink) wäre der passende Ort. Aber eine 800er-Liste ist zu lang. Zumindest weiß ich nicht, wer sie abarbeiten sollte. Ich würde vorschlagen, fehlerhafte IDs mit fehlerhafter Wert des Identifikators (Q54975531) zu kennzeichnen, dann können wir sie zusammen mit den Tns abarbeiten. - Was die Verwechslung DNB/GND betrifft, wäre es natürlich schön, wenn das ein Bot automatisch umstellen könnte. Und zu den neuen IDs, die noch nicht im Dump enthalten sind: Diese müssten leicht auszuschließen sein. Beispiel: GND 1252137834 wurde am 18.2. angelegt. Alle IDs, die danach kommen, werden vorerst als korrekt akzeptiert.

MisterSynergy (talkcontribs)

Ja da mache ich mich als nächstes dran. Einen Teil davon kann ich sicherlich irgendwie automatisieren mit diversen Crosschecks zur Sicherheit. Eine Arbeitsliste für manuelles Abarbeiten macht wohl eher erst danach Sinn.

MisterSynergy (talkcontribs)

Zuletzt die Sache mit den named as (P1810)-Qualifikatoren: das ist auch per Bot recht einfach zu erledigen und sowas (in der Art) hab ich schon häufiger gemacht. Wenn es keine Einwände gibt, dann würde ich das mal zeitnah erledigen.

Es gibt allerdings eine handvoll Fälle, bei denen bereits beide Qualifikatoren vorhanden sind, zum Teil mit verschiedenen Strings. Die wären lieber händisch abzuarbeiten: https://w.wiki/4rfC

Kolja21 (talkcontribs)

Die "handvoll Fälle" sind abgearbeitet. Du kannst den Bot anwerfen.

MisterSynergy (talkcontribs)

Der Bot ist durch, alle Qualifikatoren sind umgestellt.

Wurgl (talkcontribs)

Mit den "ungültigen" würde ich sagen: Warte bis Mitte/Ende März, dann sollte ein neuer Dump kommen und da sind dann nicht 800 zu prüfen, sondern vielleicht 50.

Sonst: Per curl die Dinger einzeln abklopfen. Bei ungültigen kommt eine leere Seite mit Status 404. Beispiel: https://d-nb.info/gnd/6136814-2 (-3 ist gültig). Bei gültig kommt Status 303

Kolja21 (talkcontribs)

Ich fang mal bei dem letzten Punkt an, die Sache mit den named as (P1810)-Qualifikatoren. Gerne, das ist, soweit ich sehe, unstrittig. (Die andere Punkte schaue ich mir morgen an.)

Danke schon mal!

Kolja21 (talkcontribs)

Was mich in dem Zusammenhang noch interessiert: Wie viele GNDs für Personen, bei denen Lebensdaten und Beruf bekannt sind, sind bislang noch nicht in Wikidata erfasst? Bislang wurden nur 15% der GNDs importiert. Um Dubletten zu vermeiden, können man vor dem Import abgleichen, ob bereits ein Objekt mit dem passenden VIAF-Cluster vorhanden ist. Diese Fälle müssten von Hand bearbeitet werden. Alle anderen GNDs könnte man per Bot importieren.

MisterSynergy (talkcontribs)

Ich habe mir das jetzt angeschaut. Ich finde im (derzeit jüngsten) GND-Dump von Oktober 2021 insgesamt ~5.65 Millionen Personen mit GND-Identifikator; ~1.90 Millionen davon haben sowohl ein Geburtsdatum und einen Beruf in GND angegeben; davon wiederum sind ~721.000 mit einem Wikidata-Objekt ausgestattet; entsprechend "fehlen" noch 1.18 Millionen.

Klingt das plausibel?

Kolja21 (talkcontribs)

Ja, das kann hinkommen. Wenn man aus den 1,18 Millionen jene Datensätze rausfiltert, die über VIAF in Wikidata erfasst sind, bleibt immer noch ein beachtlicher Rest. Spricht etwas dagegen, diese GNDs per Bot zu importieren?

MisterSynergy (talkcontribs)

Ich schaue morgen mal, ob das besser abschätzbar ist. Die VIAFs sind ja auch im GND-Dump vermerkt, da müsste ich schonmal vorab etwas besser abgleichen können.

Wurgl (talkcontribs)

Die VIAF in der GND ist schön, aber nix immer aktuell.

Du kannst aber (zumindest für Personen) live übersetzen:

Zu https://viaf.org/viaf/sourceID/DNB%7C106181243X bekommst du einen 301er und ein Redirect auf http://viaf.org/viaf/220908876 Dem Redirect brauchst nicht zu folgen, der enthält schon die VIAF.

Das geht aber nicht für andere Datensätze, wo diese PPN (oder wie sich das nennt) als Local_Authority_ID verwendet wird, zum Beispiel bei manchen/vielen Geographika geht das nicht.

Das kennst du? https://www.oclc.org/developer/api/oclc-apis/viaf/authority-cluster.en.html

Sonst gibt es am Anfang jeden Monats auf http://viaf.org/viaf/data/ ein File wie viaf-20220207-links.txt.gz (das Datum ändert sich). Dort sind die Zuordnungen zwischen VIAF und den Bibliotheken zu finden (die Reihenfolge scheint undefiniert zu sein, das macht Probleme wenn mehrere Datensätze einer Bibliothek verlinkt sind) http://viaf.org/viaf/100109330 DNB|116991992 http://viaf.org/viaf/100109330 DNB@http://d-nb.info/gnd/116991992 Die erste der beiden Zeilen (die mit dem Pipe) gibt es (fast) immer und (fast) für jede Bibliothek. Die zweite gibt es bei den Bibliotheken, wo manchmal (oder immer) der Link unterschiedlich zur ID ist: z.B. DNB oder BNF, dummerweise gibts diesen Zweiten mit @ nicht bei allen VIAF-DNB-Zuordnungen, weiß der Geier warum. Zu den einzelnen Wikis (kommt wohl aus Wikidata und zu Worldcat gibts nur den Link mit dem Klammeraffen).

Beispiel wo es nur den Link mit | gibt: Online: https://viaf.org/viaf/2157222576684970374/ beachte: kein Link unter dem DNB-Icon! http://viaf.org/viaf/2157222576684970374 DNB|1197308210

Beispiel eines Geographikums mit unterschiedlicher ID in der Pipe- und @-Zeile http://viaf.org/viaf/154251299 DNB|040570924 http://viaf.org/viaf/154251299 DNB@http://d-nb.info/gnd/4057092-7

MisterSynergy (talkcontribs)

Diesen Dump schaue ich mir erstmal an. Hier geht es um viel zu viele IDs als dass man sie individuelle abfragen könnte.

Wurgl (talkcontribs)

Wundere dich nicht. Die VIAF liefert die Daten recht langsam aus. Ist nicht deine Verbindung, die klemmt.

Es gibt auch den kompletten VIAF-Dump, aber der Download würde ziemlich ewig dauern (mein Browser lügt was von knapp 10 Studnen), da verzichte ich gerne darauf.

MisterSynergy (talkcontribs)

So, ich hatte ein bisschen Zeit und hier geht es weiter:

Von den weiter oben erwähnten 1.18 Millionen Tps, die in der GND Geburtsdatum und Beschäftigung angegeben haben und die in Wikidata noch fehlen, ist die zugeordnete VIAF-ID in ~157.000 Fällen in Wikidata verfügbar (per Februar-Mapping von VIAF.org). Hier wäre zu prüfen, inwiefern die GND ebenfalls importiert werden kann. Auf der anderen Seite sind bei 1.027 Millionen Fällen weder die GND noch ihre zugeordnete VIAF-ID hier bei Wikidata zu finden; das ist in meinen Augen viel zu viel, um es einfach so zum Zwecke der Vollständigkeit zu importieren.

Kolja21 (talkcontribs)

Klingt viel, aber was die Vollständigkeit betrifft, wäre ein Import zu begrüßen. Bislang wurden vor allem Wissenschaftler, die in der 2. Hälfte des 20. Jhs. geboren wurde, per Massenimport in Wikidata eingetragen (ORCID, Mathematics Genealogy Project etc.). In der GND sind aber bekanntlich Personen aus allen Berufsgruppen seit der Antike erfasst. Man muss nicht alle GNDs auf einmal importieren, sondern könnte sich eine Gruppe heraussuchen (Beispiel: Franzosen aus dem 19. Jh.). In zwei, drei Monaten kann man dann überprüfen, ob sich der Import der Testgruppe gelohnt hat.

MisterSynergy (talkcontribs)

Das müsste trotzdem zunächst per Bot-Task und ggf. auch im Project chat diskutiert werden. 1M neue Datenobjekte sind ~1% der aktuellen Größe von Wikidata – das ist durchaus signifikant.

Zu beachten ist auch, dass nicht mehr angestrebt wird, einfach alle verfügbaren Daten zu importieren – der Trend geht zu verteilten Linked-Data-Instanzen, die per federated queries abgefragt werden. Die GND ist in der Hinsicht eigentlich schon gut aufgestellt, wenngleich die sich sicher auch noch ausprobieren. Es hat sich seit einiger Zeit herauskristallisiert, dass die Software hinter Wikidata aus sehr grundsätzlichen Gründen nicht so skaliert, dass man hier einfach alles importieren könnte.

Emu (talkcontribs)

Ich bin auch etwas skeptisch, ich habe noch immer nicht den Eindruck, dass wir die GND-Massenimporte im Nummernbereich Q94… und Q95… besonders gut verdaut haben. Andererseits fallen mir immer wieder Fälle auf, bei denen wir kein Wikidata-Item haben, obwohl die Personen recht relevant sind, aber aus irgendwelchen Gründen noch keinen Artikel in den Wikipedien bekommen haben und auch nicht in einer Importaktion hereingeholt wurden.

Man könnte die Vermutung anstellen, dass ein gut ausgebauter GND-Datensatz tendenziell für eine herausgehobene Relevanz spricht (der Umkehrschluss ist nicht zulässig). Könnte man vielleicht daran denken, eine Gruppe von besonders gut ausgebauten GND-Datensätzen nach Wikidata zu importieren? @MisterSynergy Gibt es eine einfache Möglichkeit, solche besonders gut ausgebauten Datensätze herauszufiltern?

Wurgl (talkcontribs)

Nur mal so: Im Dump hast du keine Info auf die zugeordneten Werke …

MisterSynergy (talkcontribs)

Ja – im Grund machen wir das hier schon, indem wir auf Personen mit Geburtsdatum und Beschäftigung eingrenzen. Man könnte noch mehr Kriterien einschließen, was die Zahl der möglicherweise zu importierenden Datenobjekte dann natürlich reduziert.

Kolja21 (talkcontribs)

"Zeitüberschreitungsgrenze erreicht": Kann es sein, dass die Abfrage https://w.wiki/4pgW zu groß geworden ist (result: 6843 items)? Ich kann sie im Moment nicht mehr aufrufen. Anders gefragt: Würde es helfen, wenn du sie aufspaltest?

MisterSynergy (talkcontribs)

Scheint hier zu laufen. Die Abfrage dauert sicherlich recht lange (über eine halbe Minute hier), aber im Zweifel hilft es, sie einfach noch einmal auszuführen.

Jneubert (talkcontribs)

Nur zur Info: Am Wochenende habe ich im GND-Endpoint die aktuelle Version des GND-Dumps (2021-11) eingestellt, auf einer anderen Maschine, mit fuseki-4.5.0-SNAPSHOT und TDB2. Falls sich für eure Nutzung etwas geändert hat, lasst es mich gerne wissen.

Kolja21 (talkcontribs)

Bei den Weiterleitungen gibt es ein Problem mit musikalischen Werken: "GND identifier 7656167-7 redirects to 118742973." Das stimmt leider nicht: Das Werk ist nicht der Komponist. Der Gewinnerdatensatz ist GND 300410581 aus dem Altbestand des Deutschen Musikarchivs (DMA). @Wurgl Du hast das Problem auf deWP gelöst. Wie hast du die korrekte Weiterleitung gefunden? @MisterSynergy Kannst du feststellen, welche Botedits betroffen sind?

Wurgl (talkcontribs)

Hülfe! Das hab ich vor 3-4 Jahren getippt. Kann ich jetzt nicht so schnell sagen.

Das hier ist das Record in authorities-werk_lds.rdf.gz

<rdf:Description rdf:about="https://d-nb.info/gnd/300410581">
        <rdf:type rdf:resource="https://d-nb.info/standards/elementset/gnd#MusicalWork"/>
        <wdrs:describedby>
                <rdf:Description rdf:about="https://d-nb.info/gnd/300410581/about">
                        <dcterms:license rdf:resource="http://creativecommons.org/publicdomain/zero/1.0/"/>
                        <dcterms:modified rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2021-01-20T00:30:32.000</dcterms:modified>
                </rdf:Description>
        </wdrs:describedby>
        <gndo:gndIdentifier rdf:datatype="http://www.w3.org/2001/XMLSchema#string">300410581</gndo:gndIdentifier>
        <owl:sameAs rdf:resource="http://viaf.org/viaf/204590341"/>
        <owl:sameAs rdf:resource="http://www.wikidata.org/entity/Q47006462"/>
        <gndo:oldAuthorityNumber rdf:datatype="http://www.w3.org/2001/XMLSchema#string">(DE-588)7656167-7</gndo:oldAuthorityNumber>
        <owl:sameAs rdf:resource="https://d-nb.info/gnd/7656167-7"/>
        <dnbt:deprecatedUri rdf:datatype="http://www.w3.org/2001/XMLSchema#string">https://d-nb.info/gnd/7656167-7</dnbt:deprecatedUri>
        <gndo:oldAuthorityNumber rdf:datatype="http://www.w3.org/2001/XMLSchema#string">(DE-588c)7656167-7</gndo:oldAuthorityNumber>
        <gndo:oldAuthorityNumber rdf:datatype="http://www.w3.org/2001/XMLSchema#string">(DE-101c)300410581</gndo:oldAuthorityNumber>
        <gndo:variantNameForTheWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Anthems, Z 58C</gndo:variantNameForTheWork>
        <gndo:variantNameForTheWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Thou know'st, Lord</gndo:variantNameForTheWork>
        <gndo:variantNameForTheWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Thou know'st, Lord, Z 58C</gndo:variantNameForTheWork>
        <gndo:variantNameForTheWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Funeral anthem of Queen Mary</gndo:variantNameForTheWork>
        <gndo:variantNameForTheWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Thou know'st, Lord Z 58C</gndo:variantNameForTheWork>
        <gndo:preferredNameForTheWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Thou knowest, Lord, the secrets of our hearts</gndo:preferredNameForTheWork>
        <gndo:firstComposer rdf:resource="https://d-nb.info/gnd/118742973"/>
        <gndo:formOfWorkAndExpression rdf:resource="https://d-nb.info/gnd/4142618-6"/>
        <gndo:thematicIndexNumericDesignationOfMusicalWork rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Z 58C</gndo:thematicIndexNumericDesignationOfMusicalWork>
        <gndo:gndSubjectCategory rdf:resource="https://d-nb.info/standards/vocab/gnd/gnd-sc#14.4p"/>
        <gndo:geographicAreaCode rdf:resource="https://d-nb.info/standards/vocab/gnd/geographic-area-code#XA-GB"/>
        <gndo:biographicalOrHistoricalInformation xml:lang="de">Trauermusik für Queen Mary, 1695</gndo:biographicalOrHistoricalInformation>
        <gndo:biographicalOrHistoricalInformation xml:lang="de">Für SATB, 'Flatt trumpets', Bc. - Z 58C: Second setting</gndo:biographicalOrHistoricalInformation>
        <gndo:dateOfPublication rdf:datatype="http://www.w3.org/2001/XMLSchema#string">1695</gndo:dateOfPublication>
</rdf:Description>

Hab etwas nachgedacht. Ich mach nur Datenbankzugriffe und die Datenbank wird aus den Dumps aufgebaut. Ist übrigens SQLite und C++-Code und läuft hier bei mir zu Hause. Das war zu einer Zeit, als ich in PHP noch nicht so zu Hause war, würde ich heute nicht mehr so machen. Egal.

Wenn es noch weitere solche schrägen Umleitungen gibt, dann würde ich das mal per Mail melden.

Wurgl (talkcontribs)
MisterSynergy (talkcontribs)
Kolja21 (talkcontribs)

Nein, Wurgl hat etliche dieser Weiterleitungen aufgespürt. Aus einem Grund, der mir nicht klar ist, wurden die Dubletten statt auf das Werk auf den Komponisten verlinkt. In der Wartungsliste :de:Benutzer:Wurgl/Fehler GND wurden die Weiterleitungen trotzdem korrekt (Werk → Werk) angezeigt.

MisterSynergy (talkcontribs)

Okay, interessant.

In den RDF-Daten ist nachvollziehbar, dass 7656167-7 tatsächlich zu dem Werk 300410581 gehört. Das ist auch beim ZBW-Endpoint so nachzulesen. Die URL leitet aber zum Komponisten 118742973 weiter. Leider hab ich das Weiterleitungsziel über das die URL bestimmt, und nicht am SPARQL-Endpoint ausgelesen :-)

Kann das mal bitte jemand zur DNB weiterleiten, oder kennt jemand jemanden der sich das hier anschauen möchte? Das sieht wie ein Bug aus.

Ich kann grundsätzlich nochmal alle Weiterleitungen abgleichen und schauen, ob wir weitere solcher Diskrepanzen aufspüren. Das Problem wird so langsam greifbar…

Wurgl (talkcontribs)

Mail ist raus. Die zwei Beispiele von mir und die 7656167-7. Sollte reichen.

MisterSynergy (talkcontribs)

Ich bin einmal über alle Weiterleitungen gegangen und habe folgende Fälle gefunden:

(Erstmal wieder rausgenommen, hier ist was durcheinandergeraten; mache heute Abend eine neue Tabelle)

MisterSynergy (talkcontribs)

Dauert leider ein bisschen; ich möchte gern am ZBW-SPARQL-Endpoint was abfragen, aber der scheint zurzeit nicht verfügbar zu sein. Die Sache ist aber nicht vergessen.

MisterSynergy (talkcontribs)

Hab das jetzt nochmal gemacht, und eigentlich war das letztes Mal schon gar nicht so falsch:

itemredirecting GNDURL redirect targetlinked data target
Symphony No. 98 (Q277126)300808232118547356300070462
Hjertets Melodier (Q54960017)4442048-1118697641300274327
Wilhelm Heinrich Wackenroder's Confessions and Phantasies (Q1615113)4231363-61186280974231361-2
Q5564519011593834051220938011117242226
Die Hochzeit des Camacho (Q5274377)7604149-9118580779300264291
Tobias Philipp Gebler (Q2437939)136418678100944906130096563
August Albert (Q107163012)1740762821145766277143802011
Kleider machen Leute (Q690610)7670401-411863643X300177046
Kamarinskaya (Q1055478)7855521-8118695398300059884
Der Revisor (Q1196490)7552579-3118529129301016275
Abdel Halim Hafez (Q95845988)10618140921160550581119032724
Symphony No. 45 (Q234880)4292686-5118547356300070225
Lihui Wang (Q100267322)1738928921153846365136694616
Una cosa rara (Q3781653)4658394-4119174561300099312
Symphony No. 96 (Q277011)7707378-2118547356300850816
Taqwim al-Sihha (Q2393802)10880204611190394514286811-7
In terra pax (Q3149703)4662712-1118731343300181752
Fritz Spielmann (Q6185612)1128246120117484326120337347
Liborius of Le Mans (Q488749)10893026221089732104118572598
Ludwig Heinrich Fabricius (Q95007503)1740709691145821634117497711
Mazeppa (Q1081440)4418076-7118638157300033435
Requiem (Q1128394)3000956511188620574372094-8
Humiliated and Insulted (Q1130546)10880553891185270534458003-4
Tractatus de purgatorio sancti Patricii (Q1245146)7543316-31009458644590079-6
Hugh the Drover (Q267076)3004290291186431187663126-6
Kolja21 (talkcontribs)
Kolja21 (talkcontribs)
Kolja21 (talkcontribs)

 Done Die Liste ist abgearbeitet.

Kolja21 (talkcontribs)

Sorry, es gibt noch was zu überprüfen: Nicht alle schwach individualisierten Normdatensätze sind Tns. (Die Werke, auf dessen Autor sich der Datensatz bezieht, werden nur im OGND angezeigt.) Außerdem wurde vor der Änderung der Tns in Textstrings (Juni 2020), ein Schwung Tns in Tps umgewandelt, so wie es das ursprüngliche Konzept vorsah. (Tns waren dafür gedacht, nach Ergänzung der biographischen Daten in Tp-Datensätze umgewandelt zu werden. Das Konzept, das rückblickend etwas naiv anmutet, war mit der Erweiterung des Nutzerkreises obsolet.) Der genannte Fall gehört, glaube ich, nicht dazu. Wie immer kann User:Wurgl Genaueres dazu sagen.

MisterSynergy (talkcontribs)

Ich verstehe noch nicht genau, was wir hier prüfen wollen. Das ist ja ein Edit vom 2019 gewesen.

Kolja21 (talkcontribs)

(falsches Beispiel; hat sich erledigt)

MisterSynergy (talkcontribs)
Kolja21 (talkcontribs)
MisterSynergy (talkcontribs)
Kolja21 (talkcontribs)

Danke. Die 2839 Tns sollte man von Hand überprüfen. In Wikisource sind offenbar noch viele eingetragen, während ich in deWP bislang auf keinen Fall gestoßen bin, wo ein Tn noch vorhanden war. Leider führen die Platzhalter dazu, dass VIAF Probleme hat, die korrekte GND mit anderen Normdatensätzen zusammenzuführen. Und auch das VIAF-Script in Wikidata zeigt keine GND an, wenn ein Platzhalter in einem Objekt eingetragen ist.

MisterSynergy (talkcontribs)
  • Zunächst ein Update: mittlerweile sind es 3126 Tn-GNDs. Unter den missbilligten GNDs ohne Grund für die Missbilligung waren noch einige versteckt, die ich jetzt auch ausgezeichnet habe. Mehr erwarte ich jetzt aber wirklich nicht, zumindest nicht im aktuellen Bestand.
  • Was mit den Tns passiert, ist mir relativ egal. Eigentlich gehören sie nicht hier her, aber mit missbilligtem Rang stören sie formell nicht – allerdings verstehen das nicht notwendigerweise alle Datennutzer. Im aktuellen Zustand sind sie jedenfalls gut zugänglich und damit auch wartbar.
  • Was in Wikisource passiert, ist mir nicht bekannt. Wäre es hilfreich, dort eine lokale GND-Abgleich-Kategorie einzuführen? Es ist leider nicht einfach möglich das Wikidata-seitig zu evaluieren, es müsste in Wikisource passieren.
  • "Das VIAF-Skript in Wikidata" ist mir nicht bekannt. Wo finde ich es?
Kolja21 (talkcontribs)

Die GNDs wurden aus Wikisource importiert, dort aber nicht gelöscht. Daher müssen die Fehler von Hand korrigiert werden. Es sind aber nicht viele Fälle, und eine eigene Wartungskat imho nicht nötig. Das VIAF-Skript ("Add More Identifiers from VIAF") = User:Bargioni/moreIdentifiers. Störend ist, dass KrBot Einträge korrigiert, aber dabei Quelle und Rang ignoriert hat (Special:Diff/976930260). Das sind Edits von 2019, und ich denke, er hat (nach mehreren Beschwerden) die Arbeit eingestellt.

Kolja21 (talkcontribs)

Was die Liste mit verwendeten Qualifikatoren betrifft: Für schwach individualisierte Normdatensätze eignet sich unconfirmed (Q28831311). Die Fälle muss man dann von Hand abarbeiten.

MisterSynergy (talkcontribs)

Ist "schwach individualisierter Normdatensatz" denn überhaupt irgendwie fest definiert, oder ist das eher eine lose genutze Umschreibung für einen Stub-Datensatz in der GND?

Kolja21 (talkcontribs)

Es gibt Katalogisierungslevel. Tp6 = schwach individualisiert, aber in der Praxis hat sich das nur bedingt durchgesetzt. Was mich an die Frage weiter oben erinnert: Kannst du ohne großen Aufwand feststellen, wie viele GNDs für Personen, bei denen Lebensdaten und Beruf bekannt sind, bislang noch nicht in Wikidata erfasst sind?

MisterSynergy (talkcontribs)

Zu dem Abgleich: grundsätzlich sollte es möglich sein, aber ich komme gerade und eigentlich schon seit ein paar Tagen nicht an den SPARQL-Endpoint dran.

Kolja21 (talkcontribs)

Bei dem genannten Beispiel GND 103191968 für den Literaturwissenschaftler Aleksandr Alekseevich Ninov (Q59630915) stimmt der Katalogisierungslevel. PICA3-Feld 005 = Tp6. Wenn ein Bibliothekar den Datensatz bearbeitet, wird der Level aber nicht automatisch angehoben, und umgekehrt gibt es Datensätze der Zentralredaktion, die das höchste Level (Tp1) tragen, aber eher dürftig sind.

MisterSynergy (talkcontribs)

Bei den schwach individualisierten Normdatensätzen würde ich vorschlagen, sie einfach ohne Qualifikator und mit normalem Rang zu führen. Ich verstehe, dass die Zuordnung manchmal auf einiger Spekulation beruht; trotzdem denke ich, dass wir erstmal von einer korrekten Zuordnung ausgehen sollten, solange nicht jemand explizit Zweifel äußert.

In den Linked-Data-Dumps ist das Kategorisierungslevel glaub ich gar nicht enthalten, oder?

Wurgl (talkcontribs)

Nee, in den Dumps ist leider nicht alles enthalten. Der Level fehlt und es fehlt (z.B.) auch diese Zeile "Quelle", die man auf der Webseite sieht.

Kolja21 (talkcontribs)

Punkt 1: Das sehe ich auch so. Für Wartungslisten (de:Benutzer:Emu/GND) können die Level allerdings nützlich sein. Punkt 2: Das weiß wie immer Wurgl am besten.

MisterSynergy (talkcontribs)

Bezugnehmend auf Kolja21's posting vom 24 February 2022 3:49 AM, betreffend Tn -> Tp Umwandlungen.

Ich bin den Großteil der missbilligten GNDs nochmal durchgegangen. Je nach Grund für die Missbilligung (nach https://w.wiki/4wrX) finde ich:

  • Alle mit "redirect" oder "undifferentiated identifier value" as Grund für die Missbilligung sind keine solchen Fälle.
  • "refers to different subject", "applies to other person" und "conflation" habe ich nicht geprüft, die scheinen aber von sich aus unverdächtig.
  • Alle anderen rund 120 Fälle, inklusive derer ohne angegebenen Grund für die Missbilligung, habe ich ebenfalls nicht geprüft. Hier wäre zu überlegen, inwiefern diese Qualifikatoren überhaupt sinnvoll sind.

Ich glaube nicht, dass hier noch in substantiellem Umfang Arbeit zu erledigen ist und erachte das erstmal als erledigt.

Der eventuelle Import von einer sechsstelligen Anzahl von vermeintlich fehlenden GNDs basierend auf VIAF-Clustern ist noch offen. Das ist als nächstes dran.

Wurgl (talkcontribs)

Viel kann ich nicht sagen, außer dass die ID 103191968 im Dump authorities-name_lds.rdf.gz enthalten ist und in meiner simplen Textliste Tns.txt.gz von Tn-IDs nicht.

Wurgl (talkcontribs)

Hinweis: Es gibt frische DNB-Dumps vom 2. März 2022

Kolja21 (talkcontribs)

Danke. Gibt es einen Vorschlag, wie wir die GNDs, die bereits über VIAF mit Wikidata verknüpft sind, einpflegen können? Weiter oben war von ~157.000 Fällen die Rede. Welche Filter und Abfragemöglichkeiten gibt es?

MisterSynergy (talkcontribs)

Also ich habe alles vorliegen, rein theoretisch könnte das mit meinem Bot oder gar QuickStatements innerhalb von rund zwei Tagen eingepflegt werden.

Allerdings traue ich der Sache noch nicht so richtig. Wieviele Fälle wären Fehler? Was müssten wir abgleichen? Da müssen wir erstmal genauer hinschauen.

Würde es vielleicht helfen, wenn ich mal 100 zufällige Fälle aus dem Datensatz zur Verfügung stelle und wir das manuell anschauen?

Kolja21 (talkcontribs)

Könnte man nicht die Fälle herausfiltern, in denen Geburts- und Todesjahr übereinstimmen? Geburtsjahr alleine reicht leider nicht (Sportler in Wikipedia vs. Akademiker in der DNB). Die Masse an Tp6, bei denen man oft erst umständlich recherchieren muss, wer gemeint ist, eignet sich nicht für den automatischen Import, das sehe ich immer wieder an der de:Kategorie:Wikipedia:GND in Wikipedia fehlt, in Wikidata vorhanden.

MisterSynergy (talkcontribs)

Man könnte alles mögliche abgleichen. Die Ich habe leider kein Gefühl dafür, was alles sinnvoll wäre. Da ich die Sachen aus dem Dump extrahiere, ist effektiv GND-seitig alles abgleichbar, was im RDF-Dump drin ist. Wikidata-seitig können wir auch alles abgleichen. Es ist zu beachten, dass nicht alle Abgleiche immer trivial sind (Genauigkeiten, fehlende Daten, ungenaue Datumsangaben, etc.).

Zu beachten ist, dass der Abgleich auf den VIAF-Clustern (mit Stand 7. Februar 2022) basiert. Kann jemand abschätzen, wieviele Cluster (Prozent oder so) die durch Vermischungen versaut haben?

Emu (talkcontribs)

Nach meiner Erfahrung sind prozentuell relativ wenige VIAF-Cluster problematisch, aber wenn sie problematisch sind, dann richtig. Deshalb sind Stichproben zwar sinnvoll, aber in ihrer Aussagekraft begrenzt. Problematisch sind tendenziell bestimmte Berufsgruppen (speziell Sportler) und Allerweltsnamen. Man könnte alle Peter und Karl sowie alle Müller und Meier ausschließen, das wäre vermutlich schon eine deutliche Verbesserung. --Emu (talk) 13:19, 8 March 2022 (UTC)

Wurgl (talkcontribs)

Eine ganz andere Sache die man machen könnte, das ist aber etwas wilder:

Es geht um Geographika. In Q1931017 ist VIAF:246906212 eingetragen. Das ist nicht ganz falsch. In de:Michelbach am Heuchelberg ist GND 1168670705 eingetragen, das ist schon richtiger.

Problem ist, dass dieses Kaff eingemeindet wurde. Also bis 30.6.1970 war der (vorhandene) VIAF-Datensatz mit der GND 7827792-9 gültig und ab 1.7.1970 ist GND 1168670705 mit VIAF:5321153954925905680004 gültig.

Ich hab einmal so eine Wikidata-Objekt gesehen, wo beide GNDs eingetragen waren. Einmal mit "gültig bis" und einmal als "preferred" mit "gültig ab".

Das sehe ich mal so als Idee: Wenn die deWP einen DNB-Datensatz hat und der hat einen Vorgänger und in Wikidata ist eine VIAF, die den Vorgänger klammert, dann die GND-Kette der Vorgänger zu der VIAF (manchmal gibt es mehrere Vorgänger!) eintragen bzw. ergänzen. Wobei das nur, wenn diese Vorgänger/Nachfolger-Kette durch Datum qualifiziert abgegrenzt ist.

Kolja21 (talkcontribs)

Bei Geografika und Körperschaften ist der automatische Import besonders problematisch. Imho sollte man sich vorerst auf Personen konzentrieren. Eine Liste mit Allerweltsnamen ist mir nicht bekannt, daher bleibt eigentlich nur, wie vorgeschlagen, Name + Geburts- + Todesjahr. Das sind die Fälle, die man per Bot importieren könnte. Für den großen Rest sehe ich nur die Möglichkeit, strukturierte Listen zu erstellen, in denen die GNDs z.B. nach Typ, Katalogisierungslevel, Geburtsjahr (Personen) und/oder Land (Geografika), aufgeführt werden.

Wurgl (talkcontribs)

Daher ja die Einschränkung: Wenn in deWP eine GND ist … Okay, könnte man noch einschränken auf "eine GND die keinen Nachfolger hat".

MisterSynergy (talkcontribs)

Irgendwie verzetteln wir uns hier :-)

Wir machen erstmal den Import für Personenobjekte, und weiter oben hat User:Kolja21 auch noch eine Aufgabe zur Überprüfung da gelassen, die ein bisschen Aufmerksamkeit braucht. Danach schauen wir weiter.

Reply to "GND: Platzhalter (Tn)"