Wurgl

Welcome to Wikidata, Wurgl!

Wikidata is a free knowledge base that you can edit! It can be read and edited by humans and machines alike and you can go to any item page now and add to this ever-growing database!

Need some help getting started? Here are some pages you can familiarize yourself with:

Introduction – An introduction to the project.
Wikidata tours – Interactive tutorials to show you how Wikidata works.
Community portal – The portal for community members.
User options – including the 'Babel' extension, to set your language preferences.
Contents – The main help page for editing and using the site.
Project chat – Discussions about the project.
Tools – A collection of user-developed tools to allow for easier completion of some tasks.

Please remember to sign your messages on talk pages by typing four tildes (~~~~); this will automatically insert your username and the date.

If you have any questions, don't hesitate to ask on Project chat. If you want to try out editing, you can use the sandbox to try. Once again, welcome, and I hope you quickly feel comfortable here, and become an active editor for Wikidata.

Best regards!

Belatedly, -- Andy Mabbett (Pigsonthewing); Talk to Andy; Andy's edits 11:43, 7 September 2017 (UTC)Reply

Q399044&oldid=prev&diff=722164679&diffmode=source edit

Latest comment: 5 years ago5 comments3 people in discussion

Ich möchte von Dir eine hinreichende sachliche Begründung, warum deines Erachtens die Brachialmethode des Rückgängigmachen-Buttons gerechtfertigt war, um meinen Edit wegzuputzen? Vernünftiger ist es allemal, für richtig gehaltene Überarbeitungen vorzunehmen, ohne damit unnötige Konflikte zu produzieren. Ich halte es für einen Missbrauch des Buttons, wenn nicht sehr gute Gründe vorliegen. Denn die Sachlage ist durchaus nicht eindeutig.

Inhaltlich hats Du angegeben: "Bitte keine Namenseinträge". Der vorhandene GND war tatsächlich nur ein Namenseintrag "Fernández, Agustí". Wenn die dt. Nationalbibliothekare keine konkreten Werke vorliegen haben, die sie einarbeiten können, ist das nunmal so. Und so ein Namenseintrag ist doch besser als nichts! Er ist anschlussfähig und bereit, Werkeinträge nachtragen zu können.

Wikidata ist eigenständig. Nur weil es in der deutschen Wikipedia so eine Unerwünscht-Empfehlung gibt (samt detaillierten Verfahrensregeln), gilt sie nicht gleichermaßen für Wikidata (meines Wissens keine Verfahrensregeln). Das solltest Du zur Kenntnis nehmen. Oder nachweisen, dass ich mich irre. -- Justus Nussbaum (talk) 07:03, 17 August 2018 (UTC)Reply

Ich ziehe mal den Spezialisten hinzu: @Kolja21: kann dir ausführlich erklären, warum Namenseinträge nicht nach Wikidata sollen. --Wurgl (talk) 07:08, 17 August 2018 (UTC)Reply

Nur ganz kurz: Bitte die Beschreibung von Property:P227 lesen. --Wurgl (talk) 08:40, 17 August 2018 (UTC)Reply

@Justus Nussbaum: Der Reversbutton schafft schnell böses Blut, da hast du natürlich recht, aber der Hinweis: "Bitte keine Namenseinträge" ist völlig korrekt. Das gilt vor allem für Wikidata, da hier keine mit Wikipedia vergleichbaren Wartungslisten existieren. Wir hatten schon öfters die Fälle, wo zwei Personen mit den gleichen Normdaten zusammengeführt wurden und später stellte sich heraus, dass die vermeintlichen Tps (Thesaurus Person) nur Tns - Platzhalter, vergleichbar mit Wikimedia disambiguation page (Q4167410) - waren. Gruß --Kolja21 (talk) 21:09, 17 August 2018 (UTC)Reply

Wobei ich das Revert verwende, weil ich dort einen Änderungskommentar eingeben kann, eine Begründung für die Änderung. ich kann natürlich das ganz einfach so rauswerfen, aber dann macht ein anderer einen kommentarlosen Revert und was dann? Editwar? Oder Zeit mit langwierigen Erklärungen auf den Diskussionsseiten verschwenden? --Wurgl (talk) 21:14, 17 August 2018 (UTC)Reply

Rollback edit

Latest comment: 4 years ago5 comments2 people in discussion

Hello, would you like rollback rights? It would help you revert vandalism faster. -- Ajraddatz (talk) 18:21, 29 October 2019 (UTC)Reply

I just do it for (some kind of) fun. About once a day I look at https://tools.wmflabs.org/wdvd/index.php?lang=de and if something looks unexpected/strange or like typical vandalism, I do a closer look. It is just half an hour per day, not more, main activity is deWP. I do not miss any rights here, thanks! And seriously: Some parts of Wikidata are still a big question mark for me. --Wurgl (talk) 18:30, 29 October 2019 (UTC)Reply

Ok, well thanks for your help anyway! If you change your mind let me know. Regards, -- Ajraddatz (talk) 18:29, 30 October 2019 (UTC)Reply

@Ajraddatz: In the german WP we are kind of discussing adding GND-Ids (see de:Benutzer_Diskussion:Wurgl/Fehler_GND#Wegen_Updates_…) automagically by some bot-script. Biographies, GND-Ids and VIAF-Ids are the main part of my contributions in de-Wikipedia. Since early 2017 I am doing with a bot on deWP (de:Special:Contributions/APPERbot), so I have a some of experience there, but not with wikidata. Any comments? Note: Even "don't do it" is a valid and accepted comment, no problem. Or any hints, any must read, any "contact xyz first"? --Wurgl (talk) 00:28, 6 November 2019 (UTC)Reply

Hi, unfortunately I don't know much about that. You could ask on the project chat. -- Ajraddatz (talk) 00:34, 6 November 2019 (UTC)Reply

Q27883339 and P214 edit

Latest comment: 3 years ago1 comment1 person in discussion

Thx, @Wurgl:, for your modification to VIAF ID (P214) in Q27883339. Please, consider to help VIAF correct its own error adding this page, and others, if any, to Wikidata:WikiProject_Authority_control/VIAF_errors. -- Bargioni 🗣 09:17, 20 May 2020 (UTC)Reply

Q78318177 edit

Latest comment: 3 years ago2 comments2 people in discussion

Hi @Wurgl:, halte dich bitte mit Rollbacks wegen Vandalismus zurück, wenn du dir nicht wirklich sicher bist. Mit deinem Rollback hast du dafür gesorgt, dass wieder alte / unkorrekte Informationen in Wikidata standen. Ungeruehrt (talk) 17:39, 26 September 2020 (UTC)Reply

@Ungeruehrt: Weißte, ich hab bei dem etwas gezögert. Habe dann doch wegen der Verunstaltung des Namens "Dörner" zu "Doener" von der gleichen IP. Ohne den "Doener" hätte ich das ganz sicher nicht angefasst. --Wurgl (talk) 17:47, 26 September 2020 (UTC)Reply

Müllers edit

Latest comment: 3 years ago2 comments2 people in discussion

Grüß dich, es ist alles in die Wege geleitet. Zwei Wikidata-Sätze bestehen, beide GND und LCCN sind sauber zugeordnet, ISNI-Satz wurde zur Korrektur angemeldet, die übrigen Normdaten sind exakt zugeordnet und (bei der jeweils anderen Person) auf no value gesetzt. Der VIAF-Satz wird in näheren Zukunft aufgesplittet werden. Ich denke daher, dass diese Edits nicht so wahnsinnig sinnvoll sind. Aber wenn du mehr Informationen hast, dann immer raus damit ː-) --Mai-Sachme (talk) 07:26, 21 March 2021 (UTC)Reply

Der Grund für diese Edits sind die hirnbefreiten Bots. "Juhu, in der VIAF steht die ID, die trag ich jetzt auch ein." Jetzt aber ist die Situation "Och, die stehen schon da?". --Wurgl (talk) 07:29, 21 March 2021 (UTC)Reply

Call for participation in the interview study with Wikidata editors edit

Dear Wurgl,

I hope you are doing good,

I am Kholoud, a researcher at King’s College London, and I work on a project as part of my PhD research that develops a personalized recommendation system to suggest Wikidata items for the editors based on their interests and preferences. I am collaborating on this project with Elena Simperl and Miaojing Shi.

I would love to talk with you to know about your current ways to choose the items you work on in Wikidata and understand the factors that might influence such a decision. Your cooperation will give us valuable insights into building a recommender system that can help improve your editing experience.

Participation is completely voluntary. You have the option to withdraw at any time. Your data will be processed under the terms of UK data protection law (including the UK General Data Protection Regulation (UK GDPR) and the Data Protection Act 2018). The information and data that you provide will remain confidential; it will only be stored on the password-protected computer of the researchers. We will use the results anonymized to provide insights into the practices of the editors in item selection processes for editing and publish the results of the study to a research venue. If you decide to take part, we will ask you to sign a consent form, and you will be given a copy of this consent form to keep.

If you’re interested in participating and have 15-20 minutes to chat (I promise to keep the time!), please either contact me at kholoudsaa@gmail.com or use this form https://docs.google.com/forms/d/e/1FAIpQLSdmmFHaiB20nK14wrQJgfrA18PtmdagyeRib3xGtvzkdn3Lgw/viewform?usp=sf_link with your choice of the times that work for you.

I’ll follow up with you to figure out what method is the best way for us to connect.

Please contact me using the email mentioned above if you have any questions or require more information about this project.

Thank you for considering taking part in this research.

Regards

Kholoud

GND dumps edit

Latest comment: 2 years ago15 comments2 people in discussion

Hey Wurgl, soweit ich verstehe, verarbeitest Du gelegentlich Dumps von der GND für Dein persondata-Tool. Welche Dumps/Formate nimmst Du da, damit das effizient abläuft? Viele Grüße! —MisterSynergy (talk) 21:58, 25 February 2022 (UTC)Reply

authorities-geografikum_lds.rdf.gz authorities-kongress_lds.rdf.gz authorities-person_lds.rdf.gz authorities-werk_lds.rdf.gz authorities-koerperschaft_lds.rdf.gz authorities-sachbegriff_lds.rdf.gz

Das war mal eine einzige Datei, haben die dann auf Wunsch von ??? aufgeteilt, waren mal 7, aber authorities-name_lds.rdf.gz gibts nicht mehr. --Wurgl (talk) 22:06, 25 February 2022 (UTC)Reply

Kannst Du diese Dumps denn parsen, ohne sie erstmal komplett in den Hauptspeicher zu laden? —MisterSynergy (talk) 07:51, 26 February 2022 (UTC)Reply

Ja! Ich parse von stdin als Stream … sowohl mit PHP (da mach ich das mit den Wikipedia-Dumps) als auch bei dem Programm in C++. --Wurgl (talk) 07:54, 26 February 2022 (UTC)Reply

Nachtrag: Stdin als Stream und nicht von einem File, weil ich die Ausgabe von gzip -d parse, also quasi direkt vom komprimierten Zeugs. --Wurgl (talk) 07:56, 26 February 2022 (UTC)Reply

Hm, und wie bekommst Du das dann interpretiert, so dass Du aus dem XML zum Beispiel eine Datenstruktur machst, die einen kompletten GND-Datensatz repräsentiert? —MisterSynergy (talk) 08:00, 26 February 2022 (UTC)Reply

Tja. Bescheiden. Ich verwende SQlite (das ist im Single-Task-Betrieb schneller) und hab eine einfache Tabelle CREATE TABLE "gndData" ("gndId" TEXT NOT NULL, "fieldType" INTEGER NOT NULL, "data" TEXT NOT NULL) gndId ist klar, fieldType entspricht sowas wie "gndo:variantNameForThePerson" (allerdings als numerischer Wert) und data ist dann das Zeug was da steht. Wobei in data auch ein Inhalt stehen kann, der auf gndId verweist um diese rekursiven Konstrukte auflösen zu können.

Für ein paar Dinge die ich ganz speziell brauche wie den Typ (Person, Geographikum, Organisation, ...) hab ich noch eine Tabelle, ebenso für die Redirects, die Aliase und die VIAF.

Der erste Datensatz im File authorities-person_lds.rdf.gz sieht dann so aus:

select * from gndData where gndId = '100000193';
gndId|fieldType|data
100000193|30|Prof.
100000193|44|Ordinarius an der jurist. Fakultät der Univ. Leipzig
100000193|74|1695-02-20
100000193|77|1763-03-02
100000193|96|130374512
100000193|96|121453839
100000193|96|126261113
100000193|108|male
100000193|109|XA-DE
100000193|142|4038749-5
100000193|142|4035206-7
100000193|143|4035206-7
100000193|148|4035206-7
100000193|163|Bauer, Johann Gottfried
100000193|170|4025243-7
100000193|170|4029050-5
100000193|173|Rechenberg, Karl Otto: Institutionum iurisprudentiae naturalis  Lib. II.,  Tit.  1  -  4  ...
100000193|173|Dissertatio inauguralis de pacto remissorio ante concursum formalem in foro Saxoniae electoralis
100000193|173|Dissertatio inauguralis de aestimandis et restituendis fructibus, ad dec. nov. II
100000193|214|Baverus, Joan. Godofredus
100000193|214|Baverus, Io. Godofredus
100000193|214|Baverus, Ioan. Godofredus
100000193|214|Bauerus, Johannes Godofredus
100000193|214|Bauerus, Joannes Godofredus
100000193|214|Bauerus, Iohannes Godofredus
100000193|214|Bauerus, Ioan. Godofredus
100000193|214|Bauerus, Ioannes Godofredus
100000193|214|Baver, Ioh. Godofredvs
100000193|214|Bauer, Ioh. Godofredus
100000193|214|Bauer, Iohannes Godofredus
100000193|214|Bauer, Io. Godofredus
100000193|214|Bauer, Ioannes Godofredus
100000193|214|Bauer, Joannes Godofredus
100000193|214|Bauer, Johannes Gottofredus
100000193|214|Bauer, Johannes Gothofredus
100000193|214|Bauer, Johanes Gottfried
100000193|214|Bauer, Johannes Gottfried
100000193|219|http://www.wikidata.org/entity/Q55861550
100000193|219|http://isni.org/isni/0000000061362700
100000193|219|http://viaf.org/viaf/32334419
100000193|232|130374512
100000193|232|121453839
100000193|235|126261113
100000193|-159|100000193$1
100000193|-210|100000193$2
100000193|-210|100000193$3
100000193|-210|100000193$4
100000193|-210|100000193$5
100000193|-210|100000193$6
100000193|-210|100000193$7
100000193|-210|100000193$8
100000193|-210|100000193$9
100000193|-210|100000193$10
100000193|-210|100000193$11
100000193|-210|100000193$12
100000193|-210|100000193$13
100000193|-210|100000193$14
100000193|-210|100000193$15
100000193|-210|100000193$16
100000193|-210|100000193$17
100000193|-210|100000193$18
100000193|-210|100000193$19

Diese Einträge wie "100000193$1" sind dann die oben genannten rekursiven Datensätze:

select * from gndData where gndId = '100000193$1';
gndId|fieldType|data
100000193$1|103|Johann Gottfried
100000193$1|200|Bauer

Wie gesagt, eine bescheidene Abbildung. --Wurgl (talk) 08:18, 26 February 2022 (UTC)Reply

Hm okay. Wenn Du den Stream liest, musst Du aber schon erstmal irgendwie festhalten, was die aktuelle GND-Entität ist und dann kannst Du Kram in Deine lokale Datenbank schreiben, bis Du irgendwann mal die nächste GND-Entität siehst. Ganze GND-Entitäten hast Du aber nie im Speicher.

Ich hatte gehofft, dass man das ähnlich komfortabel wie die JSON-Dumps von Wikidata verarbeiten kann. Darin sind Datenobjekte zeilenweise als individuelle JSON-Objekte serialisiert, so dass man den Dump eben zeilenweise lesen kann und jede Zeile dann direkt in eine Datenstruktur parst, die man dann (einmalig) sehr effizient nutzen kann. Mit Python geht das easy in weniger als 10 Zeilen.

Die GND-Dumps geben das aber augenscheinlich nicht her, ohne erstmal einiges an Bufferlogik zu schreiben. —MisterSynergy (talk) 08:38, 26 February 2022 (UTC)Reply

Hmm … ich lese auch die Wikipedia-Dumps als XML

wget -q -O - https://dumps.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles-multistream.xml.bz2 | bzip2 -d | php ~/dumps/bild-tags.php

Ja, ein bissl Kontext muss man sich halt merken. Wurgl (talk) 08:47, 26 February 2022 (UTC)Reply

Das Format ist nebensächlich, weil man alles mit entsprechenden libraries parsen kann. Ich mache alles in Python, da ist JSON in vielerlei Hinsicht vorteilhaft. RDF (XML oder nt oder ttl oder whatever) geht auch, da könnte man dann zum Beispiel mit wenigen Zeilen Code individuelle Entitäten als Graph-Objekt einlesen und darauf SPARQL-Abfragen direkt in Python durchführen.

Blöd ist nur dies "ein bissl Kontext muss man sich halt merken", was die Sache umständlich und fehleranfällig macht. Die GND-Dumps sind so umständlich formatiert, dass ich folgende Optionen habe:

erstmal alles in den Hauptspeicher lesen und dann parsen (braucht extrem viel Hauptspeicher)
lokal buffern, bis eine sinnvolle Dateneinheit eingelesen ist (ist kompliziert zu implementieren)
häppchenweise Information in der Größenordnung einzelner Tripel einlesen (unpraktisch)

Hilfreich wäre es, wenn die GND-Dumps ebenfalls mit zeilenweise portionierten Datenobjekten angeboten werden würden, zumindest in einigen Formaten. —MisterSynergy (talk) 09:31, 26 February 2022 (UTC)Reply

Die haben auch andere Formate, siehe https://data.dnb.de/opendata/

Als ich das damals getippt habe, hab ich mit JSON nicht so die Erfahrung gehabt, eigentlich ne glatte Null an Erfahrung. Und wenn ich mit diese JSON-Dateien dort angucke … ich glaub nicht dass die einfacher zu lesen sind. Eine GND = ein Datensatz scheint dort nicht zu sein. Bei den Personen ist da am Anfang erstmal ein Array von Namen … wie es dann weitergeht … nee, will ich nicht wissen. Wurgl (talk) 09:41, 26 February 2022 (UTC)Reply

Das eignet sich alles nicht, bzw. braucht einige Verrenkungen um nützlich zu sein. Ich hatte gehofft, dass die vielleicht anderswo noch was besseres haben :-) —MisterSynergy (talk) 09:56, 26 February 2022 (UTC)Reply

Hab mir jetzt was brauchbares auf Basis des XML-Dumps gebastelt. Das läuft so mit ~1000 Entitäten je 4-6 Sekunden – braucht also einen halben Tag oder so für den gesamten Dump. Das ist allerdings kein Problem, man macht es ja idealerweise nur einmal alle paar Monate ;-) —MisterSynergy (talk) 15:06, 26 February 2022 (UTC)Reply

Oho! Das ist langsam.

Ich bau mir immer aus vielen Datensätzen ein Statement der Art INSERT INTO blah (a, b, c) VALUES (1, 2, 3), (4, 5, 6), (7, 8, 9) zusammen und Indizes werden erst gebastelt, wenn alles drinnen ist – ich fang immer mit leeren Tabellen an, keine Update/Insert/Delete-Gehampel. Dauert so … hmm … gefühlt unter einer Stunde jedenfalls. Wurgl (talk) 15:11, 26 February 2022 (UTC)Reply

Ja, finde auch dass das langsam ist – es kommt aber eben auch nicht so drauf an. Ich suche mir Zeilen zusammen, bis ich eine komplette Entität im Buffer habe und verarbeite den dann am Stück. Dann kann ich nämlich alles recht komfortabel mit SPARQL direkt in Python aus der Entität extrahieren. Letztlich tausche ich Geschwindigkeit gegen bequemen Zugriff ab… —MisterSynergy (talk) 15:18, 26 February 2022 (UTC)Reply

Missbilligter Rang edit

Latest comment: 1 year ago13 comments2 people in discussion

Hallo Wurgl, ich habe gerade gesehen, dass die GNDs, die ich bei Vischer (Q2528123) gelöscht habe, von dir eingefügt wurden. [1] Mit dem Zusatz "Missbilligter Rang" war das natürlich kein Fehler, aber ich halte es für besser, mit different from (P1889) zu arbeiten. Das scheint die beste Möglichkeit zu sein, die Vermischungen bei VIAF zu beheben. Die Ränge sind zwar eine gute Idee, aber weder VIAF noch die meisten Bots können sie auslesen. --Kolja21 (talk) 17:00, 4 May 2022 (UTC)Reply

Problem!

Ich hab auf de:Benutzer:APPER/VIAF (momentan) 528 Kandidaten wo die VIAF irgendwas mischt. Ca. 30 Stück haben (noch) keine andere Bibliothek als "Missbilligt" eingetragen, ca. 500 Stück haben mindestens eine als "missbilligt" eingetragen. Das ist eine Übersicht über die Menge.

Ich prüfe jeden Tag alle diese 500 VIAFs, ob immer noch die missbilligten im VIAF-Cluster sind (um genau sein: In dem VIAF-Cluster wo die GND zum Zeitpunkt der Prüfung steckt). Wenn nicht, dann steht da "kein missbilligter Rang" (oder wenn sich die VIAF geändert hat "VIAF nicht als missbilligt gekennzeichnet" und dann kann ich eventuell die VIAF in deWP eintragen oder aber eine weitere VIAF als "missbilligt".

Die Erfahrung aus der Abarbeitung dieser Liste in Form von Eintragen von missbilligten Rängen war diese, dass es durchaus Fälle gibt, vo die VIAF gleich bleibt auch wenn die LCCN rausgenommen wird. Ich kann also nicht davon ausgehen, dass eine Änderung des Clusters auch eine Änderung der VIAF bewirkt, auch nicht wenn die LCCN rausfliegt.

Wenn du die missbilligten rauswirfst, dann sehe ich keine Chance wie ich erkennen kann, ob der VIAF-Cluster sich zum positiven geändert hat. Irgendwo muss ich ja vorhalten, welche Bibliothek weg muss damit der sauber ist.

Das zweite Problem sind übereifrige Bots, die mit der Begründung "Bei der VIAF steht diese Bibliothek" diese Bibliotheken (die du rausgeworfen hast) wieder eintragen. --Wurgl (talk) 20:48, 4 May 2022 (UTC)Reply

Das zweite Problem habe ich über Wikidata:Database reports/Constraint violations/P227 im Griff. Aber wenn dir der "Missbilligter Rang" bei der Wartungsarbeit hilft, werde ich in Zukunft drauf achten, nur die Einträge zu löschen, bei denen der Fehler in VIAF behoben ist. Hab' die Löschung daher rückgängig gemacht. - Insgesamt läuft die Arbeit auf Wikidata mittlerweile deutlich besser als früher. Es haben sich einige Profis eingefunden, auch wenn es immer wieder haarsträubende Falschzuordnungen und Vermischungen gibt. --Kolja21 (talk) 00:50, 5 May 2022 (UTC)Reply

Wenn das nur zehn solcher Einträge wären, dann könnte man die per Hand abklappern, aber bei 500 immer wieder die Augen wund gucken … das geht einfach nicht. Ich werd aber mal schauen, ob ich bei "verschieden von" das andere Objekt angucken kann und dort die nicht gar so toll zugeordneten identifizieren kann. Das Problem des Nacharbeitens (aka Entfernens) übereifrig zugeordneter Bibliotheken bleibt, wobei mir hauptsächlich der gesperrte Matlin aufgefallen ist. --Wurgl (talk) 05:20, 5 May 2022 (UTC)Reply

Heinz Korn edit

Weil immer wieder der Punkt "eine Person anlegen" bei so Vermischungen kommt. VIAF:8290149296173380670008 mit LCCN/NUKAT. Das ist wohl ein anderer, siehe Template:DNB bzw. mit Bild des Einbandes: http://randbuch.info/gehetzt-uebers-meer_nr20087 Mit 17 schreibt man sowas nicht, außerdem ist der aus deWP eher der Musik zugetan. Nun gibt es bei Heinz Korn (Q1600496) ein "different from" Heinz Korn (Q16014910) einen Wehrmachtsoffizier, der wäre zu dem Zeitpunkt immerhin schon 20 gewesen. Die ukrainische WP hat bissl was an Text, der ist es wohl auch nicht (war wohl eher Flieger und zur fragl. Zeit wahrscheinlich an der russischen Front, also keine Zeit um ein Buch zu schreiben). Noch einen dritten eintragen? Aber was außer fl. 1940 hab ich als Info? --Wurgl (talk) 06:52, 5 May 2022 (UTC)Reply

Von dem Jugendbuchautor Heinz Korn (Q111843879) sind zwei Titel (1941/42) in der DNB vorhanden. Ich habe den Fall auf WP:GND/F gemeldet, da es sich eventuell um ein Pseudonym handelt, s. Angabe: "Gruber, Heinz (Verfasser)" in DNB 580034763. --Kolja21 (talk) 15:08, 5 May 2022 (UTC)Reply

Off-Topic: Ich hab heute wegen GND 1028026412 genörgelt. Da ist das falsche Seddin verlinkt. Richtig wäre 4403737-5 oder 4396853-3. Mal sehen. Quasi ein Zufallstreffer, mir war der Ort irgendwie bekannt. Später ist mir dann eingefallen, dass ich mit dem Ortsnamen schon einmal gekämpft hab. --Wurgl (talk) 16:24, 5 May 2022 (UTC)Reply

Bei den Geografika bewundere ich eh dein Durchhaltevermögen. Die Zuordnung von Personen ist mir schon kompliziert genug. --Kolja21 (talk) 16:42, 5 May 2022 (UTC)Reply

Ach da finde ich immer wieder nette Links, wie zum Beispiel de:Ii … den Namen finde ich doch etwas unterhaltsam. --Wurgl (talk) 18:37, 5 May 2022 (UTC)Reply

Verschieden von edit

Hallo Wurgl, hast du einen Überblick, welche der 528 Kandidaten aus der Liste de:Benutzer:APPER/VIAF bislang noch ohne Wikidata-Eintrag für den Namensvetter sind? Ich habe Friedrich Knorr (Q111906751), Autor von "Kaninchen Krankheiten" (1983), angelegt und würde gerne ein paar weitere Fälle abarbeiten. Anhand dieser Auswahl könnte man dann beim nächsten VIAF-Update sehen, ob der zweite Eintrag in Wikidata ausreicht, um die Cluster zu optimieren. --Kolja21 (talk) 21:18, 8 May 2022 (UTC)Reply

Ich kann das auswerten und dort reinmalen. Mal sehen, wann ich dazu komme. --Wurgl (talk) 21:30, 8 May 2022 (UTC)Reply

@Kolja21: War einfacher als gedacht. Kannst damit was anfangen? --Wurgl (talk) 22:09, 8 May 2022 (UTC)Reply

Super. Dann mache ich mich mal an die Arbeit. --Kolja21 (talk) 22:22, 8 May 2022 (UTC)Reply

https://persondata.toolforge.org/data/GNDs.txt.gz edit

Latest comment: 1 year ago13 comments2 people in discussion

Hey Wurgl, hier hast Du mir im Februar mal eine Liste aller damals gültigen GND-Identifikatoren aus dem GND-Dump extrahiert. Die Liste wurde seitdem nicht aktualisiert. Ist es aufwändig, das nach jedem Dump-Release einmal automatisiert aktualisieren zu lassen? Dankeschön und Viele Grüße! —MisterSynergy (talk) 13:02, 19 October 2022 (UTC)Reply

Ich glaub, ich hab die damals zu Hause extrahiert und hochgeschubst. Hab ich eben nochmals gemacht. Irgendwas zum Automatisieren hab ich wohl angefangen, aber der Status … Dezember 2020 ist das mal gelaufen *kopfkratz* ist lange her. --Wurgl (talk) 14:27, 19 October 2022 (UTC)Reply

Ist das denn überhaupt kompliziert? Das würde ich sicherlich auch selbst hinbekommen, nur bin ich nicht so ganz im Bilde wie der GND-Dump aufgebaut ist.

Für meinen Bot bräuchte ich nämlich solch eine "jederzeit aktuelle" Liste. —MisterSynergy (talk) 17:39, 19 October 2022 (UTC)Reply

Die Ids rausfischen ist simpel. 57 Files (Personen, Geographika, etc.), grep und sed (bzw. einfach nur sed). Wenn du mehr willst, isses halt XML-File mit rekursiven Strukturen verarbeiten. authorities-sachbegriff_lds.rdf.gz aus https://data.dnb.de/opendata/ ist das kleinste, prinzipiell sind die anderen auch so aufgebaut nur die XML-Tags sind eben andere bzw. mehr. Diese XML-Tags sollte man halt irgendwie sinnvoll … tja … welche braucht man, welche nicht. Sind halt Platzfresser weil redundant. --Wurgl (talk) 17:46, 19 October 2022 (UTC)Reply

Was mir fehlt ist im Grunde bloß das Wissen, welche Files ich anschauen muss und wie sie intern aufgebaut sind, sprich wo ich nach Identifikatoren suchen muss. Und ich muss da halt am Ball bleiben, was bei den ganzen anderen Aufgaben die ich hier habe nicht so einfach ist :-)

XML wäre jetzt nicht mein präferiertes Format, sondern eher irgendwas RDF-artiges. —MisterSynergy (talk) 17:55, 19 October 2022 (UTC)Reply

Die haben 3 Formate. XML verwende ich. Die anderen hab ich nur kurz angestarrt und dann beiseite gelegt. --Wurgl (talk) 18:03, 19 October 2022 (UTC)Reply

Das turtle-File sieht auch ganz nett aus. Wie lange brauchst Du, um alle Dump einmal durchzugehen? —MisterSynergy (talk) 18:13, 19 October 2022 (UTC)Reply

Zeiten kann ich nicht genau sagen. Wenn ich die Access-Zeiten auf Linux (ls -lu) anstarre, dann wohl so 1,5 Stunden ohne Index-Erzeugung in C++ mit zwei Threads und sqlite als Datenbank, wobei ich ohne Index einfüge und erst am Ende die Indizes erzeuge. --Wurgl (talk) 18:42, 19 October 2022 (UTC)Reply

Alright es sieht aus als haben wir vor vier Tagen neue Dumps bekommen. Würdest Du mir das noch einmal erneuern? Dankeschön und Viele Grüße! :-) —MisterSynergy (talk) 10:15, 8 November 2022 (UTC)Reply

Ja, am Freitag gabs kaputte Daten, siehe de:Benutzer_Diskussion:Wurgl/Fehler_GND#November_2022 und gestern gabs dann (nach einer Nörgelmail meinerseits) eine Korrektur. Ist hochgeschoben. --Wurgl (talk) 10:20, 8 November 2022 (UTC)Reply

Danke. Bist Du sicher, dass das jetzt auf dem neuen Dump ausgewertet wurde? Die Datei sieht nämlich identisch aus zu der, die Du bereits am 19. Oktober hochgeschoben hattest. —MisterSynergy (talk) 10:31, 8 November 2022 (UTC)Reply

Ärks! Jetzt bin ich sicher. Sorry. --Wurgl (talk) 10:35, 8 November 2022 (UTC)Reply

Dankeschön, sieht jetzt besser aus. —MisterSynergy (talk) 10:46, 8 November 2022 (UTC)Reply

Add topic