Topic on User talk:M2k~dewiki

Again Doublettes from German articles

15
Lantus (talkcontribs)

According to this talk with @Mike Peel: and you, there is obviously no change with your bot. I detected again a wrong Wikidata item in a new German article from you resp. your bot: Old item Q55859742, newly created as Q96999118. As I understod the above mentioned discussion, you'd wait for several days before creating new data items?! —Lantus 03:48, 6 July 2020 (UTC)

M2k~dewiki (talkcontribs)

Hallo @Lantus:

vielen Dank für das Zusammenführen von Karl von Ribbentrop mit Karl Barthold Siegmund von Ribbentrop. Beim Import der Normdaten über HarvestTools kommt es in einem solchen Fall zu einer "Unique constraint violation", sodass solche Dubletten zum Zeitpunkt des Importversuches ebenfalls zusammengeführt werden können.

Weitere mögliche Dubletten finden sich unter

(Aktualisierung von Zeit zu Zeit durch einen Bot) bzw. auf

(zum Zeitpunkt der SPARQL-Abfrage) über Suche nach "Unique value" und Ausführung einer der drei Abfragen: "SPARQL (every item)", "SPARQL (by value)", "SPARQL (new)".

Nachdem ich keinen Bot betreibe gab es diesbezüglich von meiner Seite auch keine Änderung.

Täglich werden in der deutschsprachigen Wikipedia rund 300 neue Artikel

pro Monat sind das rund 9.000 Artikel.

Dazu kommen noch

Oft finden sich mehrere tausend unverbundene Artikel, Kategorien, Navigationsleisten, etc. beispielsweise unter

Grundsätzliche Fragen diesbezüglich wären:

  • Wie, wann, wodurch bzw. durch wen sollen Wikidata-Objekte für diese Artikel, Kategorien, Vorlagen, Listen, Begriffsklärungen, mit bestehenden Objekten verbunden bzw. neu angelegt werden?
  • Wodurch kann sichergestellt werden, dass dabei keine Dubletten zu den bestehenden über 91 Millionen Objekten angelegt werden, insbesondere bei unterschiedlicher Sprache/Zeichensatz/Alphabet und/oder unterschiedlichen Namensvarianten (Personennamen, Filmtitel, Bezeichnungen für Denkmäler, geografische Objekte, etc.) innerhalb der selben Sprache?
  • Wer kann die Vorschläge implementieren bzw. regelmäßig ausführen?

Siehe dazu unter anderem auch:

Lantus (talkcontribs)

hmmm, Danke für Deine ausführliche Antwort, aber ich sehe nicht, wie wir das Problem grundsätzlich lösen können. Gibt es dazu an anderer Stelle (ausser den beiden letzten Benutzerdiskussionsseitenlinks, die du genannt hast) noch Diskussionen? —Lantus 10:30, 8 July 2020 (UTC)

M2k~dewiki (talkcontribs)

Hallo @Lantus:

mein Vorschlag wäre, die grundlegenden Probleme auf Wikidata:Forum (deutsch) und/oder Wikidata:Project_chat (englisch, nachdem das Problem teilweise alle Sprachversionen betrifft) anzusprechen.

Probleme und Fragenstellungen sind aus meiner Sicht unter anderem:

( * Wer kann die Vorschläge implementieren bzw. regelmäßig ausführen? )

  • Wie können wir mehr Benutzer aus den Sprach-Communities (z.B. de-WP) dazu bringen, sich zumindest um die Objekte zu den von ihnen erstellten Artikel zu kümmern, von ihnen neu erstellte Kategorien, Navigationsleisten, Commonscats, Artikel, usw. mit bestehenden Objekte zu verbinden oder neue Objekte anzulegen, zu überprüfen und zu pflegen? Der Hauptaufwand besteht aufgrund unterschiedlicher Bezeichnungen, Bedeutungen und Zeichensätze in verschiedenen Sprachen, darin, im Vorfeld der ohnehin notwendigen gründlichen Recherche für einen Artikel festzustellen, ob dieser bereits in anderen Sprachversionen, Datenbanken, Lexika, Projekten wie Wiki-Commons, Wikisource, ... besteht (und ggf. weitere Inhalte in anderen Sprachversionen, Wiki-Projekten (Commons, Wikisource, Voyage, ...) und/oder externen Datenbanken und Lexika dem Leser aber auch Autor zur Verfügung stehen würden. Diese weiteren Inhalte und/oder darin enthaltenen Quellen könnten ggf. auch für den eigenen Artikel verwendet werden). Der Zusatzaufwand, ein neues Objekt anzulegen oder mit einem bereits bestehenden Objekt zu verbinden ist dagegen eher vergleichsweise gering, wenn das jeder selbst macht, nicht jedoch, wenn das einige wenige für alle anderen machen.
  • Wie kann man das Akzeptanzproblem, das Wikidata in der deutschsprachigen Community teilweise hat (siehe beispielsweise Wikipedia:Umfragen/Normdaten_aus_Wikidata und Wikipedia:Meinungsbilder/Nutzung von Daten aus Wikidata im ANR), verringern, sodass sich mehr Benutzer aus der Sprach-Community beteiligen, sodass die deutschsprachige Wikidata-Community nicht nur aus einigen wenigen Benutzern besteht, die regelmäßig und laufend mitarbeiten. (Henne-Ei-Problem: "Die Datenqualität von Wikidata ist angeblich so schlecht, daher beteilige ich mich nicht. Weil sich so wenige beteiligen ist die Datenqualität schlechter als sie sein müsste, wenn sich mehr beteiligen würden.")
  • Wie kann man mehr Benutzern der deutschsprachigen Wikipedia den Nutzen von Wikidata näherbringen und die Aufmerksamkeit auch auf Wikidata lenken (beispielsweise bei Benutzern ohne Wikidata-Diskussionsseiten, die einen neuen Artikel einstellen, eine Begrüßungsseite auf Wikidata anlegen, im Bereich Film gibt es einen Bot in der de-WP, der bei fehlender Zuordnung zu einem WD-Objekt den Artikelersteller auf dessen de-Diskussionsseite über die fehlende Zuordnung benachrichtigt, usw.)
  • Denkbar wäre es auch, die Problematik in einem Beitrag im de:Wikipedia:Kurier anzusprechen.

Aus meiner persönlichen Sicht ist die Anlage von Dubletten auch bei noch so sorgfältiger Prüfung (weder automatisiert noch manuell, weil die Daten auch nicht immer vollständig und eindeutig sind und nicht alle möglichen unterschiedlichen Schreibweisen, IDs, unterschiedliche Sterbe- und Geburtsdaten bekannt und angegeben sind) nicht komplett verhinderbar. Mein Zugang wäre, vermeiden, so gut es geht, aber wenn es doch einmal zu er Dublette kommen sollte, so wird diese über Unique-Constraint-Violations über zahlreiche IDs (GND, VIAF, IMDb, uvam.) ausfindig gemacht und kann zusammengeführt werden.

Beispielsweise wurden unlängst 160.000 Datensätze angelegt, die aus dem Namen und der GND bestanden (und mittlerweile um Geburts- und Sterbejahr ergänzt wurden, sodass Pi Bot, der zuletzt deaktiviert wurde, sodass nunmehr noch mehr manueller Aufwand für einige wenige besteht, darauf basierend automatisch zu bestehenden Objekten zuordnen könnte). Nachdem die GND aber bei dem zweiten, bereits vorhandenen Objekt noch nicht vorhanden war, wurden zahlreiche Dubletten angelegt, die teilweise noch immer vorhanden sind (siehe auch User_talk:MrProperLawAndOrder#Mathilde_Welcker_(Q94753027)_and_Mathilde_Welcker_(Q94753026)_are_identical) Gerade wenn massenweise Datensätze aus verschiedenen Bibliotheken und Datenbanken eingespielt werden, können Dubletten nicht ausgeschlossen werden, wenn die Daten mit dem vorhandenen Datenbestand vorab nicht gründlich abgeglichen wurden.

Lantus (talkcontribs)

Wieder eine neue Doublette entdeckt: Q55124622 und Q97487670: Q97487670 wurde von Dir gestern Abend neu angelegt, obwohl Q55124622 bereits existierte und unter dem Namenseintrag dieser Person bereits verlinkt ist. Ich dachte wir hätten uns geeinigt, dass derartige Aktivitäten erst nach einer Woche erfolgen? —Lantus 06:26, 19 July 2020 (UTC)

M2k~dewiki (talkcontribs)

Hallo Lantus,

vielen Dank für das Zusammenführen von Jakob von Graviseth mit Jacob Gravisset. Weitere mögliche Dubletten sind beispielsweise unter

gelistet.

Bislang gab es aus meiner Sicht leider noch keinerlei Einigung bezüglich der Frage, wer, wann, wodurch die Objekte für unverbundene Artikel, Kategorien, Vorlagen, Listen, usw. angelegt werden sollen, inbesondere die Diskussion Wikidata:Forum#Wikidata-Objekte_für_noch_nicht_zugordnete_Artikel,_Kategorien,_Vorlagen,_Listen,_Begriffsklärungen,_mit_bestehenden_Objekten_verbinden_bzw._neu_anlegen ist derzeit noch offen. Mittlerweile dürfte der GZWDer-Bot die Aufgabe teilweise (wieder) übernommen haben, siehe auch User:GZWDer (flood)/Automatic creation schedule.

Lantus (talkcontribs)
M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)

Hallo @Lantus: die Seite User:M2k~dewiki/Tools/Create Objects kann verwendet werden um Artikel ohne Wikidata-Objekt zu finden und ggf. mit bestehenden Objekten zu verbinden bzw. neue Objekte anzulegen. Vielen Dank für die Unterstützung!

Du warst leider schon wieder zu schnell (s. meine letzten Bearbeitungen bzgl. Kümmell). —Lantus 20:00, 12 September 2020 (UTC)

M2k~dewiki (talkcontribs)

Hallo @Lantus: vielen Dank für den Hinweis. Die Objekte Hermann Kümmell und Hermann Adolph Kümmell wurden zusammengeführt (de:Benutzer:M2k~dewiki/FAQ#Wikidata-Dubletten-zusammenfügen).

Verbesserungsvorschläge zur Anlage von neuen Objekten bzw. Verbindung von unverbundenen Objekten bitte unter

Unverbundene Objekte finden sich unter anderem auf

Lantus (talkcontribs)

ja klar, zusammenführen kann ich auch. Das ist nicht das Problem. —Lantus 20:43, 18 October 2020 (UTC)

Lantus (talkcontribs)

User:M2k~dewiki, wenn Du einfach mal länger mit deinen Bearbeitungen warten würdest! Jetzt war es Q100563610 als neue Doublette. Danke. —Lantus 20:43, 18 October 2020 (UTC)

M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)