Wikidata:Requests for permissions/Bot/BeneBot* 3
The following discussion is closed. Please do not modify it. Subsequent comments should be made in a new section. A summary of the conclusions reached follows.
- Not approved: No update in 3 months. Hazard SJ 16:26, 6 March 2014 (UTC)[reply]
BeneBot* edit
BeneBot* (talk • contribs • new items • new lexemes • SUL • Block log • User rights log • User rights • xtools)
Operator: Bene* (talk • contribs • logs)
Task/s: Same task as Descriptioncreator, only for the German Wikipedia. If you wish I'll make some test edits as soon as possible.
Function details: I will parse the first sentence of each Wikipedia article (ie. remove brackets, too long sentences, wikisyntax) and add it as description, if it isn't already set. --Bene* talk 19:44, 23 June 2013 (UTC)[reply]
- Ein Dutzend nicht triviale Beispiel wären aufschlussreich. --Succu (talk) 20:36, 23 June 2013 (UTC)[reply]
- I'd also like to see some test edits. Please leave out articles of persons, they're better done with BESCHREIBUNG from the PersonData template.--CENNOXX (talk) 22:25, 23 June 2013 (UTC)[reply]
- Some examples (note that I'm still working on the regex):
- I'd also like to see some test edits. Please leave out articles of persons, they're better done with BESCHREIBUNG from the PersonData template.--CENNOXX (talk) 22:25, 23 June 2013 (UTC)[reply]
> Earth (Q2): der dichteste, fünftgrößte und der Sonne drittnächste Planet des Sonnensystems > life (Q3): der Zustand, den alle Lebewesen gemeinsam haben und der sie von unbelebter Materie unterscheidet > death (Q4): der endgültige Verlust der für ein Lebewesen typischen und wesentlichen Lebensfunktionen > Canada (Q16): Staat in Nordamerika, der zwischen dem Atlantik im Osten und dem Pazifik im Westen liegt und nordwärts bis zum Arktischen Ozean reicht > Japan (Q17): Staat vor der Ostküste des asiatischen Kontinents > South America (Q18): der südliche Teil des amerikanischen Doppelkontinentes, hat eine Bevölkerung von nahezu 400 Millionen Menschen und ist mit einer Fläche von 17.843.000 km² die viertgrößte kontinentale Landfläche der Erde > Norway (Q20): Staat in Nordeuropa > England (Q21): der größte und am dichtesten besiedelte Landesteil im Vereinigten Königreich Großbritannien und Nordirland > Scotland (Q22): Land im Nordwesten von Europa und ein Landesteil des Vereinigten Königreichs Großbritannien und Nordirland > Wales (Q25): Teil des Vereinigten Königreichs > Northern Ireland (Q26): Land und Teil des Vereinigten Königreichs Großbritannien und Nordirland > Republic of Ireland (Q27): Inselstaat auf der gleichnamigen Insel Irland > Hungary (Q28): Binnenstaat in Mitteleuropa, der zum Großteil im Pannonischen Becken liegt > Spain (Q29): Staat mit einer parlamentarischen Erbmonarchie, der größtenteils auf der im Südwesten Europas gelegenen Iberischen Halbinsel liegt > Belgium (Q31): Staat in Westeuropa > Luxembourg (Q32): demokratischer Staat in Westeuropa > Finland (Q33): parlamentarische Republik in Nordeuropa und seit 1995 Mitglied der Europäischen Union > Sweden (Q34): parlamentarische Monarchie in Nordeuropa > Denmark (Q35): parlamentarische Monarchie und ein souveräner Staat > Poland (Q36): Staat in Mitteleuropa > Lithuania (Q37): Staat in Nordeuropa und der südlichste der drei baltischen Staaten > Italy (Q38): parlamentarische Republik in Südeuropa > Switzerland (Q39): föderalistischer, demokratischer Staat in Europa > Austria (Q40): demokratischer Bundesstaat in Mitteleuropa > Greece (Q41): Mittelmeeranrainerstaat > Douglas Adams (Q42): britischer Schriftsteller > Turkey (Q43): demokratische Republik in Südosteuropa und Westasien > Portugal (Q45): europäischer Staat im Westen der Iberischen Halbinsel > Europe (Q46): Erdteil, der sich über das westliche Fünftel der eurasischen Landmasse erstreckt > North America (Q49): der nördliche Teil des amerikanischen Doppelkontinentes, umgeben nördlich vom Arktischen Ozean, östlich vom Atlantischen Ozean, südlich von der Karibik und westlich vom Pazifischen Ozean > Antarctica (Q51): der südlichste Kontinent der Erde > Wikipedia (Q52): am 15. Januar 2001 gegründetes Projekt zur Erstellung eines freien Onlinelexikons in zahlreichen Sprachen > Club-Mate (Q53): koffeinhaltiges, alkoholfreies Erfrischungsgetränk der Brauerei Loscher KG aus Münchsteinach > All your base are belong to us (Q54): Zitat aus der Eröffnungssequenz des Computerspiels Zero Wing und steht für ein Internet-Phänomen der Jahre 2001 und 2002 > lolcat (Q56): Internet-Phänomen in Form humoristischer Bilder > PHP (Q59): Skriptsprache mit einer an C und Perl angelehnten Syntax, die hauptsächlich zur Erstellung dynamischer Webseiten oder Webanwendungen verwendet wird > New York City (Q60): Weltstadt an der Ostküste der Vereinigten Staaten > San Francisco (Q62): Stadt und eine Metropolregion im US-Bundesstaat Kalifornien an der Westküste der Vereinigten Staaten am Pazifischen Ozean > Los Angeles (Q65): größte Stadt im US-Bundesstaat Kalifornien > Boeing (Q66): der weltweit größte Hersteller von zivilen und militärischen Flugzeugen und Hubschraubern sowie von Militär- und Weltraumtechnik > computer (Q68): Apparat, der Daten mithilfe einer programmierbaren Rechenvorschrift verarbeiten kann > Courrendlin (Q69): politische Gemeinde im Distrikt Delémont des Kantons Jura in der Schweiz > Geneva (Q71): politische Gemeinde und der Hauptort des Kantons Genf in der Schweiz > Zürich (Q72): grösste Stadt der Schweiz und Hauptort des gleichnamigen Kantons > Internet (Q75): weltweites Netzwerk, bestehend aus vielen Rechnernetzwerken, durch die Daten ausgetauscht werden > Barack Obama (Q76): US-amerikanischer Politiker und seit dem 20 > Uruguay (Q77): Staat im südlichen Südamerika, dem Südkegel > Egypt (Q79): Staat im nordöstlichen Afrika mit über 80 Millionen Einwohnern und einer Fläche von über einer Million Quadratkilometern > Tim Berners-Lee (Q80): britischer Physiker und Informatiker > carrot (Q81): Gemüsepflanze aus der Familie der Doldenblütler > MediaWiki (Q83): frei verfügbare Verwaltungssoftware für Inhalte in Form eines Wiki-Systems, was bedeutet, dass jeder Benutzer die Inhalte per Zugriff über den Browser ändern kann > London (Q84): Hauptstadt des Vereinigten Königreichs und des Landesteils England > Alexandria (Q88): Stadt im US-Bundesstaat Virginia mit 139.966 Einwohnern, sie liegt auf der Westseite des Potomac River, knapp 10 Kilometer von Washington, D.C > Paris (Q90): Hauptstadt und mit über zwei Millionen Einwohnern die größte Stadt Frankreichs, sowie Hauptort der Region Île-de-France > Pacific Ocean (Q98): der größte und tiefste Ozean der Erde > California (Q99): der mit Abstand bevölkerungsreichste Bundesstaat der Vereinigten Staaten von Amerika > Boston (Q100): größte Stadt in Neuengland und Hauptstadt des Bundesstaates Massachusetts an der Ostküste der Vereinigten Staaten
-- Bene* talk 17:01, 24 June 2013 (UTC)[reply]
- Also da gibts noch einige offene Sachen. Erstmal wie gesagt bitte Personen außen vor lassen. Wenn "ist der" oder "ist das" ausgelassen wird, entsteht zum Teil eine grammatisch inkorrekte Form, korrekte grammatische Formen sind denk ich mal nur mit "ist ein", "ist eine" oder "ist die" möglich. Bsp: "dichteste, fünftgrößte und der Sonne drittnächste Planet des Sonnensystems" müsste eigentlich so heißen "dichtester, fünftgrößter und der Sonne drittnächster Planet des Sonnensystems". Zudem muss ein Datum erkannt werden, wie in Wikipedia (Q52) zu sehen. Der Bot sollte das erste Vorkommen von "ist+(die|ein|eine)" auslesen, zB hier falsch gegangen: Barack Obama (Q76), carrot (Q81), Boston (Q100). Noch sicherer wäre es nur BEschreibungen zuzulassen die direkt nach dem Lemma mit "ist+(die|ein|eine)" beginnen. (dann würde sowas wie Android (Q94) nicht passieren. (Wie) würden Beschreibungen gekürzt?--CENNOXX (talk) 19:23, 24 June 2013 (UTC)[reply]
- Da kann ich mir den Hinweis auf die Grammatik ja sparen :) Übrigens sollten auch alle Pflanzen eine Beschreibung haben, vielleicht nicht immer eine sehr schöne, da ich bestehende Beschreibungen nicht angetastet hatte. Gruß --Succu (talk) 19:57, 24 June 2013 (UTC)[reply]
- Ich habe jetzt nochmal an dem Programm gearbeitet und eine neue Version oben eingetragen. -- Bene* talk 07:54, 7 July 2013 (UTC)[reply]
- Nur um es mal erwähnt zu haben: Die neue Lösung widerspricht Help:Description/de#Ohne anführenden Artikel. Auch wenn ich das in dem Fall nicht so wichtig find. Der Bot erkennt immernoch kein Datum (siehe Barack Obama (Q76)), ein weiteres Problem wären Aufzählungen wie "der 44. Präsident". Wieso werden hier überhaupt noch Personen geführt? Die sollten lieber über die Personendaten geklärt werden. Ein "und" in der Erklärung kann zu seltsam klingenden (wenn auch noch verkraftbaren) Formen führen. Etwa wenn nach dem "und" der eigentlich gestrichene Artikel wieder verwendet wird: "Stadt und eine Metropolregion …" (Wie) würden Beschreibungen gekürzt? Kannst du uns bitte noch erklären, wie du auswählst ob du ein Element beschreibst oder nicht? Wieso werden jetzt etwa Android (Q94) oder carrot (Q81) nicht mehr erklärt?--CENNOXX (talk) 11:23, 7 July 2013 (UTC)[reply]
- Das mit den Artikeln in der Beschreibung ist in der Tat ein Problem. Es tritt nur bei "der" auf, da man dort die grammatikalische Form des folgenden Nomens und seiner Attribute etc. ändern müsste. Dazu ist mein Bot allerdings nicht fähig und ich habe auch nicht vor, soetwas zu programmieren. Eine Möglichkeit wäre, diese Artikel außen vorzulassen. Man könnte allerdings auch eine Änderung der Hilfeseite beantragen, da es einen enormen Vorteil bieten würde, wenn alle Items eine deutsche Beschreibung hätten. Das mit dem kürzen steht noch zur Debatte. Am einfachsten wäre es, eine Maximalanzahl von Wörtern oder Zeichen festzulegen, und wenn die überschritten wird, wird der Artikel ignoriert. Die Personedaten wurden doch schonmal alle importiert, dachte ich? Deshalb dürften die eh kein Problem sein, da mein Bot ja keine Beschreibungen überschreiben wird. Wenn ein Artikel ausgelassen wurde, konnte mein Bot keine richtige Beschreibung extrahieren. -- Bene* talk 19:44, 7 July 2013 (UTC)[reply]
- Hi Bene*, dass sieht schon viel besser aus und ich bin beindruckt dass du dich überhaupt an eine solch diffiziele Aufgabe wagst (Studium?). Vermutlich kann man deinen Algorithmus besser beurteilen, wenn du deine 100 Beispielartikel pseudeozufällig auswählts? Gruß --Succu (talk) 20:12, 7 July 2013 (UTC)[reply]
- Nur eine allgemeine Anmerkung zu Help:Description/de: Die Einhaltung dieser Regeln ist zwar erwünschenswert, allerdings dürfte eine verständliche, aber nicht zu 100 % den Kriterien entsprechende Beschreibung noch weitaus besser sein, als gar keine, da diese Beschreibungen ja im Prinzip nur zum besseren Unterscheiden von bspw. zwei gleichnamigen Datenobjekten dienen, davon abgesehen allerdings keine weitere besondere Relevanz haben. Vogone talk 20:38, 7 July 2013 (UTC)[reply]
- +1 dem stimme ich vollkommen zu.--CENNOXX (talk) 12:27, 8 July 2013 (UTC)[reply]
- Die Personendatenbots sind in ihrer Arbeit mittlerweile steckengeblieben.[1][2] Da nahezu alle Personenartikel auch Personendaten haben, würde ich wie gessagt die Personen-Artikeln außen vor lassen.--CENNOXX (talk) 12:27, 8 July 2013 (UTC)[reply]
- Nur eine allgemeine Anmerkung zu Help:Description/de: Die Einhaltung dieser Regeln ist zwar erwünschenswert, allerdings dürfte eine verständliche, aber nicht zu 100 % den Kriterien entsprechende Beschreibung noch weitaus besser sein, als gar keine, da diese Beschreibungen ja im Prinzip nur zum besseren Unterscheiden von bspw. zwei gleichnamigen Datenobjekten dienen, davon abgesehen allerdings keine weitere besondere Relevanz haben. Vogone talk 20:38, 7 July 2013 (UTC)[reply]
- Hi Bene*, dass sieht schon viel besser aus und ich bin beindruckt dass du dich überhaupt an eine solch diffiziele Aufgabe wagst (Studium?). Vermutlich kann man deinen Algorithmus besser beurteilen, wenn du deine 100 Beispielartikel pseudeozufällig auswählts? Gruß --Succu (talk) 20:12, 7 July 2013 (UTC)[reply]
- Das mit den Artikeln in der Beschreibung ist in der Tat ein Problem. Es tritt nur bei "der" auf, da man dort die grammatikalische Form des folgenden Nomens und seiner Attribute etc. ändern müsste. Dazu ist mein Bot allerdings nicht fähig und ich habe auch nicht vor, soetwas zu programmieren. Eine Möglichkeit wäre, diese Artikel außen vorzulassen. Man könnte allerdings auch eine Änderung der Hilfeseite beantragen, da es einen enormen Vorteil bieten würde, wenn alle Items eine deutsche Beschreibung hätten. Das mit dem kürzen steht noch zur Debatte. Am einfachsten wäre es, eine Maximalanzahl von Wörtern oder Zeichen festzulegen, und wenn die überschritten wird, wird der Artikel ignoriert. Die Personedaten wurden doch schonmal alle importiert, dachte ich? Deshalb dürften die eh kein Problem sein, da mein Bot ja keine Beschreibungen überschreiben wird. Wenn ein Artikel ausgelassen wurde, konnte mein Bot keine richtige Beschreibung extrahieren. -- Bene* talk 19:44, 7 July 2013 (UTC)[reply]
- Nur um es mal erwähnt zu haben: Die neue Lösung widerspricht Help:Description/de#Ohne anführenden Artikel. Auch wenn ich das in dem Fall nicht so wichtig find. Der Bot erkennt immernoch kein Datum (siehe Barack Obama (Q76)), ein weiteres Problem wären Aufzählungen wie "der 44. Präsident". Wieso werden hier überhaupt noch Personen geführt? Die sollten lieber über die Personendaten geklärt werden. Ein "und" in der Erklärung kann zu seltsam klingenden (wenn auch noch verkraftbaren) Formen führen. Etwa wenn nach dem "und" der eigentlich gestrichene Artikel wieder verwendet wird: "Stadt und eine Metropolregion …" (Wie) würden Beschreibungen gekürzt? Kannst du uns bitte noch erklären, wie du auswählst ob du ein Element beschreibst oder nicht? Wieso werden jetzt etwa Android (Q94) oder carrot (Q81) nicht mehr erklärt?--CENNOXX (talk) 11:23, 7 July 2013 (UTC)[reply]
- Ich habe jetzt nochmal an dem Programm gearbeitet und eine neue Version oben eingetragen. -- Bene* talk 07:54, 7 July 2013 (UTC)[reply]
- Da kann ich mir den Hinweis auf die Grammatik ja sparen :) Übrigens sollten auch alle Pflanzen eine Beschreibung haben, vielleicht nicht immer eine sehr schöne, da ich bestehende Beschreibungen nicht angetastet hatte. Gruß --Succu (talk) 19:57, 24 June 2013 (UTC)[reply]
┌────────────────────────────────────────────────────────────────────────────────────────────────────┘ What's the current status of this request? Hazard SJ 03:33, 13 September 2013 (UTC)[reply]
- I will work on this now again and tell you when I got some getter results. -- Bene* talk 13:33, 21 October 2013 (UTC)[reply]
- FYI: I have created a user script (User:YMS/labelcollect.js) that, as its main function, basically does the same thing (extract "is a" definitions from the article introductions) and suggests them to the human user as a proposal for the description, who then can correct grammatical issues. It works well in some cases, and in some it does not, partly because my parsing still is quite fragile, partly because it just doesn't work with that article (or that language, I try to support as many of them as I can). Anyway, I think this is the better approach compared to a bot, but you may convince me otherwise. And even if I'm right, quite a lot of people would have to use my script in order to replace the steady work of a bot, and maybe bot and user script can benefit from each others experience. --YMS (talk) 14:52, 24 October 2013 (UTC)[reply]
- Bene*, is this ready to be approved? Legoktm (talk) 18:47, 21 November 2013 (UTC)[reply]
- This does not work really well at the moment so it still needs some improvements. I will work on this task asap but I don't have really much time atm. Best regards, -- Bene* talk 17:03, 6 December 2013 (UTC)[reply]
- Bene*, have you been working on this? Hazard SJ 22:18, 17 February 2014 (UTC)[reply]
- This does not work really well at the moment so it still needs some improvements. I will work on this task asap but I don't have really much time atm. Best regards, -- Bene* talk 17:03, 6 December 2013 (UTC)[reply]