Wikidata:Wikidata Concepts Monitor/nl

This page is a translated version of the page Wikidata:Wikidata Concepts Monitor and the translation is 100% complete.

[NB] De gebruikersfeedback voor dit systeem wordt hier verzameld. Bezoek het WDCM Journal voor de laatste resultaten over het gebruik van Wikidata in de Wikimedia-projecten.

De Wikidata Concepten Monitor (WDCM) (ook bekend als Q42376073) is een analytisch hulpmiddel waarmee u kunt bladeren en een begrip kunt krijgen van de manier waarop Wikidata wordt gebruikt in de Wikimedia-projecten.

Deze pagina geeft een niet-technisch overzicht van de WDCM. De technische details zijn te vinden op de overeenkomstige Wikitech pagina.

Deze pagina is geen projectpresentatie, het is in ieder geval niet zo bedoeld. Een geïnteresseerde lezer vindt hier wel alle essentiële feiten over het project die hier worden vermeld. De bedoeling is echter om u te laten zien hoe u het statistische systeem Wikidata Concepten Monitor kunt gebruiken om u te helpen het prachtige, immens complexe universum van Wikidata-gebruik te ontdekken in ongeveer 800 klantprojecten in het Wikimedia-ecosysteem. De WDCM is ontworpen om een pad naar ontdekking te worden: door de hier genoemde voorbeelden te volgen, kunt u niet alleen leren werken met een systeem dat u begrip van Wikidata zou kunnen verbeteren, maar u zou ook betrokken kunnen raken bij avontuurlijke pogingen om er meer van te leren en te ontdekken. De pagina bevat verschillende voorbeelden van WDCM-gebruik en biedt twee meer uitgewerkte use-cases. We raden u aan het pad te volgen zoals beschreven in de voorbeelden en de use-cases aan het begin van de pagina voordat u uw eigen onderzoek start met het WDCM.

Voor wie geïnteresseerd is in technische details. Degenen die geïnteresseerd zijn in de technische details moeten een bezoek brengen aan de WDCM Wikitech pagina: het moet voldoende informatie geven met betrekking tot hoe WDCM werkt. Om het in een notendop te zeggen, de huidige versie van het WDCM-systeem is ontwikkeld in R en Python, en wordt ondersteund door Apache Hive, Apache Spark en Apache Sqoop om Big Data-verwerking van de wbc_entity_usage tables mogelijk te maken die voorziet in Wikidata-gebruik client-side tracking over zusterprojecten. MariaDB voert de back-endondersteuning van de WDCM-dashboards uit, terwijl de dashboards zelf zijn gebouwd in het RStudio Shiny-framework en worden gehost door een open source-versie van de RStudio Shiny Server. De WDCM Engine-scripts voeren veel gegevensvoorbewerkingsprocedures uit voordat de machine learning-fase het overneemt om de resultaten aan de front-end te leveren, waarbij gebruik wordt gemaakt van onder andere de algoritmes Latent Dirichlet Allocation en t-SNE De front-end datavisualisaties worden voornamelijk ontwikkeld in {ggplot2}, {visNetwork} en {rBokeh}.

WDCM houdt van R (Q206904), de lingua franca van data science (Q2374463) en de belangrijkste taal van WDCM.

Gebruik: het buitenleven van Wikidata

Op 14 november 2017, de volgende SPARQL (Q54871) query

SELECT (count(*) AS ?count) WHERE { ?item wdt:P31/wdt:P279* wd:Q13442814. }

uitvoering door onze Wikidata Query Service resulteerde in een telling van 9.301.454 items onder scholarly article (Q13442814). Echter, de Wikidata Concepts Monitor (Q42376073), wat statistische software is die ontwikkeld is in R, meldt op zijn Usage Dashboard dat de semantische categorie - of een concept - van een wetenschappelijk artikel wordt gebruikt op slechts 1.762 verschillende pagina's in alle edities van Wikipedia.

Het concept van een scholarly article (Q13442814) gaat een eigen leven leiden: het is een part of (P361) peer reviewed proceedings (Q16735857), scientific journal (Q5633421) en scientific publication (Q591041); de has cause (P828) van academic writing (Q4119870); is de equivalent class (P1709) tot ScholarlyArticle van schema.org; het is different from (P1889) en academic journal article (Q18918145). De beschrijving van wat het betekent om een wetenschappelijk artikel in Wikidata te zijn, vormt het innerlijke leven als een Wikidata-item. Aan de andere kant zegt het feit dat het op slechts 1.762 verschillende pagina's op de Wikipedia wordt gebruikt ons iets over het uiterlijke leven: gewoon, wat er met een wetenschappelijk artikel gebeurt als het uitgaat en een rol gaat spelen in Wikipedia en de pagina's van zijn zusterprojecten.
WDCM Voorbeeld 1. Om dit resultaat van de WDCM te reproduceren, (1) gaat u naar het WDCM Usage Dashboard, (2) selecteert u tabbladen/kruistabellen terwijl u op het tabblad Dashboard _Wikipedia selecteert in het veld Projecten zoeken, (3) selecteert u Wetenschappelijk artikel in het veld Zoekcategorieën, (4) klikt u op Selectie toepassen en (5) downloadt u het csv-bestand (dat u rechtstreeks in Libre Office Calc, Microsoft Excel en soortgelijke toepassingen kunt openen) door te klikken op de knop Gegevens (csv) onder de grafiek Categorieën aan de linkerkant.

 
WDCM Usage Dashboard: welke Wikipedia-projecten maken het meeste gebruik van Wetenschappelijke artikelen (Q13442814)?

Kat-en-muisspel

Er is een individu, Brunhilda en een categorie house cat (Q146), waarvan Brunilda een P31 is (of een instance of, wat u het liefst wil). In Wikidata zijn beide items. In de cognitieve wetenschappelijke en cognitieve psychologie, zou men meestal zeggen dat er een concept van een kat is - een mentale representatie van een klasse dieren met bont - waarvan Brunhilda een voorbeeld is (zelfs een concept is). Concepten worden beschouwd als uiterst ingewikkelde mentale entiteiten die de bouwstenen vormen van het menselijk denken. Ze worden gezegd opgeslagen in onze individuele semantisch geheugen. Wat we echter precies opslaan over concepten - wat de basis vormt van de psychologische semantiek - en hoe concepten worden gebruikt, wordt kritisch bepaald door het concepten relateren tot de empirische wereld die ons omringt (een vraag die gedeeltelijk wordt beantwoord door semantiek) en hoe we ze gebruiken om met anderen uit te wisselen wat we weten over de wereld en wat we daarmee willen doen (pragmatisch).

Wikidata is een poging om een abstracte formele wereld van entiteiten en relaties te bouwen die krachtig genoeg is om veel mogelijke waarheden over het Universe (Q1)} te uiten op een vrij flexibele manier. Het wordt elke dag uitgebreid met nieuwe kennisstukken, die op zichzelf evolueren. Het gebruik van Wikidata in encyclopedische artikelen op Wikipedia (of andere pagina's van haar zusterprojecten) is een heel ander verhaal. Tom Cat (Q1839152) en Jerry (Q1962394) zijn een kat en een muis, zeker gerelateerd aan hun toehorende zeer abstracte categorie van animal (Q729), de multicellulaire eukaryote organismen. Tegelijkertijd is Tom een fictional cat (Q27303676) terwijl Jerry een fictional mouse or rat (Q24668268) is. Stel u voor dat we konden ontdekken of de schrijvers van Wikipedia Tom en Jerry vaker samen gebruiken (a) in de discussies over animatiefilms, kinderen of entertainmentindustrie, of (b) in de context van meercellulaire eukaryotische organismen en theoretische biologie in het algemeen?

Nou, dat is precies waar WDCM voor bedoeld is. Hoewel we een potentieel groot aantal Wikipedia-artikelen (of in ieder geval in theorie) konden lezen in een zoektocht naar Tom en Jerry, het doen van kwalitatieve inhoudsanalyse, en te beslissen wat de meest typische context van gebruik is voor deze twee fictieve zoogdieren, WDCM draait zijn statistische machine over het maken van kennis over big data (Q858810) veel contexten van gebruik voor veel semantieke concepten om ons te helpen vragen als deze en vergelijkbare te beantwoorden. In zijn werking is "WDCM volledig afhankelijk van de aard van de gegevens die we hem verstrekken": het telt hoe vaak en waar we bepaalde Wikidata-item gebruiken om zijn statistische motor te voeden, wat betekent dat het uiteindelijk een weerspiegeling geeft van de interesses, strategie, spontane associaties en het gemotiveerde gebruik van concepten namens de grote gemeenschap van redacteuren op Wikimedia-projecten.

De gebruikerscontext bekijken

Laten we WDCM gebruiken om meer te ontdekken over hoe mensen human (Q5) gebruiken in de Wikimedia-projecten.

WDCM Voorbeeld 2. U kunt nu bijvoorbeeld WDCM Semantics Dashboard bezoeken en vervolgens (1) de categorie Mens selecteren in het veld Select Semantic Category op het tabblad Semantic Models, (2) Semantic Topic selecteren: Onderwerp 1, en ontdekken dat er één potentieel interessante context is voor het gebruik van de Wikidata-items in de categorie Q5 (mens) die voornamelijk "belangrijke historische figuren en politici" omvat. Als u nu alleen Onderwerp 1 wijzigt in Onderwerp 2 in het veld Selecteer semantisch onderwerp, zult u een andere interessante gebruikscontext ontdekken die losjes kan worden omschreven als "beroemdheden", waar u onder andere veel populaire zangers en acteurs zult vinden. Kijk eens naar Onderwerp 3: welke context van Q5-gebruik vertegenwoordigt het?

 
WDCM Semantisch Dashboard, categorie: Mens, Onderwerp: 3.
Wat hebben we geleerd? Het WDCM heeft uitgezocht wat de verschillende contexten zijn van het gebruik van Q5-items door te onderzoeken hoe het gebruik ervan zich verspreidt over veel Wikimedia-pagina's en projecten. We weten al dat er wel enkele projecten en gemeenschappen zijn die geïnteresseerd waren in het schrijven over historische gebeurtenissen en politiek, op één en een andere die hun aandacht meer richtten op plezier, entertainment en kunst, aan de andere kant: Onderwerp 1" en 2 van het gebruik van Q5. Kijk eens naar Onderwerp 3: u vindt er veel geleerden en schrijvers, en de meeste van hen zijn Frans (tenminste in de belangrijkste onderwerpen in dit semantische onderwerp). Scroll nu naar beneden van het dashboard om te ontdekken wat in Wikimedia-projecten de meest prominente zijn in deze context van het gebruik van Q5 items (en dat zou Frans en Breton Wikisource zijn), en denk: is dit logisch?
 
WDCM Semantisch Dashboard. De belangrijkste projecten in categorie: Mens, Onderwerp: 3.

Er kunnen hier al belangrijke lessen gelezen worden over het gebruik van Wikidata. Hoewel de bekendheid van de Franse Wikisource logisch is met betrekking tot het gebruik van Q5-items in deze context, evenals de prominentie van de Breton (Q12107) (een ernstig bedreigde taal die wordt gesproken in Britanny, Frankrijk) Wikisource, de bekendheid van de Tsjechische (op de derde plaats), Estse of Russische Wikisource-projecten is niet noodzakelijkerwijs logisch. Deze bevinding vertelt ons het volgende: er moet een gemeenschap van redacteuren zijn die een bijzondere interesse in de Franse cultuur hebben getoond voor de respectieve projecten. Als u naar het tabblad Projectsemantiek op dit WDCM-dashboard gaat, alleen rowikisource invoert in het veld Projecten selecteren en de selectie doet, wordt een grafiek geproduceerd waaruit u kunt leren dat de dominantie van deze context van Q5-gebruik op rowikisource ongeveer 7,85% is, vergeleken met Onderwerp 1 dat bijna 87% bereikt. Eerste les: in veel gevallen is een bepaalde semantische context van Wikidata-gebruik echt sterk in slechts enkele projecten. Tweede les: Het gebruik van Wikidata wordt niet alleen bepaald door wat men zou verwachten dat in zekere zin logisch is - of dat nu logica is van een puur formeel-semantische of van culturele aard - maar ook door wat er gebeurt in de bijdragende gemeenschappen. Een consistente redacteur die geïnteresseerd is in een bepaald onderwerp, om nog maar te zwijgen van een groep van hen, kan de semantische context van een project aanzienlijk veranderen.

WDCM Voorbeeld 3. Ga naar het WDCM Semantics Dashboard, en (1) Selecteer categorie: Geografisch object op het tabblad Semantische modellen, Selecteer semantisch onderwerp: Onderwerp 6. De eerste grafiek die door het dashboard wordt geproduceerd, zal u vertellen dat items die zich in China bevinden een belangrijke rol spelen in deze context van Wikidata-gebruik van de semantische categorie van geografische objecten. Scroll nu (2) naar de onderkant van de dashboardpagina en bekijk de Wikimedia-projecten waarin deze gebruikscontext belangrijk is: zhwiki, zhwikisource, iiwiki... Verbaasd? Soms krijgen de resultaten die WDCM terugbrengt een eenvoudige, directe interpretatie, zoals deze. Een context van Wikidata-gebruik die wordt gekenmerkt door geografische entiteiten in China wordt gevonden, en voornamelijk projecten in talen die kenmerkend zijn voor de Chinese cultuur maken in die context gebruik van Wikidata-items.

De pragmatiek van Wikidata

Om het eenvoudig te stellen: terwijl het innerlijk leven van Wikidata alles over de structuur is

  1. gegevensmodel, of de ontology (Q324254), en
  1. de introductie van nieuwe items, eigenschappen, verklaringen, kwalificaties, referenties, labels... naast het debat over de relatie tussen de laatste (moeten) en de eerste en welke mogelijke instantiatie van de toelaatbare Wikidata-structuur de empirische wereld op de meest wenselijke manier weerspiegelt,

het uiterlijke leven van Wikidata gaat helemaal over de manier waarop onze gemeenschappen al deze gezamenlijk ontwikkelde, gestructureerde kennis gebruiken in ongeveer 800 projecten die nu het gebruik ervan op hun pagina's bijhouden.

Wikidata is een symbool systeem en zo moet de definitie van het systeem zowel de semantiek als de syntaxis omvatten. Er is echter een derde component van elk natuurlijk symbolisch systeem: de pragmatische. In een analogie met de studie van natuurlijke taal, waar pragmatische wordt gedefinieerd als "... een subveld van linguistiek en semiotiek dat de manieren bestudeert waarop context bijdraagt aan betekenis...", WDCM is bedoeld om onze methode te worden om te bestuderen hoe de redacteuren de inhoud en de formele structuur van Wikidata naar de pagina-inhoud van Wikimedia-projecten. Als gevolg van het hebben van een dergelijke methode, kunnen we beginnen te leren hoe Wikidata wordt gebruikt, d.w.z. hoe de betekenis van de kennis die het opslaat wordt veranderd door het contextuele gebruik op de pagina's en projecten - het gebruik dat wordt gevormd door de gedachten van Wikimedia-medewerkers.

Belangrijke zaken over dit systeem

Als u denkt dat u gebruik zou kunnen maken van de WDCM en het leuk vindt het gebruik van Wikidata in het Wikimedia-universum te leren, moet u u waarschijnlijk voorbereiden op een vrij complexe wereld van bevindingen en rapporten. We hopen dat het WDCM-systeem een pad naar ontdekking wordt. Het pad is echter niet eenvoudig. WDCM is de eerste stap naar het opbouwen van een goed begrip van de zeer gecompliceerde structuur van Wikidata-gebruik. Dit systeem kan u helpen ontdekken welke Wikidata-clientprojecten vergelijkbaar zijn en in welk opzicht, welke semantische categorieën van items meer of minder vaak worden gebruikt in de projecten, hoe items aansluiten met betrekking tot hoe ze op dezelfde manier worden gebruikt door onze gemeenschappen, wat de meest populaire items per project zijn en nog veel meer (hopelijk) interessante dingen. Als het op de juiste manier en met begrip wordt gebruikt, kan het uw navigatiehulpmiddel zijn in het immens interessante en complexe veld van Wikidata-gebruikersgedrag.

Over het algemeen moet u altijd rekening houden met het bladeren van de WDCM dashboards, dat:

WDCM bestudeert niet alle Wikidata

  • De huidige versie van het WDCM omvat niet alle Wikidata-items. Dit is niet zozeer te wijten aan de technische beperkingen, maar aan de methodologische beperkingen, waarvan sommige hierna zullen worden besproken. Verder lezen: op deze pagina bespreken we de WDCM-taxonomie, een principe om de items te selecteren die worden gevolgd voor hun gebruik in onze projecten en die ondergaan WDCM-analyses.

WDCM is agnostisch met betrekking tot de structuur van Wikidata

Wat de aard van de semantische contexten die door de WDM zijn ontdekt, beïnvloedt

Welnu, dit is nogal belangrijk als u van plan bent te begrijpen wat WDCM voor u kan doen.

  • Het kernalgoritme. Om de semantische onderwerpen (d.w.z. contexten van Wikidata-gebruik) in ongeveer 800 Wikimedia-projecten en een selectie van semantische categorieën items uit Wikidata te ontdekken, gebruikt de WDCM een standaardalgoritme dat wordt gebruikt in text-mining en Natural Language Processing bekend als de Latente Dirichlet Allocatie (LDA). Hoewel het begrijpen van de wiskundige en computationele details van de manier waarop LDA werkt niet essentieel is voor een WDCM-gebruiker, kan het nuttig zijn om de minder technische Wikipedia-pagina op Topic Models te lezen, een algemene klasse van wiskundige modellen die worden gebruikt bij tekstcategorisatie. Voor degenen die het lezen: het is alleen dat we niet de klassieke term-frequency matrix gebruiken, maar een project-item gebruiksfrequentiematrix. De aard van dit algoritme is natuurlijk van grote invloed op welke semantische contexten van Wikidata-gebruik zullen worden ontdekt.
  • De aard van het universum. Natuurlijk is het ontdekken dat projecten geschreven in de talen van China hoog worden gerangschikt in een semantische context die wordt gekenmerkt door items die kenmerkend zijn voor de Chinese cultuur, precies wat men zou verwachten dat er zou gebeuren. WDCM heeft de neiging om op vergelijkbare wijze gebruikte dingen samen te groeperen. Van tijd tot tijd zullen de resultaten vrij nauwkeurig overeenkomen met uw dagelijkse verwachtingen. WDCM zal echter nog belangrijker voor u zijn door te laten zien welke informatie u mist om de wereld van Wikidata volledig te begrijpen (als dat al mogelijk is).
  • Idiosyncratische verschijnselen. Laten we het volgende voorbeeld een tijdje bestuderen. Het introduceert een nogal ongebruikelijke situatie waaruit we kunnen leren hoe de aard van het WDCM-systeem op zichzelf extra beperkingen introduceert bij de interpretatie van de resultaten ervan. Opmerking: dit is een zeer ingewikkeld voorbeeld, maar wees voorbereid om veel vergelijkbare dingen tegen te komen tijdens uw reis naar Wikidata-gebruik met de WDCM, dus het wordt ten zeerste aanbevolen om het te bestuderen.

WDCM Voorbeeld 4. Ga naar het WDCM Semantische dashboard en (1) Selecteer categorie: Gebeurtenis op het tabblad Semantische modellen, Selecteer semantisch onderwerp: Onderwerp 4. De eerste grafiek die door het dashboard wordt geproduceerd, vertelt u dat het item 2014 Indian general election in Tamil Nadu (Q15894105) de meest prominente rol speelt in deze context, gevolgd door een lijst met items die meestal gaan over Giro d'Italia (Q33861) (?!!) waarvan het belang in dit semantische onderwerp (kijk naar de x-as!) veel, veel minder is dan dat van het eerste gerangschikte item. Wat hebben de verkiezingen in India in hemelsnaam te maken met de Giro d'Italia - een wielerwedstrijd in Italië? Scroll naar de onderkant van de dashboardpagina om meer te weten te komen over de Wikimedia-projecten waarin deze gebruikscontext belangrijk is, en u zal zien dat alleen tawiki en arwiki (nogmaals, kijk eens naar de x-as van de plot) aanzienlijk geïnteresseerd zijn in dit onderwerp, gevolgd door een lijst met projecten die er nauwelijks gebruik van maken (itwiki en trwiki behoren tot de hoogste). Het eerste dat we leren is dat deze context iets vrij specifieks presenteert. We hebben Wikidata geïnspecteerd en kwamen erachter dat we kunnen verklaren waarom itwiki en trwiki hoog scoren in deze semantische context: ze maken consequent gebruik van veel van de Giro d'Italia-items van Wikidata. Het blijft echter onduidelijk wat 2014 Indian general election in Tamil Nadu (Q15894105), Gulf War (Q37643) en veel Giro d'Italia-items samenbrengt. Vanuit het WDCM Usage Dashboard hebben we de sectie Projectrapport op het tabblad Gebruik gebruikt om erachter te komen dat de topprojecten in deze semantische context inderdaad te vinden zijn onder de Wikimedia-projecten die het meest gebruik maken van Wikidata (tawiki staat op de 16e plaats, arwiki met de 301. plaats - niet slecht, bijna in het bovenste derde deel van de projecten met betrekking tot Wikidata-gebruik, itwiki op de 13e positie, en trwiki op de 39. plaats, alles met betrekking tot het totale gebruik van Wikidata per project). De bevinding is dus geen gevolg van het louter hebben van schaarse gegevens. Ten slotte konden we de aard van deze semantische context alleen begrijpen door naar de WDCM onder de motorkap te kijken om erachter te komen op hoeveel verschillende pagina's op tawiki het item van 2014 Indian general election in Tamil Nadu (Q15894105) werd gebruikt, en het aantal is: 9950, een vrij hoge gebruiksstatistiek. Om een of andere reden was de gemeenschap rond tawiki op een bepaald moment erg gefocust op dit evenement. De WDCM heeft dit feit ontdekt door middel van statistisch leren en deze context van Wikidata-gebruik gescheiden in een semantisch onderwerp op zich, om te markeren dat er iets heel specifieks maar zeer representatief voor het tawiki-project is gebeurd: in feite is het item dat wordt besproken het 5-de gerangschikte Wikidata-item met betrekking tot het gebruik ervan op dit project. Nogmaals, vraag: wat hebben de Golfoorlog en Giro d'Italia met dit alles? Het antwoord is: waarschijnlijk niets. Volgens het theoretische model dat wordt gebruikt in WDCM, het model waarop het LDA-algoritme is gebaseerd, spelen alle items uit een bepaalde semantische categorie een enige rol in elk van de ontdekte semantische onderwerpen (d.w.z. gebruikscontexten). Met andere woorden, het maakt niet uit hoe specifiek een bepaalde semantische context is, en degene die wordt besproken is vrij specifiek, alle items moeten erin passen en worden weergegeven door een belangrijke score erin (eigenlijk is het de waarschijnlijkheid dat ze in deze context worden gebruikt). De verschillende Giro d'Italia-items en de Golfoorlog bleken simpelweg de top van de stoet van een groot aantal zeer, zeer kleine item-belangrijkheidsscores na het belang van 2014 Indian general election in Tamil Nadu (Q15894105) in deze zeer specifieke context. Inderdaad, de conclusies zijn de volgende: (a) er is een zeer specifieke context die het dominante gebruik van één enkel item uit de categorie Event op tawiki beschrijft, en (b) de rest van de informatie in deze context kan worden behandeld als een statistisch artefact met niet al te veel belang bij de interpretatie van de bevinding.

Gecompliceerd? Welnu, het gebruik van Wikidata op zich is een gedragsverschijnsel van immense complexiteit. De WDCM kan u helpen die complexiteit een beetje te verminderen en er doorheen te navigeren, maar het zal het onderzoeks- en denkgedeelte niet namens u doen. Verwacht niet dat dit systeem de patronen van Wikidata-gebruik op enigerlei wijze zal verklaren. Het is gebouwd als een methodologisch hulpmiddel, een meetinstrument, een portaal om toegang te krijgen tot de gegevens en ze op de statistisch meest handige manier te categoriseren voordat ze aan u worden gepresenteerd. De Hubble Space Telescope (Q2513) helpt ons om het universum te observeren, maar de resultaten die we verkrijgen uit zijn waarnemingen ondergaan zorgvuldige en pijnlijke verwerking en discussies namens de wetenschappelijke gemeenschap om theorieën en hypothesen over de fysieke wereld te bouwen. Vraag uzelf af: wat is ingewikkelder, het fysieke universum, geleid door de wetten van de fysica, of het semantische universum, geleid door de interactie van miljarden mensen online met alle verschillende culturele achtergronden, opleiding, cognitieve stijlen, informatie waartoe ze toegang hebben, standpunten, en interesses? De WDCM kan waarnemingen doen van deze immense complexiteit en enkele middelen bieden om u te helpen verminderen tot een (hopelijk) beheersbare proportie. U moet het echter nog steeds bekijken en alleen als instrument gebruiken terwijl u het onderzoeksgedeelte alleen doet. We hopen dat deze oproep uitdagend genoeg is.

Om samen te vatten: het systeem zal een bevinding produceren op basis van welke gegevens over het gebruik van Wikidata het heeft, en u moet het resultaat zorgvuldig inspecteren om te begrijpen of ze zinvol zijn, hoe specifiek ze zijn, of dat ze gewoon een "statistisch artefact" presenteren. De specifieke aspecten van specifieke projecten, zoals in de vorige WDCM-oefening zijn geïllustreerd, zijn hier niet te zien. Ga naar het WDCM Semantics Dashboard en selecteer "Semantische categorie": "'Mens en onderwerp: "'Onderwerp 8" voor hetzelfde "tawiki"-project. U zult een ander semantisch onderwerp ontdekken dat praktisch van belang is voor het begrip van tawiki alleen. "'De moraal van het verhaal"': Wikidata-gebruik gaat niet over wat u verwacht dat de redacteuren zullen doen vanuit het perspectief van uw eigen conceptuele organisatie van het universum, maar over wat verschillende individuen en gemeenschappen ""'met Wikidata' doen"" in de Wikimedia-projecten. De WDCM kan u veel interessante resultaten brengen over het laatste, en heel weinig over het eerste - maar tot op zekere mate van overeenstemming tussen de geest van een semanticus of een formele ontoloog en wat mensen daadwerkelijk doen met Wikidata.

  • De kenmerken die de manier waarop onze redacteurs en gemeenschappen gebruik maken van Wikidata vormgeven. Dit is duidelijk waar het spel om draait. Het is waarschijnlijk onmogelijk om alle factoren te vermelden die de patronen van Wikidata-gebruik beïnvloeden in ongeveer 800 projecten, waaronder enkele van de meest dynamische plaatsen online.
    • Historische invloeden zoals of een bepaalde gebeurtenis de cultuur of het onderwijssysteem van een bepaalde sociaal-linguistische gemeenschap heeft gevormd (die een of meer projecten overheersend beheert) om conceptueel hun kennis in een specifieke vorm te organiseren, die vervolgens wordt weerspiegeld in een specifiek patroon van Wikidata-gebruik.
    • De interesses en de motivaties van een bepaalde redacteur, natuurlijk: als er een redacteur is wiens interesses in golf en Italiaanse literatuur in de tijd consistent zijn, en gezien het feit dat de redacteur een zekere mate van volharding toont in hun gebruik van Wikidata, is er geen einde aan wat ze kunnen doen, inclusief dergelijke veranderingen in het patroon van Wikidata-gebruik die zullen weerspiegelen in de ontdekking van nieuwe semantische onderwerpen (d.w.z. contexten van Wikidata-gebruik).
    • Toegang tot kennis en lokale/culturele variaties in de organisatie van kennis: de gemeenschap A denkt dat alle echte verschijnselen x van een of andere klasse X moeten worden gerelateerd aan bepaalde Wikidata-items, terwijl de gemeenschap B even hardnekkig is in het maken van links naar een andere set Wikidata items terwijl ze schrijven over dezelfde verschijnselen. Als gevolg hiervan kunnen de Wikidata-gebruikspatronen van dergelijke gemeenschappen WDCM leiden tot het ontdekken van semantische contexten die niet op een eenvoudige manier kunnen worden geïnterpreteerd, maar moeten worden geïnterpreteerd als een mengsel van twee, potentieel tegenovergestelde, interpretaties van een bepaald domein van kennis.
    • Automatische inputs: opnieuw is er geen einde aan wat een goede bot kan doen; het patroon van Wikidata-gebruik zal de structuur van het onderliggende algoritme weerspiegelen, wat op zijn beurt de kennis en overtuigingen van zijn auteurs zal weerspiegelen, een bijzonder lastige situatie om te onderzoeken.
    • Toegang, gebruiksgemak en beschikbaarheid van bronnen: als een gemeenschap A, die een bepaalde taal of een reeks talen werkt, toegang heeft tot bronnen in een bepaalde andere taal L, zal het Wikidata waarschijnlijk gebruiken op een manier die dit feit weerspiegelt, ongeacht of haar kennis niet volledig overeenkomt met wat er aanwezig is in de bronnen die voor hen beschikbaar zijn. Deze lijst is vast niet volledig.
  • De definitie van de belangrijkste WDCM-statistieken. De huidige definitie van de statistiek over Wikidata itemgebruik is de telling van het aantal afzonderlijke pagina's in een bepaald Mediawiki-project waar het respectieve Wikidata item wordt gebruikt. Deze definitie is gemotiveerd door de huidige beperkingen in het Wikidata-gebruik bijhouden in de klantprojecten (zie entiteit gebruik). Met meer volwassen Wikidata gebruiksopsporingssystemen zal de definitie een onderwerp van verandering worden. De definitie van de belangrijkste metriek verandert echter, en de resultaten van de WDCM-statistische leerprocedures zullen ook noodzakelijkerwijs veranderen.

Het WDCM-systeem

Het WDCM-systeem omvat twee componenten, waarvan de tweede bedoeld is voor de interactie met de gebruikers: (1) De WDCM Engine, die een set R/HiveQL/SQL-scripts omvat die de gegevens verzamelen terwijl ze ETL en machine learning bieden totdat ze klaar zijn om de WDCM Dahsboards-databases te voeden, en (2) De WDCM Dashboards, een set van (hopelijk) gebruiksvriendelijke dashboards, waren gegevens en de resultaten van hun statistische modellen kunnen worden gevisualiseerd en gedownload. Deze pagina gaat over het tweede (2) onderdeel van het systeem. Als u geïnteresseerd bent in de WDCM Engine, lees dan deze pagina.

Het WDCM-systeem is ontwikkeld door Goran S. Milovanović, Data Scientist, Wikimedia Duitsland met de hulp van veel mensen om complexe ETL-procedures voor te bereiden en het systeem te produceren, zoals Dan Florin Andreescu, Software engineer, Wikimedia Foundation en Addshore Adam Shorland, Software Developer, Wikimedia Duitsland. Lydia Pintcher, Product Manager van Wikidata, Wikimedia Duitsland heeft toezicht gehouden op de ontwikkeling van het systeem en heeft bijgedragen aan de momenteel gebruikte WDCM Semantische Taxonomie waar het systeem op vertrouwt. De softwareontwikkeling van het WDCM-systeem wordt begeleid door Tobias Gritchacher, Engineering Manager, Wikimedia Duitsland terwijl Jan Dittrich, UX Design / Research, Wikimedia Duitsland de UI / UX-aspecten begeleidt. De opschriften van de eerdere ervaringen in het beheren van Shiny Dashboards namens Mikhail Popov en het team dat onze Discovery Dashboards heeft gebouwd, waren zeer nuttig bij de ontwikkeling van de [https//wikidata-analytics.wmcloud.org/ WDCM Dashboards]. Natuurlijk, de verhelderende discussies met Aaron Halfaker, Research Scientist, Wikimedia Foundation en zijn team.

Om het WDCM-systeem te kunnen gebruiken op een manier waarop het bedoeld en ontworpen is om te worden gebruikt, d.w.z. met een duidelijk begrip van waarvoor het is gebouwd en waarom het op die manier is gebouwd, moet u waarschijnlijk eerst kennis maken met enkele belangrijke definities van WDCM (en de beperkingen die deze dicteerden). Dat kunt u doen door het lezen van de dеfinities van de WDCM Wikitech Technische documentatie. Geen paniek, alstublieft: het is geschreven in een taal die een niet-technische persoon kan begrijpen.

Het is duidelijk dat de huidige versie van het WDCM-systeem zich richt op Wikidata-itemgebruik. De huidige versie van het systeem volgt niet of analyseert niet het gebruik van eigenschappen, kwalificaties, enz.

Alle ideeën en bijdragen zijn natuurlijk welkom. Als u iets heeft, bezoek dan de overlegpagina en doe uw bijdrage.

De WDCM Definities

De volgende termen worden vaak gebruikt op de WDCM Dashboards en hebben een specifieke betekenis in het kader van dit systeem:

De huidige definitie van Wikidata-itemgebruiksstatistiek is de telling van het aantal pagina's in een bepaald clientproject waar het respectieve Wikidata-element wordt gebruikt. De huidige definitie negeert dus de gebruiksaspecten (L, S, X, O, T) volledig. Deze definitie is gemotiveerd door de huidige beperkingen in het Wikidata-gebruik bijhouden in de klantprojecten (zie mw:Wikibase/Schema/wbc entiteit gebruik). Met een meer volwassen Wikidata-gebruiksopsporingssystemen zal de definitie een onderwerp van verandering worden.

  • De term Wikidata-gebruiksvolume is voorbehouden aan het totale gebruik van Wikidata (d.w.z. de som van gebruiksstatistieken) in een bepaald clientproject, groep clientprojecten of semantische categorieën.
  • Met een Wikidata semantische categorie bedoelen we een selectie van Wikidata-items, dat wil zeggen dat operationeel wordt gedefinieerd door een respectievelijke SPARQL-query die een selectie van items retourneert die intuïtief overeenkomen met een menselijke, natuurlijke semantische categorie. De structuur van Wikidata komt niet noodzakelijkerwijs overeen met een intuïtieve menselijke semantiek. In WDCM wordt getracht de semantische categorieën zo te selecteren dat ze zoveel mogelijk aansluiten bij de intuïtieve, alledaagse semantiek, om iedereen die betrokken is bij analytisch werk met dit systeem te helpen. De keuze van semantische categorieën in WDCM is echter niet noodzakelijkerwijs uitputtend (d.w.z. ze dekken niet noodzakelijkerwijs alle Wikidata-items), noch sluiten de categorieën elkaar noodzakelijkerwijs uit. De Wikidata-ontologie is zeer complex en een product van het werk van vele mensen, dus er moet een optimalisatieprijs worden betaald bij elke poging om de huidige structuur aan te passen of te vereenvoudigen aan de behoeften van een statistisch analytisch systeem zoals WDCM. De huidige set van WDCM-semantische categorieën is dus in geen enkel opzicht normatief en kan op elk moment een onderwerp van verandering worden, afhankelijk van de analytische behoeften van de gemeenschap. De momenteel gebruikte WDCM Taxonomie van Wikidata-items omvat de volgende 14 semantische categorieën: geographical feature (Q618123), organization (Q43229), architectural structure (Q811979), human (Q5), Wikimedia Intern met Wikimedia category (Q4167836), Wikimedia disambiguation page (Q4167410), Wikimedia template (Q11266439), work of art (Q838948), book (Q571),gene (Q7187), scholarly article (Q13442814), Chemische entiteiten die chemical element (Q11344), chemical compound (Q11173) en chemical substance (Q79529), astronomical object (Q6999), thoroughfare (Q83620), event (Q1656682) en taxon (Q16521)omvatten. Alle respectievelijke SPARQL-query's die worden gebruikt om de item-ID's van Wikidata in de respectievelijke categorieën op te halen, hebben dezelfde vorm: wdt:P31/wdt:P279*. Met andere woorden, ze zoeken naar alle instanties van een bepaalde klasse van items en doorzoeken de hele gegevensstructuur via subklasserelaties totdat het meest abstracte, doelniveau van categorisatie is bereikt.
 
WDCM Overview Dashboard: de 14 semantische categorieën van Wikidata-item die worden omvat door de huidige versie van de WDCM-taxonomie. Elke bubbel vertegenwoordigt een semantische categorie Wikidata. Deze categorieën vertegenwoordigen een mogelijke manier om de Wikidata-item te categoriseren. De grootte van de bubbel weerspiegelt het volume van Wikidata-gebruik uit de respectieve categorie. Als twee categorieën in de nabijheid zijn, betekent dit dat de projecten die de ene gebruiken, de andere gebruiken en vice versa.
  • Met projecttype bedoelen we: Wikipedia, Commons, Wikivoyage, Wiktionary, Wikiquote, enz.

WDCM Use-cases

Terwijl het Overview Dashboard - zoals de naam al doet vermoeden - alleen de meest robuuste patronen van het gebruik van Wikidata op het hoogste niveau presenteert, en bedoeld is als een soort "big picture" presentatie van het huidige Wikidata-gebruik, zijn de Used en de Semantics Dashboard gebouwd met de behoeften van een bepaalde gebruiker die geïnteresseerd is in een aantal specifieke semantische categorieën en projecten. Het WDCM Items Dashboard is een gepland onderdeel van het systeem dat de gebruiker in staat stelt om toegang te krijgen tot de statistieken en structurele eigenschappen van het gebruik van Wikidata voor bepaalde items. De volgende twee use-cases illustreren de manieren waarop WDCM kan worden gebruikt om meer te weten te komen over enkele specifieke kenmerken van het gebruik van Wikidata vanuit het oogpunt van een fictieve maar gemotiveerde gebruiker. Beide gebruiksscenario's zijn afhankelijk van de functies die mogelijk worden gemaakt door het Gebruik en het Semantisch Dashboard. Alle WDCM-dashboards hebben een tabblad Navigeren WDCM, van waaruit elk onderdeel van het systeem kan worden bereikt. Ze hebben ook allemaal een tabblad Beschrijving, waar een gedetailleerde uitleg van de functionaliteit van het dashboard te vinden is.

Use-case A: Grote encyclopediën vergelijken

In deze use-case willen we de Engelse, Franse, Duitse, en Russische Wikipedia vergelijken met betrekking tot hun Wikidata-gebruik. We delen de hele reis in verschillende stappen en analyses over de WDCM Dashboards.

WDCM Voorbeeld 5, Stap 1.Onze eerste bestemming is het WDCM Usage Dashboard. Op de landingspagina van het dashboard (het Tabblad Gebruik onder het Tabblad Dashboard) is de rechterkolom gewijd aan de studie van bepaalde projecten. Selecteer onder Projectrapport de optie enwiki in het veld Projecten zoeken:. Het dashboard begint met het genereren van de resultaten; Even geduld a.u.b. Nu kunnen we gemakkelijk naar beneden scrollen en één voor één de gerapporteerde resultaten inspecteren met betrekking tot het gebruik van Wikidata op de Engelstalige Wikipedia. De eerste gegenereerde rapporten geven ons een overzicht van het gebruik van Wikidata in het betreffende project. De staafdiagram aan de rechterkant vertegenwoordigt het volume van het Wikidata-gebruik in elk van de semantische categorieën die momenteel worden opgenomen in de WDCM-analyses. We kunnen zien dat de items uit de categorieën Geografisch object, Mens, Organisatie, Taxon, Kunstwerk en Wikimedia voornamelijk worden gebruikt in de Engelstalige Wikipedia. De samenvattende tekst aan de linkerkant van de staafdiagram zegt: "enwiki heeft een totaal Wikidata-gebruiksvolume van 6335820 items (4,4% van het totale Wikidata-gebruik op de klantprojecten). In termen van Wikidata-gebruik staat het op 5/789 van alle klantprojecten en op 4/301. in zijn projecttype (Wikipedia)." Laten we eens kijken wat het betekent om een Wikidata-gebruiksvolume van 6335820 items te hebben in de context van WDCM. De huidige definitie van de WDCM-gebruiksstatistieken is de volgende: de telling van het aantal pagina's in een bepaald klantproject waar het betreffende Wikidata-item wordt gebruikt. Dat betekent dat WDCM voor elk item van belang het aantal afzonderlijke pagina's in dit project heeft geteld die (een of meerdere malen) een bepaald item gebruiken, en deze aantallen heeft opgeteld om 6.335.820 te verkrijgen. Dit bedrag is goed voor ongeveer 4,4% van het totale bedrag dat men zou verkrijgen van alle Wikimedia-projecten in kwestie, en maakt de Engelstalige Wikipedia het vijfde meest prominente project in termen van Wikidata-gebruik van alle Wikimedia-projecten, evenals de vierde van de 301 Wikipedia-projecten - waar Wikipedia natuurlijk het projecttype is. De grafiek hieronder geeft een context voor deze rangschikking van het besproken project. Door dit te herhalen voor de Franse, Russische en Duitse encyclopedieën, ontdekken we dat de Franse Wikipedia goed is voor ongeveer 2,69% van het totale gebruik en op de zesde plaats staat van alle Wikimedia-projecten, de Duitse Wikipedia is goed voor 1,85% van het totale gebruiksvolume en staat op de twaalfde plaats, terwijl de Russische Wikipedia goed is voor 6,26% en op de derde plaats staat.
 
WDCM Gebruik Dashboard: Wikidata-gebruik patroon in 14 semantische categorieën voor Duitse Wikipedia (dewiki)

Deze eerste stap heeft de WDCM elementaire informatie en rangschikking van vier projecten verkregen. Een zorgvuldige analist zou extra belangrijke verschillen tussen deze vier projecten kunnen hebben opgemerkt door het eerste lijnplot te inspecteren waar semantische categorieën van Wikidata-items worden vergeleken voor hun gebruik. Bijvoorbeeld, de Russische Wikipedia heeft de neiging om meer items uit de categorie Architectural Structure te gebruiken dan de Engelse Wikipedia, en veel minder items uit de Wikimedia-categorie. Terwijl de Engelse Wikipedia meer items uit de categorie Mens dan geografische objecten of organisaties gebruikt (diezelfde als de Duitse tegenhanger, dewiki), laat de Franse versie precies het tegenovergestelde gebruikspatroon zien.

 
WDCM Gebruik Dashboard - De rangschikking van de Engelse Wikipedia met betrekking tot het gebruik van Wikidata.

Een geïnteresseerde analist heeft misschien al twee extra visualisaties ontdekt in de rechterkolom van de dashboardpagina: het Interactief nabij semantisch netwerk en de top 30 Wikidata items grafiek. Terwijl het eerste op een later tijdstip zal worden besproken, is de laatste vrij eenvoudig: het rapporteert de 30 meest gebruikte Wikidata-items voor het geselecteerde project. In de Engelstalige Wikipedia bestaat de top 5 uit: United States of America (Q30), house mouse (Q83310), brown rat (Q184224), Danio rerio (Q169444) en Drosophila melanogaster (Q130888) - een Wikidata-gebruikersgemeenschap dus met een enorme interesse in biologie - terwijl we in de Duitse Wikipedia vinden: United States of America (Q30), Germany (Q183), United Kingdom (Q145), France (Q142) en black-and-white (Q838368) (monochrome vorm in de beeldende kunst).

 
WDCM Gebruik Dashboard- De meest populaire Wikidata-items op de Franse Wikipedia

Het vergelijken van de projecten op deze manier met gebruik van het dashboard is echter vermoeiend. Laten we uitzoeken of het WDCM Dashboard Gebruik betere middelen kan bieden voor het vergelijken tussen projecten.

WDCM Voorbeeld 5, Stap 2. We zijn weer te vinden op het WDCM Dashboard Gebruik, maar deze keer bezoeken we het tabblad "Tabs/Crosstabs" en "lezen van de inleidende instructies" voor het gebruik ervan (aanwezig bovenaan dit tabblad). In het veld "Zoek Projecten": voeren we in ruwiki, enwiki, dewiki, en frwiki in, en selecteren alle categorieën in het veld Categorieën selecteren: klik op Selectie toepassen. Na wat berekening en opbouwen van een grafiek, zal het dashboard een nieuwe set van grafieken tonen. De eerste twee geven een totaal Wikidata-gebruik per project en per geselecteerde categorie. De derde, onmiddellijk volgend, is het minst interessant: namelijk, we hebben vier projecten uit hetzelfde projecttype (Wikipedia) geselecteerd, zodat we uiteindelijk alleen kunnen leren dat het totale Wikidata-gebruik in de huidige projectselectie ongeveer 21,9 miljoen verschillende items/pagina's is. De volgende grafiek, de grote Project x Category-kruistabel grafiek is echter zeer informatief: het biedt een overzicht van het Wikidata-gebruikvolume (y-as) voor elk project (x-as) in elke semantische categorie (elke subpanel vertegenwoordigt een categorie).
 
WDCM Dashboard Gebruik: Project x Semantische categorie Kruistabel
WDCM Voorbeeld 5, Stap 2 (vervolg).  We hadden _Wikimedia kunnen selecteren onder "Projecten selecteren": veld om de volledige Wikidata-gebruiksstatistieken voor alle projecten van het projecttype Wikipedia te vinden. Aangezien het aantal geselecteerde projecten hier hoog is, zal het WDCM dashboard Gebruik alleen de resultaten voor de top 30 projecten in beeld brengen met betrekking tot het totale gebruik van Wikidata per project. Echter, elke grafiek op het tabblad Tabs/Cross-tabs wordt vergezeld van een Data (csv) knop: klik op de knop om de volledige dataset te downloaden van de selectie, ongeacht wat wordt gevisualiseerd. Als u geïnteresseerd bent in het grote beeld van het gebruik van Wikidata in de Wikipedia-projecten die het meest gebruiken, dan gaat het hier:
 
WDCM Dashboard Gebruik: Wikidata-gebruik in 14 semantische categorieën voor de top 30 Wikipedia-projecten met betrekking tot hun totale volume Wikidata -gebruik.

We hebben nu geleerd hoe we met het Dashboard kunnen beginnen te werken en projecten kunnen vergelijken met betrekking tot hun totale gebruik van Wikidata, of hun gebruik van Wikidata in bepaalde semantische categorieën. Nog niets over de semantische context van Wikidata-gebruik die in de inleidende voorbeelden op deze pagina is besproken. Laten wij gaan kijken.

Use-case B: De gemeenschappen verbinden

Het volgende voorbeeld richt zich op het Dashboard Semantiek, het belangrijkste WDCM-hulpmiddel om de context van het gebruik van Wikidata in verschillende semantische categorieën te bestuderen. We zullen een beetje dieper in de onderliggende logica van het WDCM moeten gaan om te begrijpen hoe het de context van het gebruik van Wikidata ontdekt.

WDCM Voorbeeld 6, Stap 1. Ga naar het WDCM Dashboard Semantiek en ga naar de tabblad "Vergelijkbare kaarten" onder Dashboard. In het veld Selecteer semantische categorie kies Mensen. Er wordt een interactief grafiek gecreëerd voorstellende een "semantische kaart". Elke bubbel in de kaart vertegenwoordigt één Wikidata-cliëntproject (d.w.z. één Wikimedia-project). Projecten van verschillende typen (Wikipedia, Commons, Wiktionary, Wikiquote, enz.) hebben verschillende kleuren, met de kleurlegende aan de rechterkant van de kaart, naast de hulpmiddelen om ermee te communiceren. Als u over de grafiek gaat met de muis worden de respectieve naam van het project en de details van het gebruik van Wikidata getoond.
 
WDCM Dashboard Semantiek: de semantische kaart van de categorie Mensen (Q5). Elke bubbel staat voor een project. Hoe dichter de twee projecten zijn gevonden, hoe meer zij de elementen uit deze semantische categorie gebruiken. De grootte van de bubbel vertegenwoordigt het totale volume van Wikidata-gebruik in het respectieve project.

De semantische kaart die we zojuist hebben gegenereerd op basis van het WDCM Dashboard Semantiek dient om de gelijkenisstructuren met betrekking tot het gebruik van Wikidata in bepaalde categorieën te inspecteren. De gelijkenis van projecten in dergelijke kaarten wordt weergegeven door de afstand in een 2D-vlak: hoe meer proximaal de projecten blijken te zijn, hoe meer ze lijken op het gebruik van items uit een bepaalde categorie (human (Q5), in dit geval). Om te begrijpen wat het Dashboard doet, moeten we op zijn minst beknopt inzicht geven in de interne werking van het WDCM-systeem.

Hoe ontdekt de WDCM de gelijkenisstructuren in het gebruik van Wikidata? Zoals reeds uitgelegd, is de elementaire statistiek van het gebruik van Wikidata-items in WDCM het aantal afzonderlijke pagina's in een bepaald project dat gebruik maakt van het betreffende item (een of meer dan één keer op een pagina). Hieruit volgt dat het patroon van het gebruik van Wikidata in een bepaald project kan worden beschreven door een reeks getallen (een vector), waarbij elk getal het aantal gebruiksen voor een bepaald item vertegenwoordigt. In WDCM wordt elk van de beschouwde semantische categorieën afzonderlijk geanalyseerd. We selecteren eerst alleen de items uit een bepaalde categorie (bijvoorbeeld human (Q5), weergegeven op de kaart hierboven), produceren vervolgens hun gebruikstellingen voor elk Wikimedia-project in kwestie, en verkrijgen een matrix waarin de rijen worden geïndexeerd door Wikimedia-projecten (d.w.z. elke rij vertegenwoordigt één project), en kolommen door de Wikidata-items uit de geselecteerde semantische categorie (d.w.z. elke kolom vertegenwoordigt een item). De cellen van de matrix zijn gevuld met het aantal items dat wordt gebruikt. Dergelijke matrices kunnen worden gemodelleerd door de Latent Dirichlet Allocation (LDA), een standaard unsupervised learning algoritme in text-mining en Natural Language Processing algoritme dat in wezen resulteert in het volgende:

  • Stel dat de matrix van getallen op de volgende manier wordt geproduceerd:
    • er is een reeks semantische onderwerpen, elk onderwerp vertegenwoordigt de waarschijnlijkheid waarmee het betrokken Wikidata-item kan worden gebruikt wanneer het betreffende onderwerp zelf wordt gebruikt;
    • elk project wordt vertegenwoordigd door een mengsel van alle semantische onderwerpen, d.w.z. elk project wordt gekenmerkt door het belang dat elk van de veronderstelde semantische onderwerpen in zich heeft (let op: technisch gezien wordt een project dus beschreven door een waarschijnlijkheidsverdeling van semantische onderwerpen; op zijn beurt is elk semantisch onderwerp een waarschijnlijkheidsverdeling over de items);
    • het veronderstelde proces dat het gebruik van Wikidata in een bepaald project genereert, is het volgende: (1) kies willekeurig een semantisch onderwerp (bijvoorbeeld Beroemdheden, uit human (Q5)) op basis van de waarschijnlijkheid dat het betreffende onderwerp in een bepaald project wordt geselecteerd, (2) kies willekeurig een item uit het geselecteerde semantische onderwerp, op basis van de waarschijnlijkheid dat het betreffende item in dat semantische onderwerp wordt geselecteerd, (3) het "gebruik" van het product in het betrokken project. Wat het LDA-algoritme probeert, is om dit veronderstelde generatieve proces te reverse-engineeren dat de matrix projecten x items vult voor een bepaald aantal semantische onderwerpen. WDCM voert LDA vele malen uit voor elke semantische categorie, waarbij oplossingen voor een breed scala aan semantische onderwerpen worden geïnspecteerd, totdat het de meest bevredigende vindt volgens een aantal vrij complexe criteria van statistisch leren (zie: Bayes-factor). Zodra de optimale oplossing is geselecteerd, retourneert het algoritme twee matrices die we gebruiken in alle verdere WDCM-analyses en visualisaties:
  • de semantisch onderwerp x project matrix, waarin elk semantisch onderwerp een gewicht (d.w.z. een waarschijnlijkheid) heeft in elk project, en
  • de item x semantisch onderwerp matrix, waarin elk Wikidata-item een gewicht (d.w.z. een waarschijnlijkheid) heeft in elk semantisch onderwerp. Nu wordt elk semantisch onderwerp vertegenwoordigd door een waarschijnlijkheidsvector (d.w.z. een kansverdeling) over alle huidige items uit een bepaalde Wikidata-semantische categorie, en elk project door een vector van waarschijnlijkheden (d.w.z. een kansverdeling) over de semantische onderwerpen - die aangeeft hoe waarschijnlijk het is dat een bepaald item in een project zal worden gebruikt wanneer een bepaald semantisch onderwerp actief is in het veronderstelde generatieve proces. Voorbehoud: WDCM modelleert niet alle items uit een van de semantische Wikidata-categorieën in kwestie. We selecteren een groot aantal van de meest gebruikte items uit een categorie, simpelweg omdat het modelleren van items die zelden worden gebruikt de kwaliteit van de LDA-oplossingen in geen enkel opzicht zou verbeteren.

Gezien het feit dat semantische onderwerpen en projecten worden weergegeven door waarschijnlijkheidsverdelingen, kunnen we er afstandsmetrieken op toepassen (zoals de Hellinger afstand, of Kullback-Leibler-divergentie), die de basis vormen voor hun visualisaties. De verkregen metrische hyperruimten moeten echter eerst dimensionaliteitsreductie ondergaan om in een 2D- of 3D-ruimte te kunnen worden weergegeven. De bovenstaande semantische kaart is bijvoorbeeld verkregen uit de t-distributed stochastic neighbor embedding (t-SNE) dimensionaliteitsreductie naar 2D van de projects x topics hyperspace in de Wikidata-categorie van human (Q5), volgens de LDA-modellering van de categorie zoals beschreven. Deze dimensionaliteitsreductiemethode is erg goed in het behouden van de lokale gelijkenisstructuren die in de oorspronkelijke hyperruimten worden gevonden, en we kunnen zien hoe bubbels die Wikimedia-projecten vertegenwoordigen de neiging hebben om te clusteren op basis van hoe vergelijkbaar Wikidata-items in deze semantische categorie worden gebruikt.

WDCM Voorbeeld 6, Stap 2. Gebruik het zoom-hulpmiddel uit de toolkit rechts van de semantische kaart van de categorie Mens en selecteer het cluster van projecten in de linkerbovenhoek van de kaart.
 
WDCM Dashboard Semantiek: een close-up van een cluster van projecten gegroepeerd met betrekking tot hun gelijkenis in het gebruik van Wikidata-items uit Q5 (Mens).

Door de projecten in dit cluster te inspecteren, vinden we onder andere itwiki, nlwiki, plwiki, enwiki en ptwiki.

WDCM voorbeeld 6, stap 3.Verander het dashboard tabblad in Project Semantiek en selecteer itwiki, nlwiki, plwiki, enwiki en ptwiki; Druk op Selectie toepassen en wacht tot de grafiek wordt bijgewerkt. Zoek in de grafiek het deelvenster dat de semantische categorie Mens vertegenwoordigt. U zou daar moeten kunnen zien dat deze projecten aanzienlijke invloed krijgen van de onderwerpen 1, 2, 3 en 8, van de in totaal acht onderwerpen in deze categorie van Wikidata-items. Onderwerp 3 lijkt het meest invloedrijke onderwerp te zijn in deze selectie van projecten.
 
WDCM Dashboard Sematiek: de relatieve bijdrage van semantische onderwerpen van 14 LDA-modellen (een model voor elk van de 14 semantische categorieën die nu door het WDCM worden gebruikt) aan het gebruik van Wikidata in enwiki, plwiki, ptwiki, itwiki en nlwiki.

NB: de LDA-modellen voor bepaalde semantische categorieën omvatten niet noodzakelijkerwijs hetzelfde aantal semantische onderwerpen; het zou juist een toeval zijn. De x-as op dit grafiek vertegenwoordigt altijd het aantal onderwerpen in het LDA-model van de semantische categorie dat het hoogste aantal onderwerpen omvat, alleen om redenen van consistente datavisualisatie. We kunnen bijvoorbeeld zien dat het LDA-model van de categorie Wikimedia slechts vier onderwerpen bevat, in tegenstelling tot het LDA model van de categorie Geografisch Object dat er tien bevat.

WDCM Voorbeeld 6, stap 4.Nu weten we dat het belangrijkste semantische onderwerp in de categorie Mensen voor enwiki, plwiki, itwiki, ptwiki en nlwiki Onderwerp 3 (43,56% relatief belang) is. Verander het dashboard tabblad naar Semantische modellen, selecteer Mens in het veld om de semantische categorie te selecteren, en Onderwerp 1 in het bijbehorende selectieveld. De eerste grafiek op de dashboard-pagina geeft een inzicht in de 50 belangrijkste Wikidata-items in dit onderwerp van de categorie Mens. De tweede visualisatie (afsnijdend) is een interactief semantisch netwerk: elk van deze top 50 items wordt vertegenwoordigd door een knoop en wijst naar het Wikidata-item dat het meest op dezelfde manier wordt gebruikt in de respectieve categorie van items. Het semantiek netwerk kan helpen bij de interpretatie van het onderhavige onderwerp. Ook eens: de overeenkomsten die uit het WDCM voortvloeien, zijn de overeenkomsten in verband met het gebruik van Wikidata's, niet noodzakelijkerwijs in verband met uw verwachtingen op basis van de betekenis van de respectieve Wikidata-artikelen.
 
WDCM Dashboard Semantiek: het semantische netwerk van de 50 belangrijkste items uit het onderwerp 3 van het LDA-onderwerpmodel in de categorie Mens (Q5).

Interessante dingen gebeuren in Onderwerp 3: veel professionele fietsers, dan Johann Sebastian Bach (Q1339) en Nikolai Chernykh (Q318611) - een Sovjet- en Oekraïense astronome met anderen. Een andere gelegenheid om ons eraan te herinneren hoe complex de pragmatische Wikidata zijn: noch de fouten namens de editors van Wikipedia en Wikidata-gebruikers noch de schaduw van twijfel over het verbreken van WDCM verklaren de semantiek van Onderwerp 4 in de categorie Mens. De enige plausibele hypothese is dat de gemeenschap van editors die geïnteresseerd zijn in fietsen een geweldig werk doet op verschillende projecten - in feite kunnen ze precies een groep editors vertegenwoordigen van wie andere Wikidata-gebruikers veel kunnen leren.

WDCM Voorbeeld 6, Stap 5. En tenslotte vertegenwoordigt het laatste grafiek  op het dashboard 50 Wikimedia-projecten die het meest door dit onderwerp zijn beïnvloed in de semantische categorie Mens (Q5).
 
WDCM Dashboard Semantiek: top 50 meest prominente Wikimedia-projecten in het onderwerp 3 van het LDA-model van Mens (Q5).

Nu hebben we iets geleerd over een specifieke tendens van Wikidata-gebruik in de categorie human (Q5) voor vijf Wikimedia-projecten (itwiki, plwiki, ptwiki, nlwiki, enwiki) van het WDCM Dashboard Semantiek.

V: Wat doen we met deze bevindingen?

A: Waarvoor is WDCM bedoeld:

  • We hebben net een groep projecten geïdentificeerd waar de redacteuren soortgelijke interesses hebben in een bepaalde categorie;
  • waarom niet vragen of deze redacteurs verbonden zijn en of zij kunnen samenwerken en hun kennis en ervaringen delen;
  • we hebben ook een groep projecten geïdentificeerd waar dezelfde semantische context belangrijk is, buiten de vijf projecten waar we aanvankelijk in geïnteresseerd waren;
  • vragen hoeveel zij Wikidata in de respectieve semantische categorie gebruiken en de redacteuren van onderontwikkelde en meer ontwikkelde projecten verbinden om samen te werken en te leren;
  • focus op het oplossen van de cyclus samenzwering.

WDCM Dashboards

In dit gedeelte wordt een beknopte beschrijving gegeven van alle WDCM-dashboards die nu online zijn. Dezelfde informatie is te vinden in het tabblad Beschrijving van elk van deze dashboards.

WDCM Overview Dashboard

Introductie

Het WDCM Dashboard Overzicht geeft het grote plaatje weer van het gebruik van Wikidata; andere WDCM-dashboards gaan dieper in op de details. Dit dashboard geeft inzicht in (1) de overeenkomsten tussen de klantprojecten met betrekking tot hun gebruik van Wikidata, evenals (2) het volume van het Wikidata-gebruik in elk klantproject, (3) Wikidata-gebruikstendensen, beschreven door het volume van Wikidata-gebruik in elk van de semantische categorieën van items die zijn opgenomen in de huidige WDCM-editie, (4) de overeenkomsten tussen de Wikidata semantische categorieën van items met betrekking tot hun gebruik in de klantprojecten, (5) rangschikking van klantprojecten met betrekking tot hun Wikidata-gebruiksvolume, (6) de uitsplitsing van het Wikidata-gebruik over de soorten klantprojecten en Wikidata-semantische categorieën.

Wikidata Gebruiksoverzicht

De overeenkomst in structuur in het gebruik van Wikidata "over de klantprojecten" wordt gepresenteerd. Elke bubbel is een project van de klant. De grootte van de bubbel weerspiegelt het volume van Wikidata-gebruik in het respectieve project. Gelijkaardige projecten met betrekking tot de semantiek van het gebruik van Wikidata worden samen gegroepeerd.

De bubbelgrafiek wordt geproduceerd door een t-SNE dimensionaliteitsreductie van de paarsgewijze Euclidische afstanden van het cliëntproject uit te voeren, afgeleid van de contingencytabel Projecten x Categorieën. Aangezien de oorspronkelijke hogere dimensionale ruimte waaruit de 2D-kaart is afgeleid, vrij beperkt is door de keuze van een klein aantal semantische categorieën, is de overeenkomstschalingskaart enigszins onnauwkeurig en moet worden beschouwd als een poging tot een approximatief groot beeld van de cliëntprojecten van de overeenkomsstructuur alleen. Meer nauwkeurige 2D-kaarten van de overeenkomstige structuren in cliëntprojecten zijn te vinden op het WDCM Dashboard Semantiek, waar elke semantische categorie eerst een LDA-topiemodel ontvangt en de overeenkomstsituatie tussen de cliëntprojectprojecten vervolgens wordt afgeleid van de projecttopische distributies.

Terwijl de tabblad Explore een dynamische {Rbokeh} visualisatie biedt naast de hulpmiddelen om het in detail te verkennen, toont de tabblad Hoogtepunten een statisch {ggplot2} plot met de belangrijkste cliëntprojecten gemarkeerd . (NB: Alleen de eerste 5 projecten in gebruiksvolume van Wikidata per projecttype worden gelabeld.)

Wikidata Neiging gebruik

De gelijkenisstructuur in het gebruik van Wikidata over de semantische categorieën heen wordt gepresenteerd. Elke bubbel vertegenwoordigt een semantische categorie van Wikidata. De grootte van de bubbel weerspiegelt het volume van het Wikidata-gebruik van de betreffende categorie. Als twee categorieën dicht bij elkaar liggen, betekent dit dat de projecten die de neiging hebben om de ene te gebruiken, ook de neiging hebben om de andere te gebruiken, en vice versa. Net als bij het gebruiksoverzicht wordt de 2D-toewijzing verkregen door een t-SNE-dimensionaliteitsreductie uit te voeren van de paarsgewijze Euclidische afstanden van de categorie Euclidische die zijn afgeleid van de contingentietabel Projecten x Categorieën.

Wikidata Gebruiksverdeling

De grafieken zijn nuttig om inzicht te krijgen in het relatieve bereik van het gebruik van Wikidata op de klantprojecten. In de grafiek Project Gebruik rangfrequentie vertegenwoordigt elk punt een klantproject; Het gebruik van Wikidata wordt weergegeven op de verticale as en het gebruik van het project op de horizontale as, terwijl alleen het topproject (per projecttype) wordt gelabeld. De sterk scheve, asymmetrische verdeling laat zien dat een klein deel van de klantprojecten een groot deel van het Wikidata-gebruik voor zijn rekening neemt.

In de grafiek Project Gebruik log(Rang)-log(Frequentie) worden de logaritmen van beide variabelen weergegeven. Een machtsrechtelijke relatie geldt als deze plot lineair is. De grafiek bevat de beste lineaire fit, maar er zijn geen pogingen gedaan om de onderliggende kansverdeling te schatten.

Client Projectypes

Projecttypen worden weergegeven in de rijen van deze grafiek, terwijl de semantische categorieën worden gegeven op de horizontale as. De hoogte van de betreffende balk geeft het gebruiksvolume van Wikidata aan van de respectievelijke semantische categorie in een bepaald clientproject.

Client Projectgebruik volume

Gebruik de schuif om het weer te geven percentielbereik van de Wikidata-gebruiksvolumeverdeling over het clientproject te bepalen. De grafiek wordt automatisch aangepast om de geselecteerde projecten te presenteren in toenemende volgorde van Wikidata-gebruik, en om maximaal 30 topprojecten uit de selectie te presenteren. NB: De percentielrang van een score is het percentage scores in de frequentieverdeling dat gelijk is aan of lager is dan de score. Bijvoorbeeld, een klantproject met een Wikidata-gebruiksvolume groter dan of gelijk aan 75% van alle klantprojecten in kwestie, wordt gezegd dat het zich in het 75e percentiel bevindt, waarbij 75 de percentielrang is.

In feite kunt u de volledige verspreiding van het gebruik van Wikidata door de cliëntprojecten bekijken door de onder- en bovengrens te selecteren in termen van de percentielrang van het gebruik.

Wikidata Browser gebruik

Een uitsplitsing van Wikidata-gebruiksstatistieken over klantprojecten en semantische categorieën. Aan de linkerkant een tabel met een kruistabel tussen clientproject en semantische categorie. De kolom Gebruik in deze tabel is de Wikidata-gebruiksstatistiek voor een bepaalde combinatie van semantische categorie x clientproject (bijv. het Wikidata-gebruik in de categorie "Mens" in het dewiki-project). Aan de rechterkant wordt het totale Wikidata-gebruik per klantproject weergegeven (d.w.z. de som van het Wikidata-gebruik over alle semantische categorieën voor een bepaald klantproject; bijv. het totale Wikidata-gebruiksvolume van enwiki).

WDCM Dashboard gebruik

Introductie

Het WDCM Dashboard Gebruik richt zich op het verstrekken van gedetailleerde statistieken over het gebruik van Wikidata in specifieke zusterprojecten of de geselecteerde subsets daarvan. In dit dashboard worden drie pagina's met analytische resultaten beschreven: (1) "Gebruik", (2) "Tabellen/Kruistabellen" en (3) "Tabellen".

Gebruik

Het tabblad Gebruik biedt elementaire statistieken over het gebruik van Wikidata in de semantische categorieën (linkerkolom) en zusterprojecten (rechterkolom).

Aan de linkerkant komen we eerst een algemeen overzicht tegen van Basisfeiten: het aantal Wikidata-items dat wordt opgenomen in de huidige WDCM-taxonomie (in feite is dit het aantal items dat wordt opgenomen in alle WDCM-analyses), het aantal zusterprojecten dat het bijhouden van het gebruik van Wikidata aan de clientzijde heeft ingeschakeld (nu betekent dit dat het gebruik van de Wikibase/Schema/wbc-entiteit aanwezig is), het aantal semantische categorieën in de huidige versie van de WDCM-taxonomie, en het aantal verschillende soorten zusterprojecten (bijv. Wikipedia, Wikinews, enz.).

In de subsectie Categorierapport kunt u een specifieke semantische categorie selecteren en twee grafieken onder de selectie genereren: (a) de categorie top 30 projecten grafiek, en (b) de categorie top 30 Wikidata items grafiek. De eerste grafiek toont 30 zusterprojecten die het meest gebruik maken van Wikidata-items uit deze semantische categorie, met de gebruiksgegevens weergegeven op de horizontale as en de projectlabels op de verticale as. De percentages naast de gegevenspunten in deze grafiek verwijzen naar het aandeel van het totale categoriegebruik dat plaatsvindt in het betreffende project. De volgende grafiek toont de 30 meest populaire items uit de geselecteerde semantische categorie: itemgebruik wordt opnieuw op de horizontale as geplaatst, itemlabels op de verticale as en item-ID's worden naast de datapunten zelf geplaatst.

De subsectie Algemeen overzicht categorieën is statisch en staat geen selectie toe; het introduceert twee beknopte overzichten van het gebruik van Wikidata in de semantische categorieën van Wikidata-items. De grafiek Wikidata Gebruik per semantische cateogorie biedt semantische categorieën op de verticale en itemgebruiksstatistieken op de horizontale as; de percentages vertellen ons over het aandeel van het totale Wikidata-gebruik dat de respectievelijke semantische categorie draagt. Hieronder vindt u de Wikidata item gebruik per semantische categorie in elk projecttype een kruistabel van semantische categorieën vs. zusterprojecttypes. De categorieën hebben een kleurcode en worden weergegeven op de horizontale assen, terwijl elke grafiek één projecttype vertegenwoordigt. De gebruiksschaal, weergegeven op de verticale assen, is logaritmisch om de vergelijking te vergemakkelijken en praktische gegevensvisualisatie mogelijk te maken.

Aan de rechterkant wordt de mogelijkheid geboden om het gebruik van Wikidata in een enkel Wikimedia-project te inspecteren. In de sectie Projectrapport kunt u een enkel Wikimedia-project selecteren en er resultaten op verkrijgen. De eerste sectie die wordt gegenereerd bij het maken van een selectie biedt een beknopte verhalende samenvatting van het Wikidata-gebruik in het geselecteerde project, naast een grafiek met een overzicht van het Wikidata-gebruik per semantische categorie. De volgende grafiek, Wikidata gebruiksrang, toont de rangpositie van het geselecteerde project ten opzichte van andere zusterprojecten met betrekking tot het Wikidata-gebruiksvolume. Daaronder wordt een complexere structuur gegeven, Semantische nabijheid. In dit netwerk, of een gerichte grafiek als u dat liever heeft, wijst elk project naar het project dat er het meest op lijkt. De geselecteerde projecten hebben een andere kleur. De resultaten zijn alleen relevant in de context van de huidige selectie: alleen het geselecteerde project en de 20 dichtstbijzijnde semantische buren worden gepresenteerd. Nogmaals: elk project verwijst naar het project dat Wikidata gebruikt op een manier die er het meest op lijkt. De grafiek top 30 Wikidata-items toont de top 30 Wikidata-items in het geselecteerde project: itemlabels worden gegeven op de verticale as, Wikidata-gebruik op de horizontale as en de item-ID's worden gelabeld in de buurt van de datapunten zelf.

Tabellen/Kruistabellen

Hier hebben we de meest directe mogelijkheid om de Wikidata-gebruiksstatistieken van de zusterprojecten te bestuderen. Een selectie van projecten en semantische categorieën wordt doorsneden en alleen resultaten in de scope van de doorsnede worden geretourneerd. De grafieken moeten voor zich spreken: de gebruiksstatistiek wordt altijd weergegeven door de verticale as, terwijl de horizontale as en subpanelen verschillende rollen spelen in de context van het al dan niet verstrekken van een kruistabel tussen categorie versus project of een categorie versus projecttype. Datapunten worden gelabeld in de definitie van miljoen (M) of duizend (K) pagina's (zie Wikidata-gebruik) hierboven). Hoewel grafieken slechts een beperkt aantal gegevenspunten kunnen weergeven, in verhouding tot de grootte van de selectie, gaat elk van hen vergezeld van een knop Gegevens (csv) die een download van de volledige respectieve gegevensset als een door komma's gescheiden bestand start.

Tabellen

De sectie presenteert doorzoekbare en sorteerbare tabellen en kruistabellen met zelfverklarende semantiek. Bekijk hier de volledige WDCM-gebruiksdatasets.

WDCM Semantisch dashboard

Introductie

Het WDCM Dashboard Semantiek is waarschijnlijk het centrale en analytisch meest gecompliceerde van alle WDCM Dashboards. Hier bieden we alleen de noodzakelijke basisprincipes van distributionele semantiek die nodig zijn om de resultaten van semantische onderwerpmodellering te begrijpen die op dit WDCM-dashboard worden gepresenteerd. Een gebruiker die zich moet verdiepen in de gelijkenisstructuren tussen de zusterprojecten van Wikimedia met betrekking tot hun Wikidata-gebruikspatronen, zal hoogstwaarschijnlijk eerst wat extra informatie moeten bestuderen. Het Dashboard vereenvoudigt echter de presentatie van de resultaten zoveel mogelijk om ze toegankelijk te maken voor elke Wikidata-gebruiker of Wikipedia-bewerker die niet noodzakelijkerwijs betrokken is bij Data of Cognitieve Wetenschap. Het lezen van de WDCM Semantische onderwerpmodellen sectie op deze pagina wordt sterk aangeraden voor iedereen die nog nooit eerder met semantische onderwerpmodellen of distributionele semantiek heeft gewerkt.

WDCM Semantische onderwerp modellen

Leesvoer
  • Distributieve semantiek. In Wikipedia, overgenomen op 24 oktober 2017 van https://en.wikipedia.org/wiki/Distributional_semantics
  • Onderwerpmodel. In Wikipedia, overgenomen op 24 oktober 2017 van https://en.wikipedia.org/wiki/Topic_model
  • Latente Dirichlet-toewijzing. In Wikipedia, overgenomen op 24 oktober 2017 van https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
  • Dimensionaliteit reductie. In Wikipedia, overgenomen op 24 oktober 2017 van https://en.wikipedia.org/wiki/Dimensionality_reduction

Terwijl Wikidata zelf een semantische ontologie is met vooraf gedefinieerde en evoluerende normatieve regels voor beschrijving en gevolgtrekking, is het gebruik van Wikidata in wezen een sociaal, gedragsmatig fenomeen, geschikt voor studie door middel van machine-lerend op het gebied van distributieve semantiek: de analyse en modellering van statistische patronen van het voorkomen en gelijktijdig voorkomen van het gebruik van Wikidata-items en -eigenschappen in de klantprojecten (bijv. enwiki, frwiki, ruwiki, enz.). WDCM maakt dus gebruik van verschillende statistische benaderingen in een poging om de waarneembare Wikidata-gebruiksstatistieken te beschrijven en er inzichten uit te halen (bijv. onderwerpmodellering, clustering, dimensionaliteitsreductie, allemaal naast het verstrekken van elementaire beschrijvende statistieken van Wikidata-gebruik, natuurlijk).

Wikidata Gebruikspatronen. "De "gouden lijn" die de redenering achter alle WDCM-functies verbindt, kan niet-technisch worden beschreven op de volgende manier. Stelt u voor hoeveel keer een set van bepaalde Wikidata-item in een project is gebruikt (enwiki, bijvoorbeeld). Stelt u voor dat u dezelfde gegevens of andere projecten hebt: als er bijvoorbeeld 200 projecten worden geanalyseerd, dan hebben we 200 tellen voor N items in een set, en de gegevens kunnen worden beschreven door een N x 200 matrix (items x projecten). Elke kolom van tellen, die de frequentie van het optreden van alle ondertekende Wikidata-entiteiten in één van de 200 onder discussie staande projecten vertegenwoordigt - een vector, natuurlijk - vertegenwoordigt een bepaald Wikidata-gebruikspatroon. Door statistisch te inspecteren en te modelleren van de gebruikspatroon-matrix - een matrix die alle dergelijke gebruikspatronen in de projecten omvat, of de afgeleide covariance/correlatie-matrix - kunnen veel inzichten worden gevonden in de overeenkomsten tussen Wikimedia-projecten-itemprojecten (of, nauwkeuriger, de overeenkomsten van hun gebruikspatroon).

In wezen is de technologie en wiskunde achter WDCM gebaseerd op dezelfde set praktische hulpmiddelen en ideeën die de ontwikkeling van semantische zoekmachines en aanbevelingssystemen ondersteunen, alleen toegepast op een specifieke dataset die de gebruikspatronen omvat voor tientallen miljoenen Wikidata-entiteiten in haar klantprojecten.

Dashboard: Semantische modellen

Elk van de 14 nu gebruikte semantische categorieën in de WDCM-taxonomie van Wikidata-items krijgt een apart onderwerpmodel. Elk onderwerpmodel omvat twee of meer onderwerpen, of semantische thema's. Hier kunt u een semantische categorie selecteren (bijv. "Geografisch object", "Mens") en een bepaald onderwerp uit het model. De pagina zal drie outputs produceren: (1) de grafiek Top 50 items in dit onderwerp, die de 50 belangrijkste items in het geselecteerde onderwerp van het onderwerpmodel van de geselecteerde categorie presenteert, (2) het Topic similarity network, dat de gelijkenisstructuur presenteert tussen de 50 belangrijkste items in het geselecteerde onderwerp, en (c) de grafiek Top 50 projecten in dit onderwerp, waar 50 Wikimedia-projecten waarin het geselecteerde onderwerp een prominente rol speelt in de geselecteerde semantische categorie.

Dashboard: Project Semantiek

Maak hier een selectie van Wikimedia-projecten en klik op Selectie toepassen. Het Dashboard zal een reeks grafieken produceren, één per elke Wikidata semantische categorie die aanwezig is in uw selectie van projecten, en het relatieve belang (%) van elk onderwerp in de gegeven selectie en voor elke semantische categorie berekenen. Vergeet niet dat categoriespecifieke semantische modellen niet noodzakelijkerwijs hetzelfde aantal onderwerpen omvatten (in feite doen ze dat zelden); ook, Onderwerp n in de ene categorie is natuurlijk niet hetzelfde als Onderwerp n in een andere categorie.

Dashboard: Gelijkeniskaarten

Na een selectie van de semantische categorie, zal het Dashboard een 2D-kaart presenteren die de overeenkomsten tussen de Wikimedia-projecten weergeeft, berekend op basis van alleen het semantische model van de geselecteerde categorie. Hier kunt u leren hoe vergelijkbaar of verschillend de zusterprojecten zijn met betrekking tot hun gebruik van Wikidata-items uit een enkele semantische categorie.

Feedback gebruikers

  • Alle feedback over het gebruik van WDCM is welkom en wordt zeer op prijs gesteld.
  • In de nabije toekomst zullen cognitive walkthroughs worden gepland met vrijwilligers om de bruikbaarheid van de WDCM Dashboards te verbeteren. Er zullen ook andere manieren worden gebruikt om feedback van gebruikers te verzamelen.
  • Als u de technische aspecten van het WDCM-systeem wilt bespreken of helpen verbeteren, laat dan een reactie achter op de projectpagina Wikitech.

Hoe een bijdrage leveren

  • Het geven van gebruikersfeedback is essentieel voor de ontwikkeling van analytische systemen als WDCM. Het delen van uw ervaringen met WDCM is daarbij cruciaal. Gebruik daarvoor de overlegpagina van het project.
  • De meest nuttige bijdrage die we ons op dit moment kunnen voorstellen is om uw ervaringen te delen met het interpreteren van de WDCM-resultaten verkregen door eventuele analytische doeleinden die u mogelijk hebt gehad.
  • Als u enig idee heeft over hoe u wilt bijdragen aan het WDCM-systeem dat hier niet wordt vermeld, neem dan contact op met de systeemontwikkelaar of laat een reactie achter op de overlegpagina van het project.

Te lezen