Wikidata:Comparison of Projects and Proposals for Wiktionary/nl

This page is a translated version of the page Wikidata:Comparison of Projects and Proposals for Wiktionary and the translation is 100% complete.

Inleiding

Het doel van dit werk is om een nieuw voorstel te bespreken op basis van twee eerdere die zijn gedaan met betrekking tot een mogelijke ondersteuning van WikiWoordenboek via Wikidata via een voorziening van gestructureerde taalgegevens die vervolgens kunnen worden weergegeven in de WikiWoordenboeken. Dit omvat het beantwoorden van bepaalde vragen met betrekking tot de huidige structuur van Wikidata, omdat niet alle beslissingen automatisch naar voren komen. Voorbeelden zijn de reikwijdte en afbakening van een linguïstische entiteit in Wikidata, de behandeling van afgeleide, maar niet synonieme woordvormen, hun gestructureerde weergave of de structuur / samenstelling van een item dat verschillende subcategorieën zelf zou kunnen omvatten. Ook de structuren van soortgelijke projecten – WordNet, EuroWordNet en OmegaWiki – en lemon, een model voor het delen van lexicale informatie, komen aan bod.

Er zal een voorbeeld-item in elke sectie om de verschillen tussen hen te illustreren. Het voorbeeld in elk geval laat zien hoe de verschillende structuren de woorden "Hamburger" in het Engels vertegenwoordigen, wat "persoon uit Hamburg" betekent en het woord "Hamburger" in het Duits, wat "persoon uit Hamburg" of "warme sandwich bestaande uit een pasteitje van gekookt gehakt, in een gesneden broodje, soms ook met saladegroenten, specerijen of beide" kan betekenen (Merk op dat dit kan worden vertaald naar "hamburger", wat echter niet hetzelfde is als "Hamburger" vanwege hoofdletters). In elk systeem vertegenwoordigt een vak dan een vermelding, d.w.z. een aparte item-pagina. Natuurlijk zal in de meeste gevallen de inhoud van deze velden sterk worden verminderd om een meer schematische weergave te verkrijgen.

Terminologie

Om misverstanden te voorkomen, volgt hieronder een korte schets van een terminologie die in het hele document zal worden gebruikt. Een uitgebreidere woordenlijst van termen die in de volgende hoofdstukken worden gebruikt, is te vinden onder Verdere Wikidata-Terminologie. De termen die alleen in bepaalde secties nodig zijn, zullen daar worden geïntroduceerd.

surface form / oppervlaktevorm
Deze term wordt alleen gebruikt om te verwijzen naar de morfologische oppervlaktevorm (hoe een woord wordt geschreven), het verwaarlozen van fonologische oppervlaktevormen (hoe een woord wordt uitgesproken) enz. Dit betekent ook dat de oppervlaktevorm van "go" als Frans zelfstandig naamwoord voor een bordspel gelijk is aan die van "go" als het Engelse werkwoord. De woorden "Polen" en "polen" delen echter niet dezelfde oppervlaktevorm, vanwege het hoofdlettergebruik van slechts één van hen.
gloss/ korte beschrijving
Een gloss is een korte beschrijving van wat het woord/de uitdrukking aanduidt, maar die niet zo gedetailleerd hoeft te zijn als een definitie die door elkaar kan worden gebruikt met het woord/de uitdrukking. Een korte beschrijving van een woord samen is "Fado – muziekgenre".
expression / expressie
De term expressie verwijst naar dezelfde oppervlaktevormen die ook de kenmerkwaarde voor taal delen en dezelfde morfologische kenmerken hebben, dus ook tot dezelfde woordcategorie behoren. Het Engelse bijvoeglijk naamwoord "blue", verwijzend naar de kleur en het Engelse bijvoeglijk naamwoord "blue" dat verwijst naar een melancholische gemoedstoestand zijn bijvoorbeeld dezelfde uitdrukkingen (alleen met verschillende betekenissen), maar de Engelse werkwoorden "tear" (scheuren door op twee plaatsen vast te houden of te beperken en uit elkaar te trekken, al dan niet opzettelijk; vernietigen of scheiden) en "tear" (om tranen te produceren) zijn dat niet, Door verschillende morfologische waarden zoals verschillende verbuigingsvormen: scheur/gescheurd/gescheurd versus scheuren/scheuren/scheuren.
sense / betekenis
De betekenis van een woord/multi-woord-expressie is het woord/multi-woord-expressie gecombineerd met de betekenis waarmee het geassocieerd wordt. Het Engelse woord "chat" kan bijvoorbeeld de betekenis hebben om betrokken te zijn bij een informeel gesprek, "chat" in het Frans kan dezelfde betekenis hebben of die van "kat" hebben, maar hun betekenissen zijn anders. Een zin is afhankelijk van de term waartoe het behoort – om een ander voorbeeld te geven: "Le Mépris" (film van Godard) en "Pierrot le fou" (film van Godard) worden beide met dezelfde korte beschrijving beschreven ("film van Godard"), maar ze delen hun betekenis niet. De betekenis in het eerste voorbeeld is "Le Mépris" (film van Godard) en in het tweede "Pierrot le fou" (film van Godard).
entry / vermelding
De term vermelding duidt op de basispresentatie-eenheid in een van de verschillende woordenboeken en is in dit opzicht gelijk aan de term pagina. Voor Wikidata is een item een wiki-pagina en is het de basisredactionele eenheid, die wordt gebruikt om bewerkingsgeschiedenissen, auteurschap, enz. bij te houden.

Wiktionary en Wikidata

Deze sectie is gericht op het introduceren van de functionaliteit van zowel het huidige WikiWoordenboek als Wikidata om de basis te leggen voor de analyses van de drie voorstellen. Deze overzichten worden gevolgd door een korte motivatie, waarom een eventuele verbinding van de twee Wiki-projecten nuttig kan zijn.

Wiktionary

 
Fig. 1: Voorbeeld vermelding "Hamburger", Wiktionary
 
Fig. 2: Andere vermelding "Hamburger", Wiktionary

De aanpak van het open-source WikiWoordenboek is om een meertalig woordenboek te hebben met vermeldingen uit alle talen. In het Engelse WikiWoordenboek zijn er vermeldingen over het Duitse woord "Unterstrich" en over het Hongaarse woord "tüzes" enz. Alle informatie in het lemma (behalve de anderstalige termen) is in het Engels geschreven en ook Engelse woorden hebben lemma's. In het Thaise WikiWoordenboek worden ze in het Thais geschreven enzovoort. Momenteel zijn er uitdrukkingen uit 1062 talen, waarvan er 522 zijn met meer dan tien vermeldingen[1], alleen al in de Engelse versie. Op dit moment zijn er 170 taalversies [2].


De vermeldingen zijn als volgt gestructureerd: Een item behandelt alle expressies uit alle talen volgens één morfologische oppervlaktevorm. Dit betekent bijvoorbeeld dat zowel het Duitse bijvoeglijk naamwoord "arm" als het Engelse zelfstandig naamwoord "arm" aan hetzelfde lemma worden gekoppeld. De subsecties zijn gestructureerd volgens taal (de taal van de respectieve WikiWoordenboeken heeft prioriteit als het gaat om het ordenen van de subsecties) en POS, wat betekent dat de invoer van de pagina die een oppervlaktevorm bedekt, is verdeeld in expressiesecties, die op hun beurt zijn onderverdeeld in betekenissecties als één expressie meer dan één betekenis bevat. Als eigenschapswaarden zoals uitspraak of etymologie worden gedeeld, kunnen ze aan het begin van de betreffende sectie verschijnen, als ze verschillen, worden ze opgesplitst in hun subsecties. Er zijn enkele kleinere verschillen tussen de verschillende taalversies, zoals het feit dat de Duitse ook vertalingen naar andere talen vermeldt (niet te verwarren met WikiWoordenboeken in andere talen die dezelfde oppervlaktevorm hanteren) en links naar die welke beschikbaar zijn in het Duitse WikiWoordenboek, de Engelse of Franse WikiWoordenboeken behandelen bijvoorbeeld geen vertalingen in andere talen. Daarnaast volgen de verschillende taalversies een vergelijkbare structuur.


De informatie in Wiktionary omvat uitspraak (zowel IPA(/Sampa)-transcripties als audiodocumenten), etymologie, anagrammen, synoniemen, hyperniemen etc., buigtabellen, voorbeeldzinnen, vertalingen (en, indien aanwezig, links naar de betreffende vertaling), links naar Wikipedia-pagina's over de concept(en) achter de betekenis(sen) van de uitdrukking(en) en links naar lemma's in andere WikiWoordenboeken die ook de respectievelijke oppervlaktevorm hanteren. Wiktionary heeft ook vermeldingen voor composities, acroniemen, afkortingen, spelfouten en vereenvoudigde spellingen.

Figuur 1 laat zien hoe WikiWoordenboek het voorbeeld "hamburger" weergeeft.

Merk op dat in sommige WikiWoordenboeken de uitspraak van de twee Duitse woorden vóór de respectieve zelfstandige naamwoorden kan staan voor gedeelde kenmerken zoals uitspraak in het bovenstaande voorbeeld om redundantie te voorkomen (zie figuur 2).

Wikidata

 
Fig. 3: Voorbeeld verklaring in Wikidata

Wikidata is een open-source database die gestructureerde gegevens taalonafhankelijk opslaat. De informatie over items wordt dus gedeeld door elke taalversie, omdat de labels van de concepten (die zijn gekoppeld via eigenschapskoppelingen) en de eigenschapskoppelingen zelf in verschillende talen worden weergegeven - maar verankerd aan de overeenkomstige ID van het item / de eigenschap. Verder is een derde entiteitstype gepland: query's. Deze worden gebruikt voor het automatisch genereren van lijsten, zoals een lijst van levensmiddelenadditieven of lijsten van rivieren met de bijbehorende informatie.

Elk item kan een lijst met verklaringen hebben. De informatie dat Berlin (Q64) de status heeft van een staat in Duitsland wordt bijvoorbeeld weergegeven door een claim waarin wordt beweerd "type administratieve indeling: staat Duitsland". Deze claims, bestaande uit een eigenschap en een waarde, en eventueel kwalificerende claims, gaan vergezeld van een (mogelijk lege) lijst met referenties. Een voorbeeldverklaring wordt gegeven in figuur 3.

De eigenschappen (in Fig. 3 "Populatie") zijn entiteiten die worden uitgelegd in de eigenschappensectie en kunnen, net als andere items, door de gebruikers worden gemaakt. Voorbeelden zijn: geboortedatum (P569, datum waarop het onderwerp is geboren), handtekening (P109, afbeelding van de handtekening van een persoon) of voorouderlijk huis (P66, plaats van herkomst in China voor voorouders van onderwerp). De informatie die nu beschikbaar is in Wikidata wordt toegevoegd door gebruikers, deels handmatig en deels door bots. De onderliggende software is Wikibase. Het is duidelijk dat er nog geen voorbeeldvermelding kan zijn voor de uitdrukkingen van "Hamburger", aangezien de benaderingen van de mogelijke Wikidata-vermeldingen voor taalkundige items het onderwerp van dit document is.

Motivatie

Het lijkt voor de hand te liggen dat toegang tot gestructureerde taalkundige gegevens van groot voordeel kan zijn voor deze 170 taalafhankelijke WikiWoordenboek-versies.

  • Ten eerste zou het de bewerkingsinspanning verminderen, omdat informatie desgewenst automatisch uit de database kan worden gehaald.
  • Ten tweede, aangezien hetzelfde geldt voor correcties die dan in alle vermeldingen in alle talen tegelijk effect zouden kunnen hebben, kan een hogere informatiekwaliteit worden bereikt.
  • Ten derde kan dit leiden tot uitgebreidere vermeldingen ook in WikiWoordenboeken uit kleinere talen.
  • Ten vierde zal het hebben van een enorme verzameling gratis, "gestructureerde" taalkundige gegevens zeer nuttig zijn voor toepassingen voor natuurlijke taalverwerking, onderzoekers, taalkundigen en mensen die "gewoon persoonlijk" geïnteresseerd zijn in taalkundige structuren die gemakkelijk kunnen worden doorzocht.

Erkennend dat er ook behoefte is aan bepaalde ongestructureerde informatie - niet in de laatste plaats: het hebben van definities en verklaringen van vreemde woorden in een eigen taal, die in context kunnen en zullen verschillen vanwege verschillende culturele / taalachtergronden - is er helemaal niet de wens om WikiWoordenboek te vervangen door Wikidata, maar alleen om het te helpen onderhouden en uitbreiden via de middelen om zowel een structuur aan te bieden, en een basis voor het verankeren van informatie.

Vergelijking van de Structuur van andere Projecten

In deze sectie zullen de onderliggende structuren van de projecten WordNet, EuroWordNet en OmegaWiki worden vergeleken om structurele verschillen tussen hen en Wiktionary weer te geven.

WordNet

 
Fig. 4: Voorbeeld vermelding "Hamburger", WordNet

Structuur

WordNet is een gratis woordenboek voor Engels van de Princeton University. Elk lemma (een woord of term) wordt geassocieerd met een of meer zogenaamde synsets. Die woorden groeperen die in een bepaalde context synoniem zijn, zien de twee synsets voor de uitdrukking "koper" als voorbeelden. Verder wordt een korte beschrijving gegeven, dus een korte uitleg / definitie van het synset. In de meeste gevallen zijn er ook zinnen die bijvoorbeeld gebruikt worden. AboutWordNet

  1. S: (n) bull, cop, copper, fuzz, pig (oncomplimentaire termen voor een politieman)
  2. S: (n) copper, copper color (een roodbruine kleur die lijkt op de kleur van gepolijst koper)

De synsets zijn met elkaar verbonden door ontologische relaties, meestal hyponiem/hyperniem-relaties. Dit betekent dat bijvoorbeeld de synset {photograph, photo, exposure, picture, pic} kan worden weergegeven als een direct hyperniem voor {wedding picture}, {still} of {snapshot, snap, shot}, terwijl het functioneert als een direct hyponiem van {representation}. Ook gerichte relaties zoals "derivationally related form" zijn inbegrepen. De "sub-WordNets" van zelfstandige naamwoorden, werkwoorden, bijvoeglijke naamwoorden en bijwoorden worden afzonderlijk behandeld met slechts zeer weinig cross-POS-pointers. De structuur is echter in elk van hen hetzelfde. In totaal zijn er 117.000 synsets.

Terminologische contrasten en vergelijking met WikiWoordenboek

Met betrekking tot onze terminologie correleert één WordNet-item met de term expressie: één oppervlaktevorm met een bepaalde taal (in WordNet: Engels) en één POS-tag. Een WordNet-synset is vergelijkbaar met wat we definiëren als zin - een bepaalde betekenis van een taalkundige entiteit. Hier wordt het echter weergegeven door een reeks synoniemen, terwijl WikiWoordenboek een betekenis vertegenwoordigt door een korte beschrijving / definitie aan de taalkundige entiteit te koppelen.

WordNet pakt dus de taak van synoniem tussen betekenissen en ook enkele andere semantische relaties aan op de manier van een eentalige thesaurus. Een van de belangrijkste verschillen met WikiWoordenboek ligt in de verschillende representaties van betekenissen (synsets versus korte beschrijvingen / definities en beschrijvingen). Verder biedt WordNet, in tegenstelling tot Wiktionary, geen morfologische of fonologische informatie van woorden, benadert het geen zinnen en biedt het geen vertalingen aan.

Het voorbeeld Hamburger

Merk op dat WordNet alleen Engelse woorden dekt, daarom is er helemaal geen representatie voor de Duitse woorden in het hamburgervoorbeeld. Bovendien biedt WordNet ook geen vermeldingen voor het woord met een hoofdletter "Hamburger" in het Engels. Figuur 4 toont daarom een voorbeeldvermelding voor "Hamburger" zoals het zou zijn volgens de typische WordNet-structuur. Zoals getoond, is er in dit geval slechts één synset. Ook deze geeft geen synoniemen, maar alleen een korte beschrijving en relationele informatie.

EuroWordNet

 
Fig. 5: Voorbeeld vermelding "Hamburger", EuroWordNet

Structuur

Terwijl WordNet alleen Engelse woorden omvat, werden met de start van het EU-project EuroWordNet ook WordNets in het Nederlands, Spaans, Italiaans, Duits, Frans, Tsjechisch en Ests gecreëerd en aan elkaar gekoppeld, wat resulteerde in een meertalige database. Via de interlinguale links die zijn opgeslagen in de Inter-Lingual-Index (ILI) worden woordnetten uit de ene taal aan een andere gekoppeld. Aangezien het doel van deze koppelingen is om "equivalente" synsets in verschillende talen te matchen, worden er geen relaties tussen de afzonderlijke ILI-records vastgesteld. Deze taak blijft in de enkele WordNets. Dit maakt ook een eenvoudige uitbreiding ervan mogelijk, omdat er geen consensus over alle groeperingen hoeft te worden gehandhaafd.

Taal-interne relaties zijn verbreed met de start van het project, nieuwe werden toegevoegd en relaties hebben nu functies zoals conjunctie of disjunctie - "vliegtuig" kan de meroniemen (een term die een deel van iets anders weergeeft) "deur", "straalvliegtuig" en "propeller" hebben. Het woord "deur" kan de holoniemen (benaming voor het geheel waartoe de betekenis van een bepaald woord behoort) "auto", "kamer" "of" "vliegtuig" hebben. Ook worden in EuroWordNet koppelingen tussen synsets met verschillende POS-tags opgeslagen.

Het matchen van deze synsets kan echter nogal ingewikkeld zijn - concepten bestaan mogelijk niet in verschillende talen of kunnen, samen met hun in- en uitgaande relaties, niet-congruent zijn. Een concept kan bijvoorbeeld alleen hyponomisch zijn ten opzichte van een andere in de ene taal, maar niet in een andere. Het is dus moeilijk om relaties te concluderen of af te leiden uit interlinguale koppelingen.

Terminologische contrasten en vergelijking met wikiWoordenboek

De termen item, synset en gloss (korte beschrijving) zijn gelijk aan die in WordNet, zoals hierboven uitgelegd. De POS-beperking tussen synsets uit verschillende talen is echter verzacht: hier kunnen equivalentiekoppelingen ook zijn tussen synsets met items met verschillende POS-tags. Net als WordNet gebruikt EuroWordNet synsets als zintuiglijke representatie, wat een groot verschil is met WikiWoordenboek. EuroWordNet is in tegenstelling tot WordNet meertalig in de mate dat het synsets van zeven talen met elkaar verbindt. Een ander belangrijk verschil met WikiWoordenboek ligt echter weer in de uitsluiting van morfologische en fonologische informatie.

Het voorbeeld Hamburger

Aangezien het gebruik van EuroWordNet niet, in tegenstelling tot dat van WordNet, gratis is, is de bovenstaande figuur gebouwd volgens hoe het eruit zou moeten zien, gezien de structuur en andere voorbeelden.

OmegaWiki

 
Fig. 6: Voorbeeld vermelding "Hamburger", OmegaWiki

Structuur

OmegaWiki is een meertalig open-source woordenboek met als doel om alle woorden van alle talen te beschrijven met definities in alle talen, inclusief lexicale, terminologische en ontologische informatie.

De interne structuur is gebaseerd op vermeldingen met betrekking tot één DefinedMeaning (DM), wat een combinatie is van een expressie samen met de definitie ervan. Deze definitie wordt als taalonafhankelijk beschouwd en daarom in de verschillende talen vertaald. Sprekend in de termen die worden besproken in de terminologie, komt één DefinedMeaning dus overeen met een zin. Vandaar dat er in voorbeeld 3 en 4 afzonderlijke pagina's zijn voor het volgende omdat het twee verschillende gedefinieerde betekenissen zijn - in het eerste geval is er de uitdrukking "lied" gecombineerd met de definitie "Een muziekstuk met tekst...", in het tweede geval wordt de uitdrukking "lied" gecombineerd met de definitie "De handeling van het zingen".

  1. song (Engels): Een muziekstuk met teksten (of "woorden om te zingen"); proza dat men kan zingen.
  2. song (Engels): De handeling van het zingen.

Verder zijn er vermeldingen voor DM's in andere talen die ook expressies hebben met dezelfde oppervlaktevorm. In dit voorbeeld is er een vermelding voor het Faeröerse woord "lied", wat zich vertaalt naar "bed". Deze is echter op een ander lemma weergegeven. Er zijn lijsten per taal met de verschillende definities die een woord kan hebben, d.w.z. met alle DM's die zijn gekoppeld aan oppervlaktevormen per taal. Deze pagina's vermelden echter alleen de bestaande DM's per expressie met hun informatie en het is niet mogelijk om identieke informatie (zoals opdelen in lettergrepen binnen één taal) te delen tussen verschillende DefinedMeanings. Deze moeten daarom op alle betrokken vermeldingspagina's worden gedupliceerd.

Naast deze DefinedMeaning-pagina's slaat OmegaWiki ook bepaalde semantische en ontologische relaties tussen de DM's op. Deze omvatten synonymie (synoniem), antoniem (tegengestelde betekenissen) etc. evenals hyponomie (onderliggende naam), vertaling naar andere talen etc.

Met betrekking tot deze relaties is het mogelijk om onderscheid te maken tussen exacte relaties en onnauwkeurige. Een voorbeeld hiervan zou synoniem zijn: terwijl het Engelse woord "Duits" geen uitspraak doet over het geslacht van de Duitse persoon waarover wordt gesproken, codeert het Duitse woord "Deutsche" (in tegenstelling tot "Deutscher") ook de informatie "geslacht: vrouwelijk". Aangezien er geen woord is dat zich precies zou vertalen in het Engelse woord "Duits" - waar geen informatie over het geslacht wordt weergegeven - zou men de hyponomie / hypernomie-relatie ook niet kunnen gebruiken om de koppeling tussen deze DefinedMeanings uit te drukken. In de database wordt dit weergegeven door het symbool "~", wat betekent dat de vertaling niet exact is. De gebruiker kan zelf bepalen in welke taal hij/zij OmegaWiki wil gebruiken. Er zijn meer dan 300 interface-talen. Als een vermelding/informatie niet in een taal bestaat, worden dingen in het Engels weergegeven.

Terminologische contrasten en vergelijking met wikiWoordenboek

OmegaWiki biedt vertalingen, korte beschrijvingen in verschillende talen en informatie over semantische relaties. In deze kwestie is de aanpak vergelijkbaar met die van Wiktionary. Een belangrijk verschil ligt echter in de onafhankelijkheid van de verschillende taalversies van WikiWoordenboek. In Wiktionary kunnen uitdrukkingen worden uitgelegd/gedefinieerd in de betreffende taal. In OmegaWiki worden vertalingen van conceptdefinities die aan het betreffende concept zijn gekoppeld, opgeslagen.

Het voorbeeld Hamburger

Het voorbeeld van het Duits/Engels "Hamburger" in OmegaWiki is weergegeven in Figuur 6.

Zoals hierboven beschreven, zijn er verschillende pagina's voor elke DM, maar zoals weergegeven in het vak aan de linkerkant, zijn er geen afzonderlijke pagina's voor Duitse "Hamburger" - persoon uit Hamburg en Engelse "Hamburger" - persoon uit Hamburg. Merk ook op dat de titel van het item aan de rechterkant "hamburger" is in plaats van "Hamburger" en het Duitse equivalent verschijnt als een vertaling.

Overzicht

De bovengenoemde projecten WordNet, EuroWordNet, OmegaWiki en Wiktionary verschillen in vrij grote mate van elkaar. Vooral omdat ze deels verschillende doelstellingen nastreven, is het moeilijk te zeggen welke in het algemeen "beter" is dan andere als het gaat om de onderliggende structuren.

Met betrekking tot de bovenstaande hoofdstukken worden enkele van de belangrijkste structurele verschillen tussen de vier woordenboeken geïllustreerd in de onderstaande tabel.

Vergelijking van de verschillende projecten
Systeem Vrij Open Source Doel Aantal talen: Expressies Aantal talen: Definities Vertaling
WordNet ja ja een expressie met alle betekenissen, geclassificeerd in synsets 1 1 --
EuroWordNet nee nee een expressie met alle betekenissen, geclassificeerd in synsets 7 7 interlingual synset-links
Wiktionary ja ja een oppervlakte-vorm met al die expressies met al hun betekenissen 1062 (522 met meer dan 10 vermeldingen) 170 uitleg in resp. taal
OmegaWiki ja ja een betekenis van een expressie (Gedefinieerde betekenis) 469 469 vertaling van concept-definities

Natuurlijk zijn er echter enkele positieve / negatieve aspecten aan elk project, die kunnen worden gezien als de belangrijkste criteria in de structuur van woordenboeken. Deze zullen in dit gedeelte worden beschreven.

Weergave van vertalingen en synoniemen

In de hier besproken projecten zijn er twee verschillende benaderingen van deze kwestie: De ene is het koppelen van taalmateriaal uit verschillende talen aan een (ontologische) entiteit. De andere is om te zorgen voor vertaling en synoniemie tussen betekenissen. Het voordeel van de eerste ligt in het kleinere aantal links - in de tweede benadering zullen er in het ergste geval links van elke taal naar elkaar zijn, wat resulteert in een kwadratische complexiteit. Op deze manier kan echter een fijnere granulariteit van vertalingen en synoniemen worden bereikt, wat resulteert in een waarschijnlijk hogere kwaliteit van informatie die in het woordenboek is opgeslagen. Het kan worden gezien als een belangrijk voordeel van online woordenboeken dat het probleem van de ruimte niet zo relevant is als voor papieren woordenboeken, dus men zou van dit feit kunnen profiteren en kiezen voor de tweede versie van vertaling / synoniemenrepresentatie.

In de bovenstaande projecten gebruikt alleen Wiktionary deze structuur: zowel EuroWordNet als OmegaWiki maken gebruik van abstracte entiteiten die dienen als "ankers" voor het taalkundige materiaal (zie de illustraties van de structuren in de respectieve hoofdstukken) en WordNet dekt in de eerste plaats geen andere talen dan het Engels en dus helemaal geen vertalingen. Wat betreft synonymie verbindt het wel direct tussen de verzamelingen, zonder een beroep te doen op een abstracte entiteit.

Vereiste kennis van vreemde talen en taalspecificiteit van definities

Een van de meest waardevolle factoren van de structuur van WikiWoordenboek is het feit dat om te begrijpen wat het respectieve materiaal in een vreemde taal betekent, men geen hoog begrip van deze taal hoeft te hebben. Dit is duidelijk anders in eentalige woordenboeken zoals bijvoorbeeld WordNet, dat geen interlinguale verbindingen dekt en dus niet in dit opzicht kan worden geëvalueerd. In OmegaWiki kunnen er vertalingen van definities in alle talen zijn, waardoor het meertalig is. De inhoud van de definitie wordt echter vertaald in plaats van taalspecifiek geformuleerd. Het is dus mogelijk dat fijne verschillen in de betekenis in bepaalde gevallen niet representatief zijn. EuroWordNet zorgt ook voor de "definitie" in plaats van taalspecifiek vanwege koppelingen tussen synsets in verschillende talen. Hier kan een "vertaling" echter alleen worden weergegeven als er daadwerkelijk een gelijkwaardige synset in de betreffende taal bestaat. Als dit niet het geval is, is er helemaal geen mogelijkheid om de betekenis van een synset in een andere taal weer te geven - dit kan slechts vaag worden benaderd via de relationele informatie in de respectieve woordnetten. Dit kan echter niet worden gezien als een tekortkoming van de structuur van EuroWordNet, aangezien het beoogde doel is om gelijkwaardige relaties tussen talen weer te geven en niet om vertalingen van materiaal in vreemde talen te geven.

Het doel van een vermelding

Het kan erg handig zijn om verschillende betekenissen van één expressie gezamenlijk weer te geven, bijvoorbeeld in die gevallen waarin een gebruiker iets wil opzoeken en niet helemaal zeker weet waar het naar verwijst, omdat in deze gevallen de korte beschrijving mogelijk niet voldoende is om te beslissen tussen de verschillende betekenissen. Als ze worden verzameld, vermindert dit de handmatige zoekinspanning. Bovendien kan alle informatie die wordt gedeeld tussen de verschillende betekenissen (deze kunnen uitspraak, etymologie, morfologie enz. omvatten) op een effectievere manier worden weergegeven, met gedeelde kenmerken die dienovereenkomstig worden weergegeven. Er is geen echt nadeel van het weergeven van verschillende betekenissen van een expressie gegroepeerd, maar bepaalde voordelen die de structuur duidelijker en beknopter kunnen maken, en de look-up gebruiksvriendelijker. In de lijst van de besproken projecten maken ze allemaal gebruik van deze vermelding-brede verzameling betekenissen met betrekking tot het opzoeken, ook al variëren de representaties - WordNet en EuroWordNet verwijzen ernaar via synsets, OmegaWiki staat een weergave toe van ofwel een DefinedMeaning (één betekenis) of een expressie (met mogelijk verschillende beteknissen) op één pagina en Wiktionary groepeert zelfs verschillende expressies die tot verschillende talen kunnen behoren zolang de oppervlaktevorm identiek is. Aangezien geen van hen de weergave van verzamelde betekenissen per expressie verbiedt als het gaat om het doorzoeken van de database, dient dit niet als een kenmerk van differentiatie tussen EuroWordNet, WordNet, OmegaWiki en Wiktionary, maar moet er rekening mee worden gehouden als het gaat om het structureren van taalkundige Wikidata-vermeldingen (hoewel luciditeit misschien geen hoofdcriterium is omdat de Wiktionaries de Wikidata-informatie zeer efficiënt kunnen verwerken). Alleen WikiWoordenboek biedt echter structurele flexibiliteit met betrekking tot het opslaan van informatie die voor meer dan één betekenis geldt.

Behandeld taalmateriaal

WordNet en EuroWordNet hebben alleen betrekking op woorden of expressies van meerdere woorden uit een beperkt aantal spraakcategorieën. Ze hebben geen betrekking op zinnen, semantisch niet-verwijzend materiaal, spreektaal of verbogen vormen. Wiktionary dekt ze wel en OmegaWiki doet dat gedeeltelijk en zou op zijn minst de mogelijkheid hebben vanwege de onderliggende structuur.

Kenmerken

Wat betreft de mogelijkheden om verschillende soorten taalkundige informatie weer te geven, verschillen de verschillende projecten in sommige opzichten niet in zeer grote mate: er zijn zinnen van voorbeeldgebruik in alle vier, vertalingen (behalve WordNet) en, uiteraard, een vorm van definities. Hetzelfde geldt voor relationele informatie zoals antonymie, hypernymie etc. Informatie over fonologie of morfologie (met name verbuigingsvormen) komt echter niet voor in WordNet of EuroWordNet en ook etymologische informatie wordt slechts in zeer beperkte mate door deze twee en door OmegaWiki gedekt. Van de vier projecten is Wiktionary de enige die deze functie verantwoordt. Mediabestanden kunnen in zowel OmegaWiki als Wiktionary worden opgenomen.

Lemon

Aangezien het citroenmodel misschien een veelbelovend model is voor ons doel, zal de hoofdstructuur binnenkort worden geschetst.

Structuur

Het doel van "lemon" is om een model te bieden voor "het delen van lexicale informatie op het semantische web ". In ons geval kan het nuttig zijn voor de structurering van Wikidata, omdat het een structuur oplegt die precies de juiste hoeveelheid granulariteit biedt die we in het derde voorstel willen vertegenwoordigen, d.w.z. het is taalafhankelijk en maakt onderscheid tussen een oppervlaktevorm van een lexicale vermelding en zijn betekenis, die verwijst naar een ontologie-ingang. In beide relatietypen kunnen meerdere relaties worden weergegeven en kunnen ze ook worden onderverdeeld in "gemeenschappelijke vorm" versus "variant" enz. De verschillende categorieën zijn opgebouwd zoals geïllustreerd in de figuur en zullen afzonderlijk worden uitgelegd.

Lexicon
Een Lexicon bevat alle Lexicale vermeldingen van een bepaalde taal en labelt ze met de bijbehorende taalcode. De verschillende categorieën zijn opgebouwd zoals geïllustreerd in de figuur en zullen afzonderlijk worden uitgelegd.
Lexicale invoer
Een Lexicale vermelding vertegenwoordigt één lexeme, d.w.z. een woord of term met meerdere woorden in een bepaalde taal die een of meer vormen en een of meer betekenissen heeft.
Lexicale vorm
De Lexicale Vorm van een bepaalde Lexicale vermelding wordt beschreven door de schriftelijke weergave ervan. Er kunnen verschillende lexicale vormen van een lexicale vermelding zijn die kunnen worden gecategoriseerd in canonieke vorm - de gebruikelijke geschreven weergave -, andere vorm - die een andere en minder gebruikelijke spelling kan zijn of bijvoorbeeld een verbogen vorm - en abstracte vorm - een niet-realiseerbare vorm, bijvoorbeeld de stam van een woord. Via eigenschappen kunnen alternatieve vormen verder worden beschreven. Een voorbeeld zou kunnen zijn "eigenschap: categorie meervoud". Alternatieve schriftelijke voorstellingen die even gebruikelijk zijn, kunnen dienovereenkomstig worden weergegeven. Het is niet nodig om voor één variant te kiezen.
Lexicale betekenis & Ontologie
De Lexicale betekenis vertegenwoordigt de relatie tussen de lexicale vermelding en de ontologie-ingang, dus naar wat de vermelding verwijst. In het geval van homoniemen of polysemische woorden verwijst één lexicale vermelding naar meer dan één ontologievermelding. Aangezien naar één Ontologie-item ook kan worden verwezen door verschillende Lexicale Items, is er een veel-op-veel-relatie tussen Lexicale betekenissen en ontology vermeldingen.

Andere functies die van waarde kunnen zijn voor onze plannen zijn de mogelijkheid om woorden of termen met meerdere woorden weer te geven als lexicale vermeldingen. Het is ook mogelijk om informatie over de ontleden op te slaan in woorden en morfologische verbindingen. Ook kan het voordelig zijn om eigenschappen aan de relaties te kunnen toewijzen. Het model biedt ook modules voor automatische verbuigingsgeneratie, die op dit moment niet zullen worden behandeld, maar die interessant kunnen zijn zodra het gaat om de beslissing of en hoe automatische informatiegeneratie moet worden behandeld.

Voorbeeld

Het volgende voorbeeld, waarin ook wordt uitgelegd hoe met vertalingen kan worden omgegaan, is afkomstig uit het lemon 'kookboek'.

De linkerkant van de bovenstaande afbeelding toont drie verschillende Lexica (Engels, Duits, Frans), die elk één Lexicale vermelding hebben ("cat: LexicalEntry" in het Engels, "chat: LexicalEntry" in het Frans, "katze: LexicalEntry" in het Duits) en elk van deze vakken verwijst naar een Lexicaal Formulier met de geschreven weergave van de vermelding inclusief het taallabel. Deze relaties dragen de waarde "canonicalForm". Zoals hierboven beschreven, kunnen er ook alternatieve vormen worden weergegeven op verschillende punten in het systeem. Elke wijst ook naar een betekenis en deze betekenissen zijn allemaal met elkaar verbonden en dragen het label "translationOf". Vertaling vindt dus plaats tussen betekenissen. Deze zouden allemaal wijzen op dezelfde Ontologie-vermelding zoals hierboven uitgelegd, maar dat wordt in de figuur niet geïllustreerd.


Voorstel

Er zijn drie belangrijke voorstellen gedaan met betrekking tot de herstructurering/uitbreiding van Wikidata om Wiktionary te ondersteunen.

Oorspronkelijk Voorstel

Het eerste voorstel werd gedaan door Denny Vrandečić en voor het eerst aangekondigd op 19 juni 2013. Het is gebaseerd op de introductie van twee nieuwe entiteitstypen in Wikidata: expressie en betekenis.

Hoewel het typische Wikidata-item een label in elke taal kan hebben (het Engelse label voor Q1749 is "Copenhagen", het Deense label van hetzelfde item is "København" enz.), zou er met betrekking tot een uitdrukking slechts één label zijn. Aangezien in dit voorstel de term (woord of term met meerdere woorden) zelf samen met de taalkundige informatie van belang is, lijkt het duidelijk dat er mogelijk geen vertaalde woordvormen in de verschillende talen zijn wanneer over dezelfde expressie wordt gesproken. Een expressie zelf is afhankelijk van de taal waartoe het behoort, het Engelse woord "Berliner" is een andere expressie dan het Duitse woord "Berliner". De expressie "Berliner" zou dus afhankelijk zijn van de morfologische oppervlaktevorm (en geen ander label hebben – de Franse vertaling Berlinois/e of iets dergelijks).

Deze korte beschrijvingen (zoals "persoon uit Berlijn") worden 'glossen' genoemd. Vandaar dat de uitdrukking "Berliner (Duits)" twee verschillende betekenissen heeft die kunnen worden aangeduid met respectievelijk de glossen "persoon uit Berlijn" en "donut met een zoete vulling". De expressie "Berliner (Engels)" heeft één betekenis, die kan worden aangeduid met de gloss "persoon uit Berlijn". In Wikidata zouden er daarom twee pagina's zijn: "Berliner (Engels)" met de sectie "persoon uit Berlijn" en "Berliner (Duits)" met de secties "persoon uit Berlijn" en "donut met een zoete vulling".

Linguïstische eigenschappen zouden door de gebruikers als verklaringen worden geregistreerd en zowel een expressie als een betekenis kunnen verklaringen hebben. Terwijl in het geval van "Berliner (Duits)" de verklaring met betrekking tot woordafbreking aan de expressie zou worden gehecht, zouden de verklaringen met betrekking tot bijvoorbeeld synonymie of vertaling moeten worden geassocieerd met de overeenkomstige betekenissen. Dit voorstel voorziet niet in zoekaliassen voor verbuigingen. Elke afleidingsterm (meervoudsvormen, verbogen werkwoorden enz.) zal een discrete expressie zijn.

Alternatief Voorstel

Het alternatief voorstel door Gebruiker Micru (David Cuenca) en Gebruiker Francis Tyers diende als reactie op de eerste en werd aangekondigd op 1 juli 2013. Het is gebaseerd op de introductie van twee nieuwe entiteitstypen (gedefinieerde betekenis, binding) en één nieuw gegevenstype (een paradigma).

Een van de belangrijkste verschillen met de eerste versie is de splitsing tussen expressies en hun betekenissen - terwijl in het oorspronkelijke voorstel alle betekenissen van één expressie collectief op één pagina worden vermeld, zal er in het alternatieve voorstel één pagina per betekenis zijn. Volgens een vergelijkbare terminologie zullen deze ook taalafhankelijk zijn (dat wil zeggen: "Berliner (Duits) - persoon uit Berlijn" zal een andere entiteit zijn dan "Berliner (Engels) - persoon uit Berlijn"). Wat in het oorspronkelijke voorstel 'sense' wordt genoemd, wordt in dit voorstel 'gedefinieerde expressie' genoemd, vergelijkbaar met de terminologie in OmegaWiki, hoewel niet helemaal hetzelfde, omdat de OmegaWiki-DM is gebaseerd op een vertaalbare definitie, terwijl in dit voorstel de gedefinieerde expressie in elke taal zijn eigen definitie kan hebben.

Het tweede nieuwe entiteitstype, een binding, vervangt tot op zekere hoogte eigendomskoppelingen, die bepaalde verklaringen vertegenwoordigen als resultaten voor automatische zoekopdrachten, waardoor ze gedeeltelijk automatisch worden opgebouwd. Dit zal gebeuren wanneer een automatische zoekopdracht / gevolgtrekking dit toestaat. Voorbeelden hiervan zijn het automatisch koppelen van exacte vertalingen of exacte synonymie. Aangezien er bepaalde moeilijkheden verbonden zijn aan dit soort gevolgtrekkingen (semantische driften enz.), wordt een onderscheid tussen sterke (bijvoorbeeld exacte meronymie) en zwakke schakels (bijvoorbeeld bijna-synonymie) voorgesteld om deze verschijnselen beter te kunnen behandelen. Paradigma's zijn taalafhankelijke sets regels om automatisch afgeleide vormen te genereren. In dit voorstel dienen deze als aliassen voor de basisvorm van de gedefinieerde expressie (en worden ze optioneel opgeslagen als "verbogen vormen").

Derde Voorstel

 
Fig. 7: Voorbeeld vermelding "Hamburger", Derde voorstel
 
Fig. 8: Voorbeeld vermelding derde voorstel

Het derde voorstel kwam voornamelijk voort uit discussies over het oorspronkelijke en het alternatieve voorstel. Het werd op 2 augustus 2013 naar voren gebracht door Denny Vrandečić. In dit voorstel wordt een iets andere terminologie gebruikt die hieronder wordt geïntroduceerd. De termen sense/betekenis en gloss/korte beschrijving worden echter op dezelfde manier gedefinieerd als in de terminologie.

  • Een lexeem, ook bekend als woord of lexicale vermelding, is wat wordt beschreven op één pagina in het lexicale deel van Wikidata. Een lexeem bestaat uit een lemma, een lexicale categorie, een taal, een verzameling vormen, een verzameling betekenissen en een verzameling verklaringen.
    • Het lemma is de canonieke vorm of woordenboekvorm van het lexeem, bijvoorbeeld voor werkwoorden is dit meestal de infinitiefvorm, voor een zelfstandig naamwoord het nominatief enkelvoud, enz.
    • De lexicale categorie, ook bekend als het deel van de spraak of woordklasse, definieert het lexeem als een zelfstandig naamwoord, of een werkwoord, of een bijvoeglijk naamwoord, enz. De set van mogelijke waarden is open en overgenomen uit de Wikidata items.
    • De taal van een lexeem is ontleend aan Wikidata items, en dus een open verzameling.
    • Een formulier (form) is een specifieke, volledig geconjugeerde of inflexibele vorm van het lexeem. Het bestaat uit een representatie, een verzameling lexicale eigenschappen, en een verzameling verklaringen. Een formulier behoort altijd tot één (en precies één) lexeem.
      • Een representatie is de werkelijke tekenreekswaarde die een gegeven formulier realiseert, bijvoorbeeld de tekenreekswaarde schreef voor de verleden tijd van het lexeem voor schrijven'. Alle representaties worden geïndexeerd voor zoeken. Een Lexicale eigenschap beschrijft bijvoorbeeld tijd of getal voor werkwoorden, naamval voor zelfstandige naamwoorden, enz. Dit is een open verzameling en verwijst naar Wikidata items.
      • Een Lexicale eigenschap beschrijft de vorm, bijvoorbeeld tijd of getal voor werkwoorden, naamval voor zelfstandige naamwoorden, enz. Dit is een open verzameling en verwijst naar Wikidata items.
    • Een betekenis wordt beschreven door een korte beschrijving en heeft een reeks verklaringen. Een betekenis behoort altijd tot één (en precies één) lexeem (en lexemen behoren maar tot één taal). Betekenissen staan niet los van lexemen. Een korte beschrijving (vertaalbaar in alle talen van de Wikidata UI) is van één betekenis van het gegeven lexeem.

De termen Wikidata item, property/eigenschap, string value/waarde, qualifier/kwalificatie, statement/verklaring, en claim zijn overgenomen uit de Wikidata woordenlijst en hebben hier dezelfde betekenis. Zie ook deze woordenlijst.


Enkele van de belangrijkste wijzigingen ten opzichte van de vorige voorstellen zijn de volgende:

De "basiseenheid" is het lexeem. Het is niet de expressie zoals het oorspronkelijke voorstel suggereerde en waarbij elke morfologische vorm een afzonderlijke uitdrukking was en dus een aparte invoerpagina had, noch de betekenis zoals het alternatieve voorstel suggereerde (die slechts een deel van het lexeem kan zijn, in het geval dat het lexeem polysemous/homoniem is), noch de taalonafhankelijke oppervlaktevorm zoals het geval is in Wiktionary.

Betekenissen, vormen en lexemen kunnen verklaringen hebben. Dit verschilt in zoverre van het oorspronkelijke voorstel dat in het oorspronkelijke voorstel een afzonderlijke vermelding voor alle afgeleide formulieren werd geëist. In de derde zijn verbuigingen "alternatieve vormen" die uitspraken los van hun lemma kunnen maar niet hoeven te hebben. Terwijl het alternatieve voorstel verklaringen op betekenis niveau voorstelde (en afhankelijk van de implementatie van verbuigingsverklaringen op alle of geen verbogen vormen), is het in het derde voorstel mogelijk om te beslissen waar een verklaring het nuttigst is. Op deze manier kunnen alle noodzakelijke differentiaties nog steeds worden getrokken, maar kan gedeelde informatie minder redundant worden opgeslagen.

Verbuigingen worden behandeld als aliassen voor zoeken en hoeven geen aparte vermelding te hebben. Dit is vergelijkbaar met het alternatieve voorstel. In de derde worden beslissingen over wat automatisch kan worden berekend - bijvoorbeeld via paradigma's - echter uitgesteld tot een stadium waarin er voldoende taalkundige gegevens in Wikidata zijn voor een meer gedetailleerde discussie over deze kwestie. Figuur 8 toont de voorbeeldvermelding, overgenomen uit het voorstel, met meer details dan het meer schematische "Hamburger"-voorbeeld.

Het voorbeeld Hamburger

Het "Hamburger"-voorbeeld zou in dit geval worden weergegeven als in Figuur 7.

Overzicht

De tabel toont een vergelijking van enkele details van de drie voorstellen.

Vergelijking van de Wiktionary/Wikidata-voorstellen
Voorstel Doel Buiging verwerking Verklaringen Opslag in Wikidata
Initiële één uitdrukking; elke morfologische vorm afzonderlijk eigen ingang voor elke buiging mogelijk bij zowel expressie als betekenis via verklaringen
een ebtekenis van een expressie aliassen van basisvorm; opslag als verbuiging geraakt door betekenis via bindingen
Derde lexeem met alle betekenissen geraakt aan lexeem via form; kan eigen verklaring hebben mogelijk bij lexeem, betekenis en vorm via verklaringen


Verdere Wikidata-Terminologie

Het volgende is een bewerkte vorm uit de Wikidata woordenlijst.

claim
Een claim is een aantal gegevens over de entiteit op wiens pagina de claim wordt weergegeven. Een claim bestaat uit een eigenschap (zoals "Locatie") en een waarde (bijvoorbeeld "Duitsland"), of een andere relatie of samengestelde of ontbrekende waarde. Een claim kan kwalificaties hebben, zoals tijdelijke kwalificaties die zeggen dat de claim geldig is binnen een bepaald tijdsbestek. Vergeleken met de drieling die in gekoppelde gegevens wordt gebruikt, gebruikt een claim een eigenschap om het predicaat van een triplet uit te drukken en een waarde om het object van een triplet uit te drukken. Claims maken deel uit van overzichten op artikelpagina's.
item
Een Wikidata-item is een pagina in de hoofdnaamruimte van Wikidata die het onderwerp, concept of onderwerp van een echt item vertegenwoordigt. Items worden geïdentificeerd door een id met voorvoegsel, of door een sitelink naar een externe pagina, of door een unieke combinatie van meertalig label en beschrijving. Items kunnen ook aliassen hebben om het opzoeken te vergemakkelijken. Het belangrijkste gegevensgedeelte van een item is de lijst met uitspraken over het item. Een item kan worden gezien als het onderwerp-deel van een triplet in gelinkte data.
eigenschap
Een Wikidata-eigenschap (in sommige talen vertaald naar property/attribuut) is de descriptor voor een gegevenswaarde, of een andere relatie of samengestelde of mogelijk ontbrekende waarde, maar niet de gegevenswaarde of -waarden zelf. Elke verklaring op een itempagina is gekoppeld aan een eigenschap en wijst aan de eigenschap een of meer waarden toe, of een andere relatie of samengestelde of mogelijk ontbrekende waarde.
kwalificatie
Een kwalificatie (qualifier) is een onderdeel van de claim dat iets zegt over de specifieke claim, vaak op een beschrijvende manier. Het kan een term zijn volgens een specifieke woordenschat, maar kan ook een variant beschrijvende zin zijn.
verklaring
Een verklaring zijn gegevens over een item, vastgelegd op de pagina van het item. Een verklaring bestaat uit een claim (een eigenschap-waardepaar zoals "Locatie: Duitsland", samen met optionele kwalificaties), aangevuld met optionele verwijzingen (met de bron voor de claim) en een optionele rang (gebruikt om onderscheid te maken tussen verschillende claims die dezelfde eigenschap bevatten). Wikidata doet geen aannames over de juistheid van verklaringen, maar verzamelt en rapporteert ze alleen met een verwijzing naar een bron.
string / tekenreeks
Een tekenreeks is een algemene term voor een reeks vrij gekozen tekens die worden geïnterpreteerd als tekst (bijv. "Hallo") — in tegenstelling tot een gegevens die worden geïnterpreteerd als een numerieke waarde (3.14), een koppeling naar een item (bijv. Q1234) of een complexer gegevenstype (de verzameling {1,3,5,7}). Wikidata zal naast een string datatype taalspecifieke teksten ondersteunen; "eentalige-tekst" en "meertalige-tekst" als de waarde van een eigenschap.

Referenties

  1. http://en.wiktionary.org/wiki/Wiktionary:Statistics
  2. http://meta.wikimedia.org/wiki/Wiktionary/Table