Wikidata:Données lexicographiques/Développement/Proposition/2014-10
Introduction
Il y a essentiellement 3 moyens d'obtenir un mot (lexème) :
- la représentation écrite
- la prononciation (articulation)
- la signification (sens)
Ces relations forment la base de nombre de ressources :
- 'dictionnaire (représentation – sens)
- dictionnaire inverse (sens – représentation)
- thésaurus (représentation – sens – représentation)
- dictionnaire de rimes (représentation – articulation – représentation)
Proposition
Fondée sur ces relations et fortement inspirée d'une proposition initiée par Denny, je propose le modèle de données suivant pour le Wiktionnaire :
Modèle de données
Ce modèle de données implique l'ajout de cinq nouvelles entités et de cinq nouvelles propriétés, classées suivant la hiérarchie suivante :
- lexème (L)
- langue
- catégorie lexicale
- sens (S)
- glose
- forme (F)
- catégorie grammaticale
- articulation (A)
- représentation (R)
- alphabet
Les termes sont définis ci-dessous.
Entités
- Un lexème représente le concept abstrait d'un mot.
- Un sens représente la connotation abstraite distincte d'un mot qui donne au mot sa signification.
- Une forme représente le concept abstrait d'un mot dans un contexte particulier.
- Une articulation représente la séquance abstraite d'un son qui fabrique un mot.
- Une représentation est un caractère ou une suite de caractères qui encode discrètement un mot dans une écriture.
Un lexème a une ou plusieurs formes et à un sens ou plus. Un forme a une ou plusieurs prononciations et une représentation ou plus.
Propriétés
- Une langue est un système complexe de communication qui véhicule la signification vua l'utilisation d'une grammaire qui suit des règles.
- Une catégorie lexicale est ...
- Une glose est ...
- Une catégorie grammaticale est ...
- Un alphabet est un ensemble organisé de caractères utilisé par un système d'écriture pour stocker et véhiculer de l'information.
Notes
- Les variantes orthographiques et les translittérations' dans d'autres alphabets sont gérés simplement par une autre représentation associée avec une forme particulière. Elles sont traités de manière similaire et peuvent toutes les deux être indexées pour des recherche/
- Les 'traductions sont gérées via les sens. N'importe quel sens sera associé avec un ou plusieurs lexèmes (qui a une langue) et chaque glose peut librement être traduit dans n'importe quelle langue de Wikidata.
- La relation entre un lexème et un élément (Q) est orthogonal à cette proposition et peut être décidé à une date ultérieure.
Exemple
- lexème :: L100
- sense :: S105
- glose (en) : A type of knot with two loops, used to tie together two cords such as shoelaces or apron strings, and frequently used as decoration, such as in gift-wrapping.
- glose (de) : Ein besonderer Knoten mit zwei Bögen.
- form :: F100
- articulation :: A100
- API : /boʊ/
- X-SAMPA : /boU/
- « phonetic respelling » : bō
- articulation :: A101
- API : /bəʊ/
- X-SAMPA : /b@U/
- « phonetic respelling » : bō
- représentation :: bow (R100)
- alphabet → alphabet latin (Q8229)
- représentation :: bough (R101)
- alphabet → alphabet latin (Q8229)
Mise en œuvre
Des portions de cette proposition font plus consensus que d'autres, donc elles devraient (parce qu'elles peuvent) être implémentées en phases pour faciliter les discussions futures sur les aspects les plus controversés.
Phase 0 : les liens interwiki
Le gain le plus simple et le plus immédiat peut être obtenu par la transformation du Wiktionnaire au format Wikidata vient de l'effet de levier du modèle de données existant que le Wiktionnaire utilise à son niveau le plus basique.
Chaque Wiktionnaire localisé a des pages dont les noms sont fondées sur une représentation. Ainsi, la phase 0 est simplement l'import de l'ensemble combiné des pages (de l'espace de nom principal) de tous les Wiktionnaires.
Cela peut ensuite être utilisé pour remplir n'importe quel blanc dans les liens interwiki, donnant une seule localisation centralisée pour les liens interwikis.
Modèle de données
- représentation (R)
- alphabet
Phase 1 : lexiques
Cette phase nécessite d'analyser les pages existantes pour quelques informations basiques. Cela apparait être un consensus clair sur le modèle de données désiré, mais extraire les données prendra du temps.
La structure existante du Wiktionnaire a une langue en tant que niveau suivant de hiérarchie sous représentation, avec lexème étant déterminé par un découpage sur l'étymologie et ensuite la catégorie lexicale. Pour la plupart des cas, les formes et les catégories grammaticales sont seulement différencier par le sens ou les tableaux de conjugaison.
Modèle de données
- lexème (L)
- langue
- catégorie lexicale
- forme (F)
- catégorie grammaticale
- représentation (R)
- alphabet
Phase 2 : Guides de prononciation
Davantage de discussions doivent avoir lieu pour trouver un consensus sur l'articulation.
Phase 3 : Dictionnaires
Davantage de discussions doivent avoir lieu pour trouver un consensus sur les gloses.
Phase 4 : Thésaurus
Davantage de discussions doivent avoir lieu pour trouver un consensus sur les sens.
Voir aussi
Wiktionnaire
Wikipédia
- w:fr:Dictionnaire
- w:fr:Lexème (linguistique)
- w:fr:Langage
- w:fr:Grammaire
- w:fr:Nature (grammaire) (catégorie lexicale)
- w:Word sense (en anglais)
- w:fr:Glose
- w:fr:Mot
- w:Grammatical category (en anglais)
- w:Articulatory gestures (en anglais) (articulation)
- w:fr:Prononciation
- w:Spelling (en anglais) (representation)
- w:fr:Système d'écriture (alphabet)
- w:Character (symbol) (en anglais)