Wikidata:Données lexicographiques/Développement/Proposition/2014-10

This page is a translated version of the page Wikidata:Lexicographical data/Development/Proposals/2014-10 and the translation is 100% complete.

Introduction

Il y a essentiellement 3 moyens d'obtenir un mot (lexème) :

la représentation écrite
la prononciation (articulation)
la signification (sens)

Ces relations forment la base de nombre de ressources :

'dictionnaire (représentation – sens)
dictionnaire inverse (sens – représentation)
thésaurus (représentation – sens – représentation)
dictionnaire de rimes (représentation – articulation – représentation)

Proposition

Fondée sur ces relations et fortement inspirée d'une proposition initiée par Denny, je propose le modèle de données suivant pour le Wiktionnaire :

Modèle de données

Ce modèle de données implique l'ajout de cinq nouvelles entités et de cinq nouvelles propriétés, classées suivant la hiérarchie suivante :

lexème (L)
- langue
- catégorie lexicale
- sens (S)
  - glose
- forme (F)
  - catégorie grammaticale
  - articulation (A)
  - représentation (R)
    - alphabet

Les termes sont définis ci-dessous.

Entités

Un lexème représente le concept abstrait d'un mot.
Un sens représente la connotation abstraite distincte d'un mot qui donne au mot sa signification.
Une forme représente le concept abstrait d'un mot dans un contexte particulier.
Une articulation représente la séquance abstraite d'un son qui fabrique un mot.
Une représentation est un caractère ou une suite de caractères qui encode discrètement un mot dans une écriture.

Un lexème a une ou plusieurs formes et à un sens ou plus. Un forme a une ou plusieurs prononciations et une représentation ou plus.

Propriétés

Une langue est un système complexe de communication qui véhicule la signification vua l'utilisation d'une grammaire qui suit des règles.
Une catégorie lexicale est ...
Une glose est ...
Une catégorie grammaticale est ...
Un alphabet est un ensemble organisé de caractères utilisé par un système d'écriture pour stocker et véhiculer de l'information.

Notes

Les variantes orthographiques et les translittérations' dans d'autres alphabets sont gérés simplement par une autre représentation associée avec une forme particulière. Elles sont traités de manière similaire et peuvent toutes les deux être indexées pour des recherche/
Les 'traductions sont gérées via les sens. N'importe quel sens sera associé avec un ou plusieurs lexèmes (qui a une langue) et chaque glose peut librement être traduit dans n'importe quelle langue de Wikidata.
La relation entre un lexème et un élément (Q) est orthogonal à cette proposition et peut être décidé à une date ultérieure.

Exemple

lexème :: L100
- langue → anglais (Q1860)
- catégorie lexicale → nom (Q1084)
- sens → A type of knot with two loops, used to tie together two cords such as shoelaces or apron strings, and frequently used as decoration, such as in gift-wrapping. (S105)
- forme (singulier) → bow (F100)
- forme (pluriel) → bows (F101)

sense :: S105
- glose (en) : A type of knot with two loops, used to tie together two cords such as shoelaces or apron strings, and frequently used as decoration, such as in gift-wrapping.
- glose (de) : Ein besonderer Knoten mit zwei Bögen.

form :: F100
- catégorie grammaticale → singulier (Q110786)
- articulation (en-US) → /boʊ/ (A100)
- articulation (en-GB) → /bəʊ/ (A101)
- représentation → bow (R100)

articulation :: A100
- API : /boʊ/
- X-SAMPA : /boU/
- « phonetic respelling » : bō

articulation :: A101
- API : /bəʊ/
- X-SAMPA : /b@U/
- « phonetic respelling » : bō

représentation :: bow (R100)
- alphabet → alphabet latin (Q8229)

représentation :: bough (R101)
- alphabet → alphabet latin (Q8229)

Mise en œuvre

Des portions de cette proposition font plus consensus que d'autres, donc elles devraient (parce qu'elles peuvent) être implémentées en phases pour faciliter les discussions futures sur les aspects les plus controversés.

Phase 0 : les liens interwiki

Le gain le plus simple et le plus immédiat peut être obtenu par la transformation du Wiktionnaire au format Wikidata vient de l'effet de levier du modèle de données existant que le Wiktionnaire utilise à son niveau le plus basique.

Chaque Wiktionnaire localisé a des pages dont les noms sont fondées sur une représentation. Ainsi, la phase 0 est simplement l'import de l'ensemble combiné des pages (de l'espace de nom principal) de tous les Wiktionnaires.

Cela peut ensuite être utilisé pour remplir n'importe quel blanc dans les liens interwiki, donnant une seule localisation centralisée pour les liens interwikis.

Modèle de données

représentation (R)
- alphabet

Phase 1 : lexiques

Cette phase nécessite d'analyser les pages existantes pour quelques informations basiques. Cela apparait être un consensus clair sur le modèle de données désiré, mais extraire les données prendra du temps.

La structure existante du Wiktionnaire a une langue en tant que niveau suivant de hiérarchie sous représentation, avec lexème étant déterminé par un découpage sur l'étymologie et ensuite la catégorie lexicale. Pour la plupart des cas, les formes et les catégories grammaticales sont seulement différencier par le sens ou les tableaux de conjugaison.

Modèle de données

lexème (L)
- langue
- catégorie lexicale
- forme (F)
  - catégorie grammaticale
  - représentation (R)
    - alphabet

Phase 2 : Guides de prononciation

Davantage de discussions doivent avoir lieu pour trouver un consensus sur l'articulation.

Phase 3 : Dictionnaires

Davantage de discussions doivent avoir lieu pour trouver un consensus sur les gloses.

Phase 4 : Thésaurus

Davantage de discussions doivent avoir lieu pour trouver un consensus sur les sens.

Voir aussi

Wiktionnaire

wikt:fr:Wiktionnaire:Structure des pages

Wikipédia

w:fr:Dictionnaire
w:fr:Lexème (linguistique)
w:fr:Langage
w:fr:Grammaire
w:fr:Nature (grammaire) (catégorie lexicale)
w:Word sense (en anglais)
w:fr:Glose
w:fr:Mot
w:Grammatical category (en anglais)
w:Articulatory gestures (en anglais) (articulation)
w:fr:Prononciation
w:Spelling (en anglais) (representation)
w:fr:Système d'écriture (alphabet)
w:Character (symbol) (en anglais)