Wikidata:Données lexicographiques/Développement/Proposition/2013-07

This page is a translated version of the page Wikidata:Lexicographical data/Development/Proposals/2013-07 and the translation is 100% complete.
C'était une proposition alternative à la proposition de juin 2013.

La proposition de juin 2013 est un bon point de départ, cependant elle nécessite certaines modifications pour éviter les mêmes problèmes qu'a OmegaWiki, comme mis en lumière par les commentaires de la proposition précédente, et laisse les communautés Wiktionnaire prospérer dans leur propre environnement linguistique.

Hypothèses

  • Les utilisateurs maitrisent un ou quelques langues et il n’y a pas besoin d’une langue commune
  • Quelques équivalences entre la signification/le sens des mots peut avoir lieu, mais ce n’est pas nécessaire
  • Un « sens » seul peut avoir plus d'une traduction, tandis que plusieurs sens peuvent avoir la même traduction. Exemple : « estació balneària » = « bainuetxea »; « estació d’esquí» = « eski estazioa »
  • Une expression forme un tout avec sa signification et il est possible de les agglomérer
  • Une signification/Un sens de mot dans une langue peut ne pas avoir de traduction unique dans une autre langue : « oposició », « laufabrauð »
  • Il n’y a pas de solution parfaite, le temps des contributeurs est limité et — dans un environnement libre/open source — les solutions peuvent être améliorées itérativement.

Proposition technique

Deux sortes de types d'entités (expression définie et liaison) et un nouveau type de données (paradigme)

  • une expression définie est un élément par langue et par signification qui contient des liens vers d'autres expressions définies (apparentée, synonyme, etc) dans la même langue ou des langues différentes (équivalent exact, correspondance proche, équivalent culture, etc). Il pourrait également contenir des mots-clés, des domaines et la prononciation. La définition et l'étymologie pourrait être dans d'autres langues.
  • une liaison est un élément-requête généré automatiquement ou manuellement fondée sur les liens entre les expressions définies, les mots-clés, les domaines, etc pour une expression définie donnée. Les « liaisons fortes » sont grandement apparentées dans une même langue ou des langues différentes. Les « liaisons faibles » sont apparentées via le sens ou la morphologie du mot dans la même langue ou des langues différentes.
  • le type de données paradigme est un ensemble de règles pour générer des dérivées d'expressions définies. Les flexions, déclinaisons, conjugaisons, etc sont toutes différents types de paradigme.

Ce que l'on s'attend à ce que les utilisateurs fassent :

  • Maintenir leur dictionnaire dans leur propre langue (pas besoin de connaitre les autres langues)
  • Lier aux langues qu'ils connaissent (pas besoin d'ajouter des liens aux langues qu'ils ne connaissent pas)

Ce que les utilisateurs recevraient :

  • Un dictionnaire sémantique dans leur propre langue, avec une structure propre pour les flexions
  • Des équivalents multi-langues automatiquement maintenus (lorsque possible) avec une intervention humaine minimale

Exemples d'expression définie

Un exemple de la conversation du Wiktionnaire anglophone white whale

Structure interne sur Wikidata

  • Expression définie 1 (W111):
    • libellé (le même pour toutes les langues, peut avoir des translittérations comme les alias) : white whale
    • description [eng]: animal (<-c'est équivalent aux gloses)
    • description [isl]: dýr
    • <définition>[eng] (chaîne de caractères multilingue formatée) : A cetacean, Delphinapterus leucas, found in the Arctic Ocean.
    • <définition>[cat] : Un cetaci, Delphinapterus leucas, que viu a l’Oceà Àrtic.
    • <étymologie>[eng] (chaîne de caractères multilingue formatée) : From white +‎ whale.
    • <traduction directe>[spa]: balena blanca (W0055)
    • <traduction directe>[nld]: valgevaal (W888)
    • <représente le concept> beluga whale (Q132072)
  • Expression définie 2 (W222):
    • libellé : white whale
    • description [eng] : obsession
    • <sens figuré de> : white whale (W111)
    • <étymologie>[eng] (chaîne de caractères multilingue formatée) : reference to Herman Melville's 1851 novel Moby-Dick.
    • <même définition que> : obsession (W7787)
  • Expression définie 3 (W333)
    • libellé : white whale
    • description [en]: printing plate
    • <définition>[en] (chaîne de caractères multilingue formatée) : A printing plate, used to manufacture a particular sports card, that is then issued as a collectible itself.
    • <domaine> cartes à collectionner (W0987) (<-ce pourrait être des éléments Q à la place)
    • <domaine> manufacture (W8690)

Notes sur ces exemples :

  • l'expression définie 2 (W222) n'a pas de définition parce qu'elle l'a prend depuis un autre élément (transclusion) et en même temps forme une liaison forte avec W7787.
  • W111 a uniquement quelques traductions, et il lie également au concept qu'il représente (élément Q) ce qui peut être utilisé comme un répartiteur liant pour les concepts multilingues bien établis. Il se peut que les autres expressions définies pointent vers W111 en tant que traduction ou que W111 pointe vers les autres expressions définies qui ne sont pas liées à l'élément Q. Les relations ne seront pas parfaites et c'est bon, elles seront créées comme convenu et améliorées au fil du temps.
  • chaque fois qu'un élément d'expression définie est créé, un élément liaison correspondant est automatiquement associé avec lui. Cet élément liaison contient plusieurs requêtes générées automatiquement qui peuvent être modifiées manuellement.
  • des requêtes du domaine Wiktionnaire générées par l'utilisateur, comme « mots du domaine de la manufacture relié aux animaux » ou « taille reliée à la terminologie », peuvent être associées avec l'élément liaison soit manuellement soit automatiquement.
  • user generated Wiktionary-domain queries, like "manufacturing domain words related to animals", or "size related terminology", can be associated with the bond item either manually or automatically..

Exemples de liaison

Les éléments liaison sont une collection de requêtes asspcoées avec un élément d'expression définie. La première requête contenue dans l'élément liaison est pour les expressions définies avec une morphologie identique ou similaire. La seconde requête est pour les sens apparentés de cette expression définie particulière dans la même langue. Et la troisième est pour les relations avec les autres langues. [Il peut y en avoir une quatrième pour les ressemblances phonétiques ou les rimes mais ce n'est pas nécessaire à la première étape] Par exemple B222, l'élément liaison généré automatiquement avec W222 (white whale - obsession), auraient ces parties :

  • morphologie
    • liaison forte : W111, et W333
    • liaison faible : « white » (B99), « whale » (B45)
  • signification dans la même langue
    • liaison forte : obsession-2 (W7787), monomania-2 (W768)
    • liaison faible : compulsion (W934), fixation (W345), attention-related manias (B75302)
  • signification multilingues
    • liaison forte : (ca) (équivalent culturel) fal·lera (W3445)
    • liaison faible : (it) ossessione (W3444), (fr) obsession, etc.

Notes sur ces exemples :

  • il y a uniquement un exemple. Les liaisons fortes peut aussi inclure des sous-catégories comme les antonymes, etc
  • bien que « monomania-2 » apparaisse sur cet exemple, c'est juste pour indiquer qu'il est une définition particulière d'une monomanie. En réalité le « libellé » associé avec « monomania » devrait apparaitre soit en exposant ou au survol de la souris.
  • La page « white whale » du Wiktionnaire anglophone est équivalent à « montre toutes les liaisons fortes de morphologies pour « white whale » », cependant dans le Wiktionnaire la présentation sera différent et une interface utilisateur élaborée sera nécessaire de sorte que l'utilisateur n'ait pas à interagir avec Wikidata.

Exemples de paradigme

Le type de données paradigme est un ensemble de règles pour générer les formes dérivées d'une expression définie. En pratique il sera appelé par un module Lua qui générera les formes. Exemple :

  • <nom de la troisième déclinaison en grec ancien> παράδειγμα|παραδείγμα|τ|παραδειγμά

Sera considéré comme un appel au module Lua associé avec la propriété <nom de la troisième déclinaison en grec ancien> passée en paramètre de la chaîne de texte. Cela générera toutes les flexions pour le nom comme indiqué dans ce tableau :

Chaque langue aura son propre ensemble de paradigmes pour générer les formes verbales, les pluriels, etc. Certaines d'entre elles auront des conditions pour les formes irrégulières et il sera possible de les générer entièrement manuellement si elles ne peuvent être générées automatiquement (c'est-à-dire que le module Lua peut juste sortir les mêmes paramètres d'entrée).

Ces formes générées seront utilisées comme alias pour l'expression définie et s'afficheront dans les recherches et les liaisons. De manière optionnelle, ces flexions générées par des scripts pourraient être stockées dans la base de données en tant que « formes fléchies » (éléments I).

Expérience utilisateur sur le Wiktionnaire

Du point de vue de l'utilisateur, lorsque l'on parcourt le Wiktionnaire :

  • la structure des pages serait plus ou moins la même que maintenant sur le Wiktionnaire, peut-être même plus clair (page du mot > langue(s) > définition(s) > mots apparentés / traductions (pour chaque définition))
  • les liens interiki seront automatiques, mais le système pour les générer sera différent de Wikiépdia. Le lien interwiki sera créé automatiquement et lié dès qu'il existera une information pertinente sur le mot pour qu'il soit affiché dans une langue.
  • il sera possible d'afficher de l'information dans plus d'une langue, donc si il n'y a pas de définition dans la langue de l'utilisateur, mais que l'information existe dans une autre langue que l'utilisateur connait, elle sera affiché dans cette langue.

Lors de l'ajout de nouvelles définitions au Wiktionnaire :

  • une forme fondée et avec un système flexible de propriétés similaire à Wikidata
  • possibilité de partager des définitions ou des étymologies d'autres mots (transclusion)
  • possibilité d'établir des relations avec des significations spécifiques d'autres mots en utilisant les propriétés. La description sera utilisée pour désambiguïser (même chose qu'actuellement dans Wikidata lorsque l'on connecte une propriété avec un élément qui a le même nom que d'autres).

Lors de l'ajout de traductions au Wiktionnaire :

  • deux moyens possibles de le faire : (1) connecter avec l'élément Q importera les traductions connectées avec cet élément à partir des autres langues, (2) indiquer directement le mot et désambiguïser la signification (ici avoir certaines connaissances de la langue cible pourrait être utile).
  • les traductions ajoutées se répandront dans le système et apparaitront dans tous les Wiktionnaires concernés.

Lors de l'ajout de flexions :

  • les utilisateurs avancés créeront les modules qui génèrent les modèles de flexions (paradigmes). L'effet est le même que les modèles pour générer les flexions, mais ce type de module sera réutiliser (par exemple lorsqu'on affichera une information sur un mot grec dans le Wiktionnaire russophone, ou ce même mot grec dans le Wiktionnaire sinophone).
  • dans certains cas il sera possible d'utiliser une propriété < même flexion de pluriel que > « mot »

En quoi est-ce différent d'OmegaWiki

OmegaWiki a une structure rigide où les utilisateurs doivent lier des mots avec des significations. Ce n'est pas pratique parce que parfois les significations soit (a) ne sont pas traduites dans la langue de l'utilisateur, ou (b) il n'existe pas de signification équivalente directe à laquelle les lier. Dans le système proposé, il n'y a pas de structure, chaque mot dans chaque langue pour chaque signification a une entité en tant que telle. Le système crée la structure en fonction de combien d'informations les utilisateurs apportent (connexions avec d'autres mots en utilisant des propriétés) ou parfois réutilisation des concepts de Wikipédia (élément Q) pour agir comme dépôt central peut être vue comme adapté.

À propos de cette proposition

Cette proposition a été préparée par Francis Tyers et Micru comme une alternative à la proposition de juin 2013.