Wikidata talk:Lexicographical data/Documentation/Languages/fr

Lexèmes fr et identifiants edit

Bonjour,

Je notifie les personnes les plus actives sur les lexèmes en français (en espérant n'oublier personne, n'hésitez pas à le dire dans le cas contraire, j'ai utilisé cette requête SQL) : @Jsamwrites, Jura1, EnvlhBot, Envlh, Eihel, C. Erwan:

Envlh est actuellement en train d'aligner les lexèmes existant en français. Il a produit deux listes de rapport d'erreurs :

Le problème peut venir de plusieurs choses :

  • le lexème est valide mais juste absent du TLFi ou du Robert en ligne (par exemple des mots rares comme abécédairement (L25029) j'ai ajouté une autre source pour attester que le mot existe bien)
  • le lexème est valide mais correspond à plusieurs entrées du TLFi ou du Robert en ligne, là selon le cas, il faut soit ajouter les deux identifiants sur le même lexème, soit scinder le lexème en deux et y mettre chaque identifiant (la distinction entre les deux cas n'étant pas toujours claire d'ailleurs, tour (L2330), tour (L2332) et tour (L2331) sont évidemment au moins deux ou trois lexèmes différents mais la question se pose pour accident (L18879) est-ce un lexème comme le dit le Robert ou deux comme le dit le TLFi ? doit-on faire au plus "granulaire" et scinder dès qu'une source fait la distinction ?)
  • plus rare, le lexème est valide mais le lien est invalide (c'est souvent le cas pour le TLFi, par exemple poisson (L11978) doit pointer vers https://www.cnrtl.fr/definition/poisson/0 et non vers https://www.cnrtl.fr/definition/poisson )
  • enfin, parfois le lexème est invalide (erreur de langue, de catégorie lexicale, etc.), il faut alors le corriger

Je pense avoir résumé la situation mais n'hésitez pas à signaler la moindre question ou remarque. Je suis aussi disponible pour la moindre question.

Cdlt, VIGNERON (talk) 12:58, 26 February 2022 (UTC)Reply

Merci ! Je me permets de notifier @Hsarrazin: qui a aussi beaucoup travaillé sur les lexèmes :) — Envlh (talk) 13:05, 26 February 2022 (UTC)Reply
J'ai vu pas mal de Gentilés apparaitre dans * User:EnvlhBot/Reports/P10338 pour identifiant Dico en ligne Le Robert (P10338).
Pour exemple Niçois https://www.wikidata.org/wiki/Lexeme:L592147 renvoi vers https://dictionnaire.lerobert.com/definition/nicois.
Il faut le rajouter sur le lexème ? si oui comment ?
J'ai beau avoir fait une grosse contribution sur les gentilés, je reste encore débutant ^^ C. Erwan (talk) 08:00, 28 February 2022 (UTC)Reply
Ooups désolé @C. Erwan: je ne vois ton message qu maintenant, oui il faut ajouter le Robert et le TLFi sur Niçois (L592147), je viens de le faire en exemple. N'hésite pas à regarder et à t'en inspirer. Cdlt, VIGNERON (talk) 09:08, 19 July 2022 (UTC)Reply

Mise à jour de la documentation edit

Après l'avoir ébauché l'an dernier, je viens finalement de l'étoffer un peu lors des Data Quality Days il y a 10 jours. Le travail n'est évidemment pas terminé et il y a des points spécifiques qui mériteraient de longues discussions (même si l'idée de cette page c'est surtout de donner des directions générales) mais je souhaiterais déjà le soumettre à votre relecture pour avoir vos retours, remarques, commentaires, etc. Je notifie les 10 personnes avec le plus d'édition sur les lexèmes en français @Jsamwrites, Jura1, Envlh, Eihel, C. Erwan, Hsarrazin: @Mahirtwofivesix, Sebleouf, Pamputt, Metamorforme42: qu'en pensez-vous ?

Cdlt, VIGNERON (talk) 13:48, 19 July 2022 (UTC)Reply

Verbes edit

Bonjour. Je travaille sur l'import des conjugaisons des verbes en français (voir la demande d'autorisation de bot correspondante). Après discussion avec VIGNERON, voici ce que je propose comme normalisation dans le cas général (entre parenthèses le nombre de formes) :

Avec :

Cela donne 51 formes. Certains verbes peuvent avoir moins de formes (exemple : pleuvoir (L1917)), d'autres plus (cas des verbes dont l'orthographe a évolué avec la réforme orthographic corrections of French in 1990 (Q486561)).

Les temps composés ne seraient pas renseignés (vu qu'il sont combinaison évidente de la conjugaison de l'auxiliaire et du participe passé).

Les caractéristiques grammaticales seraient renseignées avec les éléments atomiques correspondants aux traits grammaticaux de la conjugaison :

Une question est de savoir si on sépare present participle (Q10345583) en participle (Q814722) et present tense (Q192613).

Si ça convient, je mettrai à jour la documentation dans ce sens. Bonne soirée. — Envlh (talk) 20:42, 31 July 2022 (UTC)Reply

Bonsoir. J'ai importé les formes de la majeure partie des verbes du premier et du deuxième groupes dans Wikidata. J'ai aussi mis à jour la section Verbe de la documentation. N'hésitez pas à commenter ! — Envlh (talk) 18:08, 14 August 2022 (UTC)Reply
Merci Envlh et surtout merci pour la mise à jour de la page de documentation.
Je notifie @Jsamwrites, Jura1, Eihel, C. Erwan, Hsarrazin: @Mahirtwofivesix, Sebleouf, Pamputt, Metamorforme42: pour avoir plus d'avis et pour avoir de l'aide sur les deux verbes effeuillir (L21096) et invalid ID (L458171). Le premier ne me semble pas exister en français, je propose de remplacer la langue par "ancien français" (sans doute la même chose pour le second).
Cdlt, VIGNERON (talk) 18:49, 14 August 2022 (UTC)Reply
À mon avis, c'est une bonne idée. Nous disposons de certains « items »  liés à ces derniers, mais nous ne les utilisons pas:
Deux exemples (anglais):
1.     Hath : have (L1885)
2.     Thou : thou (L18745)
Dans les deux exemples, nous utilisons l'item Q1860 (anglais) et utilisons l'item Q181970 ou "archaic" pour préciser l'ancien usage. Mais je préfère l'utilisation de Old English (Q42365). John Samuel (talk) 19:40, 14 August 2022 (UTC)Reply
@Jsamwrites: oui, nous n'avons pour le moment que 172 lexèmes en ancien et moyen français : https://w.wiki/5aFv mais ce n'est pas étonnant car ce sont des langues complexes (forte variations des formes, déclinaisons, etc.). Mais effectivement, un jour ou l'autre, il faudra s'occuper de cela. Attention aussi à ne pas confondre, ancien français (fro), moyen français (fr) et archaïsme en français moderne (fr). Par exemple, « les enfans » malgré son apparence est bien du française moderne (fr) même si la forme est archaïque depuis la Q3454773. Cdlt, VIGNERON (talk) 08:42, 15 August 2022 (UTC)Reply
il est clair qu'une orthographe utilisée jusqu'à la fin du 19e siècle (voir la s:fr:Revue des Deux Mondes) est clairement du français moderne... :D Hsarrazin (talk) 11:50, 21 August 2022 (UTC)Reply
J’ai quelques questions (comme je ne m’y connais pas beaucoup en linguistique, elles ne sont peut-être pas toutes pertinentes, voire ont déjà été abordées) :
  • Quid des verbes qui existaient en ancien français et qui existent toujours en français moderne (que ce soit avec ou sans modification de forme) : doit-on créer deux lexèmes dans les deux langues et les lier avec derived from lexeme (P5191) (ça collerait à la manière de faire du wiktionnaire, cf. avoir) ?
  • Comment indiquer que l'on sait (avec référence à la clé) qu’à une certaine date, le lexème s'est « perdu » (pas de lexème équivalent en français moderne, qu’il soit homographe ou modifiée) et qu’il ne s'agit pas juste d'un lexème pas encore créé sur Wikidata en français moderne (je n’ai pas d'exemple précis en tête) ?
  • Concernant les formes des ces verbes en ancien français, est-ce qu’on a les même caractéristiques grammaticales (en particulier le temps et le mode) qu’en français moderne (je me doute que la conjugaison en elle-même est différente) ?
  • Comment indique-t-on qu’une forme est attendue (d'après les règles classiques de conjugaison), mais n’existe pas (verbe défectif comme pleuvoir) ? Le but est d'éviter de la créer par erreur. J’aurai bien voulu un équivalent du rang obsolète sur la forme avec une cause « verbe défectif » accompagné d'une source, mais ce ne sont pas des déclarations donc on ne peut pas mettre de rang.
  • Toujours sur ces verbes défectifs, quid des formes inexistantes en principe (car pas vraiment de sens sans le contexte poétique, par exemple « je/tu pleus / je/tu pleux »), mais attestées par exemple en poésie.
Metamorforme42 (talk) 23:35, 14 August 2022 (UTC)Reply
@metamorforme42: ce sont d'excellentes questions, je n'ai pas de réponse absolue mais voici ce que j'en pense :
  • oui, clairement il faut plusieurs lexèmes, c'est déjà ce qui est fait parfois avoir (L40987) (fro) et avoir (L1886) (fr). Il peut y avoir des exceptions mais dans la majorité des cas, les formes sont différentes (et elles le sont toujours pour les noms en ancien français, à cause des déclinaisons).
  • bonne question mais je ne sais pas...
  • sans doute. De mémoire, pour les verbes le système de conjugaison a peu changé mais pour d'autres catégories les caractéristiques ont changé. Voir letre (L408257) ou fou (L408193) qui indiquent les cas grammaticaux par exemple (les seuls actuellement).
  • si la forme n'est pas du tout attestée, j'aurais plutôt tendance à ne pas la mettre (et les rangs pour les formes ont déjà été évoqués il me semble)
  • si une forme est attestée, elle mérite d'être décrite dans Wikidata ; mais je ne suis pas sûr de la méthode pour indiqué cela (avec une déclaration j'imagine, has characteristic (P1552) = rare form (Q55094451) ?).
Cdlt, VIGNERON (talk) 08:42, 15 August 2022 (UTC)Reply
pour les lexèmes perdus, je propose "chaceor", qui, chez Chrétien de Troye désigne des chevaux de monte rapide (course ?), par opposition aux "palefrois", (pour la parade ou la marche), au "destrier" (pour la bataille et le tournoi), et à la "haquenée" (jument ?) pour la monte douce (et donc utilisés surtout par les femmes)...
à moins que "chaceor" ait un rapport quelconque avec "chasseur"... ?
PS : j'adore les noms des chevaux chez Chrétien ;) - y'a aussi "roussin", "sommier" (cheval de somme, je présume) et quelques autres noms de chevaux sans doute passés de mode depuis que le cheval n'est *plus* le meilleur amis de l'homme, et a été remplacé par la voiture (ou le biclou) ;) Hsarrazin (talk) 11:54, 21 August 2022 (UTC)Reply

──────────────────────────────────────────────────────────────────────────────────────────────────── J'ai fait une première version du template pour avoir les verbes en français dans l'outil Wikidata Lexeme Forms. N'hésitez pas à relire et améliorer avant que je ne contacte l'auteur de l'outil pour qu'il l'ajoute. Cdlt, — Envlh (talk) 12:16, 26 August 2022 (UTC)Reply

Indiquer qu’un sens ne correspond qu’à une des formes (pluriel) edit

Bonjour,

j’ai créé droit d’auteur (L692023) et je me demandais de quelle manière indiquer que le S1 (concept juridique, copyright) peut avoir 2 formes (F1 et F2 ; singulier et pluriel) alors que le S2 (la redevance associée) ne s’utilise qu’avec une seule de ces formes (F2 ; pluriel).

Est-ce qu’il convient de séparer l’élément en 2 Lexemes ?

Question subsidiaire: est-ce qu’il y a un consensus à propos de l’utilisation de l’apostrophe typographique (aussi bien pour le libellé que pour les formes) ? — Metamorforme42 (talk) 13:56, 22 August 2022 (UTC)Reply

Bonjour ! Pour la première question, il existe les propriétés subject form (P5830) et subject sense (P6072) qui, même si elles n'ont pas été créées pour ça, me semblent correspondre au besoin. À voir dans quel direction aller : du sens avec la liste des formes autorisées, ou d'une forme avec la liste des sens concernés.
Pour la seconde question, il n'y a pas de consensus. Il y a 44 lexèmes en français avec une apostrophe droite et 3 lexèmes en français avec une apostrophe courbe. Je n'ai pas de préférence pour l'une ou pour l'autre (j'utilise l'apostrophe droite par commodité), mais a priori il faudrait être cohérent sur l'ensemble des lexèmes en français (toujours utiliser la même apostrophe dans tous les lemmes et toutes les formes de tous les lexèmes), et ne pas créer de forme distincte pour une différence d'apostrophe.
Cdlt, — Envlh (talk) 10:16, 25 August 2022 (UTC)Reply
Merci, j’ai opté aller depuis le sens vers la forme avec l’utilisation de L692023-S2has characteristic (P1552)plurale tantum (Q138246)subject form (P5830)L692023-F2 en prenant exemple le modèle de Wikidata_talk:Lexicographical_data#Looking_for_input_re:_a_sense_specific_to_a_plural_form que j’ai repéré ce matin.
Pour les apostrophes dans les formes+labels, a priori on pourrait envisager d’utiliser un bot pour faire une uniformisation périodiquement, soit vers la typographique, soit vers la droite. Dans le cas du français, le remplacement de l’une par l’autre me semble assez trivial pour le cas des formes/labels (si ça avait été du wikicode, ou bien d’autres langues ça aurait été plus compliqué). J’ai testé et cette différence typographique ne fait pas de différence pour le moteur de recherche, par contre c’est peut-être gênant avec le service de requêtes. J’ai une légère préférence pour la typographique, mais si tout est uniformisé la droite me convient également. — Metamorforme42 (talk) 08:34, 26 August 2022 (UTC)Reply

Wikidata:Property proposal/Online French Dictionary Larousse ID edit

Bonjour,

pour information, j’ai fait cette proposition de propriété qui pourrait vous intéresser: Wikidata:Property proposal/Online French Dictionary Larousse ID ; votre avis y est le bienvenu. C’est la première fois que je propose la création d’une propriété donc j’espère ne rien avoir oublié, si c’est le cas n’hésitez pas à me le signaler. — Metamorforme42 (talk) 16:02, 4 October 2022 (UTC)Reply

Wikidata:Property proposal/Cordial Dictionary ID edit

Bonjour. Voici une nouvelle proposition de propriété pour un dictionnaire disponible en ligne : Wikidata:Property proposal/Cordial Dictionary ID. N'hésitez pas à commenter et à voter. Bonne journée, — Envlh (talk) 09:02, 30 October 2022 (UTC)Reply

La propriété Cordial Dictionary ID (P11178) a été créée et ajoutée à 13 752 lexèmes. Voici les lexèmes qui ne sont liés qu'à ce dictionnaire et aucun autre : https://w.wiki/5wLJ Je vois quelques cas de possibles doublons liés aux orthographic corrections of French in 1990 (Q486561). N'hésitez pas à y jeter un coup d'œil ! Bonne soirée, — Envlh (talk) 18:04, 9 November 2022 (UTC)Reply

Dictionnaire de l'Académie française edit

Bonjour. Je prépare l'import des identifiants de la propriété Dictionnaire de l'Académie française ID (9th edition) (P7732). Cette propriété concerne la 9e édition du dictionnaire. Pour rappel, l'Académie n'ayant pas terminé son travail, elle est incomplète (elle s'arrête à la lettre S sur le site du dictionnaire) ; les autres éditions sont complètes. Je suis tenté d'importer les identifiants de toutes les éditions (c'est a priori assez simple vu que chaque notice fait les liens vers les différentes éditions : exemple). Pour cela, il y a deux possibilités :

  • Tout mettre dans la même propriété. C'est naïvement le plus simple.
  • Faire une propriété distincte pour chaque édition. Il faudra créer 8 propriétés pour les 8 premières éditions. Les éditions sont réellement différentes : mots et définitions, mais aussi quelques dizaines d'années entre chaque. Cela permettrait probablement de simplifier les requêtes et de faciliter les comparaisons.

Avant que je me lance, qu'en pensez-vous ? Ping @VIGNERON, Metamorforme42, Pamputt, Hsarrazin:

Bonne soirée, — Envlh (talk) 20:43, 11 November 2022 (UTC)Reply

Ca prendra un peu plus de temps mais je suis pour avoir une propriété par édition. Car sinon on va être obligé de jongler avec des qualificatifs et la simplicité initiale disparait rapidement. Pamputt (talk) 20:48, 11 November 2022 (UTC)Reply
Je me posais justement la question de l’absence de propriété pour les 8 premières éditions. Je suis également pour avoir une propriété par édition.
Il me semble que comme ces 8 premières éditions sont physiques il y a également une page et un volume associés à cet identifiant (et ils figurent sur le site dans l’encadré « page numérisée »). Devrait-on les ajouter en qualificatif obligatoires ?
Question subsidiaire: actuellement quelques éléments utilisent described by source (P1343) avec l’élément du dictionnaire correspondant, parfois accompagné de ces qualificatifs ; par exemple meunière (L25640) : est-ce que l’on veut conserver ces déclarations ou est-ce que l’ajout d’identifiants viendrait les remplacer (je suis plutôt pour cette deuxième option) ? — Metamorforme42 (talk) 00:09, 12 November 2022 (UTC)Reply
Merci pour vos retours, on est d'accord :)
@Metamorforme42: je n'avais pas vu l'encadré « page numérisée » (mon ublock bloque par défaut toutes les requêtes externes, et l'encadré ne s'affiche qu'après une requête à Gallica). C'est super comme info. En plus du volume et du numéro de la page, on peut même imaginer faire le lien depuis Wikidata vers Gallica. Par contre, je ne pense pas que ces informations doivent être mises en qualificatifs obligatoires, parce qu'elles ne sont pas toujours disponibles sur le site, par exemple pour la 9e édition.
À terme, je pense qu'on enlèvera les valeurs described by source (P1343), quand tout ce qu'elles contiennent aura bien été repris dans la déclaration de l'identifiant. Je vois VIGNERON cet après-midi ; après confirmation, je lancerai la proposition de création des 8 propriétés. Bonne journée, — Envlh (talk) 08:37, 12 November 2022 (UTC)Reply
  Support une propriété distincte pour chaque édition. Et à regarder de plus près mais plutôt pour le retrait de described by source (P1343) redondant. Au passage, il faudrait améliorer Dictionnaire de l'Académie française (Q2428961) et les éléments des éditions (je viens de faire une passe rapide, je continuerais ce soir). Cdlt, VIGNERON (talk) 11:24, 12 November 2022 (UTC)Reply
@VIGNERON, Metamorforme42, Pamputt: La proposition pour les 8 propriétés dédiées a été créée : Wikidata:Property proposal/Dictionnaire de l'Académie française. Bonne journée, — Envlh (talk) 15:18, 12 November 2022 (UTC)Reply

Étrangetés dans les lexèmes francophones edit

Bonjour,

En regardant autre chose, j'ai produit cette liste fr:wikt:Utilisateur:VIGNERON/Lexèmes/a de formes présentes dans les Lexèmes et pas dans le Wiktionnaire francophone.

En plus des mots vraiment manquant dans les Wiktionnaire, cela pose surtout la question (vieux marronnier de lexicographes) de ce que l'on veut/doit inclure ou non dans les lexèmes. En particulier, il y a les noms propres mais surtout les fautes d'orthographes (autant je peux encore comprendre l'inclusion de la faute courante "acceuillir" L:L19391#F1, autant invalid ID (L18697) et invalid ID (L22467) - création de Jura1... - me semble à supprimer). Qu'en pensez-vous ?

@Envlh, Metamorforme42, Pamputt, Hsarrazin, Eihel:

Cdlt, VIGNERON (talk) 17:50, 1 September 2023 (UTC)Reply

invalid ID (L22467) ? c'est un mot valise ou une coquille ? -> sans aucune source, à virer selon moi... Hsarrazin (talk) 18:16, 1 September 2023 (UTC)Reply
Je suis pour l'inclusion des formes erronées à partir du moment où elles sont bien sourcées (par exemple par un article dédié à telle faute). Pour les trois exemples cités, la suppression me semble de mise. — Envlh (talk) 18:31, 1 September 2023 (UTC)Reply
D'après moi, il ne faudrait pas inclure les fautes d'orthographe. Car si on commence à les accepter, il va falloir établir des critères objectifs pour savoir ce qu'on accepte et ce qu'on n'accepte pas. Sur le Wiktionnaire, il a été décidé de ne pas les accepter. Pour les cas que tu as listé, je suis pour leur suppression. Pamputt (talk) 20:16, 1 September 2023 (UTC)Reply
@Pamputt: et pourquoi ne pas établir des critères objectifs ? (genre "X attestations") et comment définir ce qui est une faute ou ce qui est une simple variation ? pendant longtemps et pour certains encore maintenant, l'orthographe de 1990 est considérée comme fautive. Ce ne sont pas des questions faciles mais il faut se les poser, la solution de facilité "on accepte pas les fautes" a des avantages et résout un grand nombre de cas, mais elle est simpliste et pose d'autres problèmes. En plus, si on veut utiliser les lexèmes comme base de vérificateur d'orthographe (ou toute autre analyse de textes), comment proposer une correction si on ne stocke pas cette information ?
Pour détailler un peu les trois cas, "acceuillir" c'est presque un demi million de résultats dans Google. Ce n'est pas le même échelle que l'infinitif "assimilier" c'est moins de 5000 (dont une attestation apparemment légitime fournie par le Wiktionnaire d'ailleurs mais surtout des coquilles, notamment causé par l'OCR dans Google Livres et il faudrait faire des recherches mais je me demande si ce n'est pas une graphie ancienne (et donc une faute seulement selon le point de vue moderne). A l'extrême inverse le subjonctif imparfait "assimiliassent" c'est 0 résultats sur Google.
Après, je me fais l'avocat du diable et je vais laisser ouverte cette discussion quelques temps mais personnellement, je pense aussi que la suppression est la meilleure solution dans la plupart des cas (surtout ces créations anciennes des débuts des lexèmes où il n'y avait pas encore l'habitude de mettre des sources). Je m'interroge surtout où l'on place la limite.
Cdlt, VIGNERON (talk) 11:14, 2 September 2023 (UTC)Reply
On peut travailler à établir des critères d'admissibilité pour les fautes d'orthographe mais c'est loin d'être simple et je ne vois absolument aucun avantage à les incorporer. Si on veut faire une base de vérificateur d'orthographe alors on regarde simplement si une graphie est présente. Si elle l'est, il n'y a pas d'erreur, si la forme n'est pas présente, alors il peut s'agir d'une faute d'orthographe. Ca suppose bien sûr que la base de données soit aussi complète que possible. Pamputt (talk) 14:27, 2 September 2023 (UTC)Reply
@Pamputt: (désolé j'avais raté ton message) un critère simple est le nombre d'attestation (qui au minimum doit être strictement supérieur à zéro). Inversement, déterminer si un mot est une faute ou non, peut-être bien plus complexe et subjectif (d'ailleurs, comment fait le Wiktionnaire ? au passage, je vois qu'il contient quelques fautes comme wikt:fr:occurence - qui existe dans 15 langues d'ailleurs !).
Si on parle de juste vérifier l'orthographe (est-elle correct ou non) alors oui l'absence suffit à indiquer la faute mais c'est juste par défaut ; or un dictionnaire n'est jamais complet et il manque toujours des mots, donc déjà en soi cela peut poser problème. Si on veut vraiment corriger l'orthographe, et donc faire une proposition de correction, alors il faut bien explicitement stocker l'information.
Quoi qu'il en soi, je viens déjà de retirer les formes (autant je ne suis pas tout à fait sûr pour l'infinitif attesté, autant pour les formes là clairement je ne vois aucune attestations donc aucune raison de conserver).
Au final, je me dit qu'une solution (ou tout au moins un compromis) serait de transférer les deux infinitifs "atteigner" et "assimilier" respectivement dans atteindre (L15413) et assimiler (L19504) (comme ce qui existe déjà pour L:L19391#F1et dans une vingtaine d'autres lexèmes) et de supprimer les deux entités invalid ID (L18697) et invalid ID (L22467).
Cdlt, VIGNERON (talk) 15:09, 29 September 2023 (UTC)Reply
Return to the project page "Lexicographical data/Documentation/Languages/fr".