Topic on User talk:PAC2/Structured Discussions Archive 1

VIGNERON (talkcontribs)

Bonjour,

Juste une remarque en marge de ta discussion sur le PC à propos de female form of label (P2521)/male form of label (P3321), ces propriétés (et peut-être même les libellés eux-mêmes) sont appelés à disparaître (par suppression ou par inutilisation) à plus ou moins long terme. Les Lexèmes L sont l'espace prévu pour les données lexicographiques (WD:LD) plutôt que les éléments Q (dont les libellés/descriptions sont une partie à part déjà) et cette distinction ne devrait que se renforcer à l'avenir.

PAC2 (talkcontribs)

Merci pour l'info.

Je m'en doutais un peu. Pour l'instant les lexemes restent un peu abstraits pour moi et je ne vois beaucoup d'utilisations passer.

Du coup, ça veut dire que mon idée de lancer une propriété "forme inclusive du libellé" n'est pas forcément la bonne.

Je vais voir ce qu'on peut faire du côté des lexemes. PAC2 (talk) 11:59, 30 October 2021 (UTC)

VIGNERON (talkcontribs)

Avec plaisir.

Ton idée n'est pas mauvaise mais elle sera sans doute périmée dans les années à venir.

Les données lexicographiques ne sont pas toujours simples mais à terme elles sont "meilleures" (ou en tout cas, le format Lexeme est plus adaptée). Et si tu as des questions, n'hésite pas à demander (notamment sur les requêtes SPARQL sur les Lexèmes sont très spécifiques).

PAC2 (talkcontribs)

D'acc. Je vais regarder pour les requêtes avec les lexemes. PAC2 (talk) 20:38, 30 October 2021 (UTC)

PAC2 (talkcontribs)

Pour le moment, ça donne ça :

#title: List of lexemes in French about occupation items with gender
SELECT DISTINCT ?item ?itemLabel ?sense ?lexeme ?lemma ?genre ?genreLabel WHERE {
  ?lexeme rdf:type ontolex:LexicalEntry;
    dct:language wd:Q150;
    wikibase:lemma ?lemma;
    ontolex:sense ?sense;
    wdt:P5185 ?genre.
  ?sense wdt:P5137 ?item.
  ?item (wdt:P31/(wdt:P279*)) wd:Q12737077;
    rdfs:label ?itemLabel.
  FILTER((LANG(?itemLabel)) = "fr")
  ?genre rdfs:label ?genreLabel.
  FILTER((LANG(?genreLabel)) = "fr")
}
ORDER BY (?item) (?lemma) (?genre)
List of lexemes in French about occupation items with gender

Y a pas beaucoup de lexemes encore et la classification en féminin, masculin et épicène n'est pas toujours très claire.

VIGNERON (talkcontribs)

@Nattes à chat, Hsarrazin, Jsamwrites: que le sujet peu intéressé aussi.

Pour avancer par rapport aux lexèmes, comme tu l'a noté, il y a actuellement très peu de Lexèmes en français : 12 000 seulement et ceux existant sont souvent assez vides donc inutile (typiquement, il y a tout un tas de métier qui ont un lexème mais ne sont pas indiquer comme tel et n'apparaissent donc pas dans ta requête). Avant-hier, je viens de faire une passe sur une série d'une centaine de Lexèmes (par exemple, ceux finissent en -ier qui sont généralement au masculin, -ière au féminin, etc.) mais j'aurais besoin d'aide.

La structure des lexèmes n'est pas toujours encore bien fixée, notamment par manque de sources lexicographiques et grammaticales. Si vous avez des ressources en particulier sur la lexicographie et la grammaire neutre/épicène/inclusive, je suis preneur (par exemple, il me semble que personne ne considère jamais "épicène" comme un "genre grammatical" mais je peux me tromper, or c'est important pour l'utilisation de la propriété genre grammatical(P5185)).

Est-ce que cela vous intéresse de se coordonner pour améliorer les lexèmes ? (surtout avec Wikifunctions et l'Abstract Wikipedia qui devrait être lancés officiellement dans quelques mois).

PAC2 (talkcontribs)

Intéressé pour contribuer. Est ce qu'on ne pourrait pas créer un Wikiprojet sur les données lexicographiques en français ou plus généralement sur le français dans Wikidata.

VIGNERON (talkcontribs)

Il est possible d'utiliser la page de discussion principale Wikidata:Lexicographical data (si on met en place des méthodes, ce serait utile de les partager et d'avoir des retours par rapports aux autres langues ; toutes les langues du monde possédant un genre grammatical dans une certaine mesure).

On peut aussi utiliser Wikidata:Lexicographical data/Documentation/Languages/fr pour documenter et suivre les lexèmes en français et la page de discussion correspondante pour discuter.

Hsarrazin (talkcontribs)

c'est sans doute moi (essentiellement, mais pas uniquement) qui ai ajouté "mot épicène" - si on se met d'accord sur une autre façon de faire, je ne demande pas mieux que de corriger '

Jsamwrites (talkcontribs)

@VIGNERON Il existe de nombreuses possibilités d'améliorer la couverture des lexèmes, rien qu'en se concentrant sur les professions et en les documentant. Je vois déjà environ 45 000 professions.

SELECT DISTINCT ?item ?label {
?item (wdt:P31/(wdt:P279*)) wd:Q12737077;
  rdfs:label ?label.
  FILTER (lang(?label)="fr")
Try it!

Il existe actuellement environ 400 lexèmes liés aux professions.

SELECT DISTINCT ?item ?sense ?lexeme ?lemma ?genre WHERE {
  ?lexeme rdf:type ontolex:LexicalEntry;
    dct:language wd:Q150;
    wikibase:lemma ?lemma;
    ontolex:sense ?sense.
  ?sense wdt:P5137 ?item.
  ?item (wdt:P31/(wdt:P279*)) wd:Q12737077.
}
ORDER BY (?item) (?lemma) (?genre)
Try it!

Je serai heureux de contribuer à l'amélioration des lexèmes existants ou à l'ajout de nouveaux lexèmes.

Personnellement, je n'utiliserai pas non plus mot épicène(3083701) avec genre grammatical(P5185). Je suggérerai plutôt mot épicène(3083701) avec nature de l'élément(P31).

VIGNERON (talkcontribs)

Oui, j'avais eu le même réflexe et j'ai exploré les 47538 valeurs de forme féminine du libellé(P2521). L'idée était de voir si on pouvait générer au moins semi-automatiquement certains lexèmes et cela ne sera pas facile.

Dans la liste des valeurs de forme féminine du libellé(P2521), j'ai remarqué plusieurs situations qui mérite attention :

  • des doublons externes : des éléments distincts qui ont le même nom au féminin et donc qui sont sans doute à mettre en sens séparés d'un même lexème (mais pas toujours, il faut voir les sources à la main, "ailière" est clairement un seul lexème quelque soit le sport considéré)
  • des doublons internes : plusieurs valeurs au féminin au sein d'un même élément (le maximum étant 4 sur cleric (Q2259532))
  • enfin des valeurs qui ne sont pas des lexèmes (par exemple "Administratrice en chef de la santé publique du Canada" sur Chief Public Health Officer of Canada (Q5096891) - avec en plus une faute de typographie - ou tout les "ambassadrice de XXX").
  • en bonus, je remarque qu'il y a peu de sources mais on trouve 33 fois Femme, j'écris ton nom... (Q26821243) et 32 fois feminization dictionary (Q26821958). La première est disponible en ligne donc on devrait pouvoir facilement s'en resservir pour avoir des lexèmes correctement sourcés. Je note tout de même que c'est le bazar dans ces références (le même document est indiqué de plusieurs façon très différentes :/ cf. https://w.wiki/4PKJ je vais commencer par faire un peu de ménage là-dedans)

Malgré tout, il y a une majorité de cas simples que l'on devrait pouvoir reprendre pour créer facilement des milliers de lexèmes.

Je suis évidemment preneur de toute remarque, question et l'aide est la bienvenue.

Jsamwrites (talkcontribs)

@VIGNERON C'est fait pour les mots épicènes.

SELECT DISTINCT ?lexeme ?lemma WHERE {
  ?lexeme rdf:type ontolex:LexicalEntry;
    dct:language wd:Q150;
    wikibase:lemma ?lemma;
    ontolex:sense ?sense;
    wdt:P31 wd:Q3083701.
}
Try it!

Environ 75 mots.

VIGNERON (talkcontribs)

Génial !

J'en ai profité pour corriger les genre grammatical(P5185) = mot épicène(Q3083701) de @Hsarrazin:, en les déplaçant vers nature de l'élément(P31) et en ajoutant les deux genres m/f en genre grammatical(P5185) le tout avec QuickStatements.

Je viens aussi de faire tout les noms communs finissant en -iste (après avoir vérifier et exclut qu'il n'y avait pas de pièges, j'en ai trouvé que deux : chirurgien-dentiste (L615977) et chirurgienne-dentiste (L615978)). Il faudrait faire les autres suffixes réputés épicènes (j'ai regardé -ogue et -aire mais il y a pas mal d'exceptions, il va falloir faire à la main, la requête : https://w.wiki/4PSj).

Ta requête donne maintenant 111 résultats.

Hsarrazin (talkcontribs)

oki... donc il faut mettre à la fois le masculin et le féminin, c'est bien ça ?

VIGNERON (talkcontribs)

Sans certitude à 100 % mais c'est ce qui me semble le plus logique, non ?

Hsarrazin (talkcontribs)

du moment que tout le monde est d'accord pour faire comme ça ;)

Jsamwrites (talkcontribs)
VIGNERON (talkcontribs)

Oui très bien.

On pourrait ajouter quelques informations (j'ai ajouté l'identifiant TLFi et la mention du dictionnaire de l'académie pour la forme masculine ; on pourrait aussi enregistrer la prononciation, etc.) mais l'essentiel est là (données de bases, sens et formes).

Reply to "Nom d'un concept"