Noé

Welcome to Wikidata, Noé!

Wikidata is a free knowledge base that you can edit! It can be read and edited by humans and machines alike and you can go to any item page now and add to this ever-growing database!

Need some help getting started? Here are some pages you can familiarize yourself with:

Introduction – An introduction to the project.
Wikidata tours – Interactive tutorials to show you how Wikidata works.
Community portal – The portal for community members.
User options – including the 'Babel' extension, to set your language preferences.
Contents – The main help page for editing and using the site.
Project chat – Discussions about the project.
Tools – A collection of user-developed tools to allow for easier completion of some tasks.

Please remember to sign your messages on talk pages by typing four tildes (~~~~); this will automatically insert your username and the date.

If you have any questions, don't hesitate to ask on Project chat. If you want to try out editing, you can use the sandbox to try. Once again, welcome, and I hope you quickly feel comfortable here, and become an active editor for Wikidata.

Best regards! Liuxinyu970226 (talk) 06:55, 20 October 2015 (UTC)Reply

thesaurus types

Latest comment: 8 years ago4 comments2 people in discussion

Hi, thanks for your edits and sorry for having to revert most of it (see discussion at thesaurus (Q179797))). It is important to keep general meaning of Wikidata items. --JakobVoss (talk) 16:00, 28 June 2016 (UTC)Reply

Hi, why are you inform me after changing it and not before? I may have create some confusion, but it is worst now. Please, can you enlight what do you mean by "keep general meaning of Wikidata items"? Noé (talk) 20:50, 28 June 2016 (UTC)Reply

@JakobVoss: thesaurus (Q179797) connect pages with only the lexical thesaurus (like fr, en) with pages that describe both kind of thesaurus (like es). I started to made this distinction clear before you revert my changes, so can we fix that together and create appropriate links with four pages? 1. desambiguation, 2. lexical thesaurus, 3. IR thesaurus, 4. every kind of thesaurus describe on one page. Then, adding some references may be a good idea, right? So, this one is a good summary about this issue in French: [1] Noé (talk) 07:03, 29 June 2016 (UTC)Reply

@Noé: ok, then we need an item for every kind thesaurus-like knowledge organization system (Q6423319) (4.) and make thesaurus (Q179797) and thesaurus (Q17152639) subclasses of it. There may be additional subclass siblings, maybe semantic network (Q1045785), conceptual graph (Q1420493) and/or concept map (Q830115). Aynway, Q179797 and Q17152639 must preserve their meanings, and they are not subclasses of each other. -- JakobVoss (talk) 12:14, 29 June 2016 (UTC)Reply

Remarques disponibles

Latest comment: 6 years ago11 comments2 people in discussion

Bonjour,

Je ne voudrais pas t’importuner ou te sembler trop prosélyte mais si cela t’intéresse, j'aurais quelque remarques à propos de ton récent message (Special:Diff/646452100), notamment sur le fait que si tes remarques sont justes dans l'absolue, la plupart ne sont pas applicables pour des données sur Wikidata. Je te laisse donc me dire si tu souhaites mes retours ou non (et que je ne veux pas m'imposer, tu as donc parfaitement le droit de me répondre par la négative, je ne m'en offusquerais pas le moins du monde ).

Cdlt, VIGNERON (talk) 12:44, 9 March 2018 (UTC)Reply

Salut VIGNERON,

Merci de m'avoir laissé le temps de répondre à TomT0m avant de répondre à ton tour. Je suis intéressé pour lire tes commentaires, là-bas ou ici comme tu préfères. Noé (talk) 14:11, 9 March 2018 (UTC)Reply

Je préfère ici (et en français) si cela ne te dérange pas. Je reprends quelques points :

« semi-structured data » n'est effectivement pas le bon terme, par contre grâce à l'extension fondamentale Wikibase, Wikidata est beaucoup plus structuré que les Wiktionnaires (impossible de faire une coquille prononciaciation au lieu de prononciation pour prendre un exemple trivial mais pour des exemples pour complexes, il y a la possibilité de vérifier la cohérence des données « si "A est synonyme de B" alors on devrait avoir "B est synonyme de A" », ce genre de vérification est la base de la qualité de Wikidata et permet d'être de vérifier instantanément et régulièrement que par exemple, aucun des 4 millions d'êtres humains ayant un élément Wikidata n'a une date de mort située avant sa date de naissance, ni plus de 122 ans après). Le stockage des données est sous le format RDF (un standard de l'open data) ce qui permet l'export en un très grand nombre de format (XML évidemment mais pas seulement, cela pourrait par exemple être le format DICT mentionné récemment sur la Wikidémie), l'export pouvant même être à la demande et en temps réels (contrairement aux dumps Mediawiki mis à jour tout les 36 du mois).
pour les différences culturelles, c'est quelque chose qui est déjà géré quotidiennement par Wikidata (ce n'est pas spécifique aux futurs L-items, le problème est le même pour les Q-items). En plus, le stockage sous forme de données élimine les différences liées aux contenus mis en forme. Par exemple, l'ordre d'affichage des déclinaisons que tu mentionnes n'est pas un problème pour Wikidata puisque Wikidata peut stocker les déclinaisons sans indiquer l'ordre, c'est quand les données sont ré-utilisés hors de Wikidata que le ré-utilisateur choisi un ordre (tout comme par exemple les enfants ou les œuvres d'une personne sont stockés sans ordre et c'est l'infobox sur Wikipédia qui s'occupe de faire le tri - par exemple alphabétique, chronologique ou anté-chronologique - selon les besoins). Et voir la discussion sur Wikidata talk:Lexicographical data pour la modélisation de voilà@fr.
« "Pronunciation" being singular », les libellés des propriétés sont toujours au singulier et ce indépendamment du nombres de valeurs stockées (là encore, c'est hors de Wikdata que le pluriel est ajouté si besoin, c'est un problème d'affichage et de mise en forme, pas de stockage des données). Effectivement, « alternate pronunciation » n'est pas du tout la bonne solution et ce n'est pas nécessaire.
« bataclan in French Wiktionary. I think this kind of story will not be represented in Wikidata. » tout à fait, Wikidata stockant des données, toutes les subtilités et les mises en forme du Wiktionnaire ne sont pas intégrables dans Wikidata. Ceci dit, cela n'empêche pas d'intégrer une partie de ces subtilités (par exemple le lien vers les lexèmes pataclan).

Je ne m'étends pas plus, j'espère avoir déjà éclairci certains points et si ce n'est pas clair, je suis évidemment disponible pour te donner plus de détails. Cdlt, VIGNERON (talk) 14:47, 9 March 2018 (UTC)Reply

Merci pour ces explications !

« si "A est synonyme de B" alors on devrait avoir "B est synonyme de A" » et bien non, pas forcément. On indiquera les synonymes populaires et soutenus sur la page définissant un mot neutre, mais sur la page d'un mot populaire, on indiquera pas les synonymes soutenus et vice-versa. De même pour les mots d'usage locaux, qui donneront des synonymes de plus grands usages alors que sur les pages de ces derniers, nous n'indiquerons pas forcément les synonymes locaux. Les relations de synonymies ne sont pas si simples.

Pour l'export en temps réel, c'est cool. Mais ce sera un export de données lexicographiques partielles puisqu'il n'y aura pas de définition, pas d'attestations d'usage, pas d'étymologie, pas de note sur l'usage du mot. A quoi pourraient donc servir les données exportées ?

Ok pour l'ordre. Il y en aura un de fait par l'ordre des champs sur Wikidata, mais j'ai bien compris qu'il pourrait être modifié lors des réusages éventuels.

Pour le pluriel, ça serait pas possible d'ajouter un -s dès lors qu'il y a plus d'une valeur d'enregistré ? Ne pas le faire me donne vraiment l'impression que c'est fait pour des machines plutôt que pour des humains.

Intégrer une partie de l'histoire d'un mot, c'est risquer de raconter des choses fausses. Enfin, ça dépendra de la nature du lien indiqué. Et puis bon, comme l'étymologie est pas une donnée naturelle, je ne vois pas pourquoi il y en aurait dans Wikidata.

Enfin, globalement, c'est plus clair, oui. Je vois des avantages à une collaboration entre les deux projets, mais ce n'est pas ce qui est proposé en ce moment. Je n'ai pas très envie de m'investir dans un projet dont les décisions sont verrouillées sans discussion contradictoire et sans considérations pour les personnes concernées. Le plébiscite organisé était seulement destiné aux wikidatiens, pas du tout aux wiktionnaristes, donc le projet ne m'est pas adressé. J'attendrais de voir comment il évolue mais la direction qu'il prend actuellement me déplait fortement. Noé (talk) 16:26, 9 March 2018 (UTC)Reply

J'ai relu plusieurs fois ton premier paragraphe, je ne vois pas pourquoi tu dis « non, pas forcément. » Ce que tu dis ensuite est la même chose que ce que je dis non ? Aurais-tu un exemple où « A est synonyme de B » mais pas « B est synonyme de A » ? De toute façon, ce n'est qu'un exemple de vérification possible, il y en a es milliards d'autres (relation singulier/pluriel, masculin/féminin).

On ne peut forcément exporter que les données qui existent. Et on peut imaginer de nombreux usages même sur des données partielles (un correcteur d'orthographe pour Wikisource, la simple existence ou non d'un mot suffit, pas besoin de plus ; de même pour quelqu'un veut apprendre à parler une langue, les prononciations suffisent etc.).

L'ordre « de fait » n'a aucune importance, il peut même varier selon le lecteur.

Techniquement, on pourrait imaginer de mettre le pluriel mais c'est compliqué (qui n'est pas toujours un -s) et cela ne présente pas vraiment d'intérêt. Les données ne sont pas que pour les machines mais elles ne sont pas non plus prévus pour le lecteur classique. L'interface fait déjà beaucoup de mise en forme pour les humains (je rappelle que ce qui est stocké c'est L123 P456 L789, l'interface fait déjà toute la traduction dans la langue de l'utilisateur).

fr:wikt:ce qui est simple est faux, ce qui est compliqué est inutilisable ; le wiktionnaire fait une simplification par rapport à la réalité, Wikidata fait une simplification de plus ; le premier est moins faux, le second est moins inutilisable

. Il n'y aura pas d'étymologies sous forme de textes comme le fait le Wiktionnaire mais il y aura sans doute des données étymologiques (celle justement présentes dans les textes ; la date de la première attestation est une donnée simple à stocker).

L'open data est une démarche assez particulière, la collaboration et son utilisation n'est pas toujours facile mais rien n'est impossible et il faut laisser du temps au temps. Je pense aussi qu'il faut attendre de voir la forme concrète que cela prendra pour voir ce qui t'y intéresses (ou pas).

En tout cas, je reste ouvert à la discussion.

Cdlt, VIGNERON (talk) 18:30, 10 March 2018 (UTC)Reply

En fait, le cas que je te décrivais est un peu différent. Sur la page de A, on présentera n synonymes et sur la page B, qui fait partie de n, on présentera une liste de synonymes différente de celle que l'on présentera sur une page C. Parce que certains synonymes d'un mot ne sont pas synonymes de tous les synonymes de ce même mot. Tu peux regarder les synonymes de s’enivrer par exemple. Certaines pages manquent de complétion, d'autres présentent des listes volontaires plus partielles.

Si la simple existence d'un mot suffit, alors autant utiliser la base existante du Wiktionnaire, non ? Les prononciations indiquées dans un dictionnaire ne suffisent pas à savoir prononcer une langue, il faut aussi apprendre les processus phonotactiques qui affectent les mots en contexte, mais soit. J'ai l'impression pour l'instant que ouais, ça servira bien un jour, mais qu'il n'y a pas d'utilité clairement identifiée.

Ok, intéressant pour l'ordre de présentation variable selon les préférences des contributeurs.

C'est techniquement compliqué d'afficher un terme ou une de ses flexions...et ben, ça, c'est guère rassurant par rapport à la technicité qui sera nécessaire pour décrire les langues !

Ok pour la date de la première attestation. Ce type d'information ne pourraient éventuellement être repris sur des Wiktionnaires aux conditions que l'information soit modifiable depuis un Wiktionnaire et que s'ajoute correctement une note de bas de page avec les références bien formatées (je veux dire par là sous un format de citation qui corresponde au format du projet).

Mouais, pour l'Open Data, j'suis pas encore convaincu que les résultats seront à la hauteur des efforts financiers et temporels dépensés jusque là. Encore moi des efforts à fournir une fois que la base sera disponible. Je viens bien plus d'intérêt dans des projets qualitatifs comme Lingua Libre.

Mais bon, nous verrons comment tout cela évolue, de toute façon, je donne mon avis alors qu'il n'est pas demandé, je vais donc attendre un peu et me préparer à lancer des demandes de suppression de contenu pour non respect de licence, ça va être chouette

Noé (talk) 21:30, 10 March 2018 (UTC)Reply

Je suis désolé mais je ne suis pas sur de te suivre sur les synonymes, tout les mots listés comme synonymes de "s’enivrer" ont aussi "s’enivrer" pour synonymes non ? D'ailleurs, dans le langage courant ont dit bien autant "A est synonyme de B" que "A et B sont synonymes". De toute façon, peu chaut, même si relation n'est pas la bonne pour une vérification, il y a de nombreuses autres qui le sont sans doute.

La base existante du Wiktionnaire peut servir mais elle ne tient pas la charge dès que l'on veut faire des applications utiles. Darkdadaah avait crée Dicompte, un outil pour comparer les entrées Wiktionnaire avec les mots de Wikisource mais il était obligé de passer par les dumps (donc pas en temps réels) et était limité au Wiktionnaire en français et à la Wikisource en français tout en étant déjà au maximum des possibilités (donc impossible de faire pareils pour tout les Wiktionnaires et toutes les Wikisources). On touche là un point essentiel de la différence fondamentale entre contenus et données. Dès que l'on veut manipuler plusieurs millions de données et les comparer entre elles (ce qui mathématiquement fait des milliards de milliards d'opérations), toute la mise en forme, l'affichage, etc. sont intéressants pour les lecteurs humains mais complique l'élaboration d'outils. Par exemple, la centaine de millier d'infoboxes de Wikipédia sur des articles biographiques contiennent des informations incohérentes (date de mort située avant la date de naissance) et c'est très difficile pour un outil de se débarrasser de la mise en forme pour trouver les vraies données pour comparer les dates entre-elles ; alors que sur Wikidata, on peut le faire en un clin d’œil vu que l'on a que les données pour les 4 millions d'humains ayant un élément ; clairement, on est pas du tout dans la même univers.

Non, il est simple d'afficher une flexion d'un terme mais Wikidata ne contient pas de termes, juste des données. Or l'affichage doit convertir ces données en termes, et là, oui, c'est compliqué de faire à l'affichage (donc instantanément) cette conversion pour 300 propriétés en 400 langues (et ce d'autant plus que le nom d'une propriété importe peu, c'est le concept derrière qui est utile pour les données, head of government (P6) a pour libellé principal « chef de l'exécutif », « maire », « bourgmestre », « président », « syndic », « Premier ministre », etc. c'est le contexte qui définit le terme à utiliser, pas les données). C'est pour cela que Wikidata ne s'en occupe pas et laisse cela aux ré-utilisateurs car eux ne s'intéresse généralement qu'à quelques propriétés et dans quelques langues et là, la conversion devient alors beaucoup plus facile.

Pour l'affichage d'une date d'attestation avec les modèles du projet, cela demande un peu de travail mais c'est possible. Cela se fait déjà sur pas mal de projets (voir du côté des Wikipédia par exemple).

Lingua Libre est un projet très intéressant mais très différent, il n'est pas vraiment moins ou plus qualitatif (est-ce que la lexicographie est moins qualitative que la mathématique ou l'astrophysique ?), il est juste différent (et au passage, Lingua Libre utilise des données de Wikidata - ou prévoit de le faire, j'avoue que je n'ai pas suivi les derniers développements). Wikidata fait aussi du qualitatif mais avec un niveau de granularité différent, en allant à l'essentiel : les données.

Enfin, ton avis est demandé et est le bienvenue. Quant à la suppression de contenu, si tu fais référence aux imports depuis le Wiktionnaire, comme je l'ai déjà signalé, il y a déjà eu plus de 24 000 données importés du Wiktionnaire en français lors des 5 dernières années (24437 selon la requête que viens de faire ce soir, voir Q35459762#P971 pour un exemple). Je ne vois pas toujours en quoi ce serait problématique ou illégal.

Cdlt, VIGNERON (talk) 22:51, 10 March 2018 (UTC)Reply

Bonjour !

Oui, je ne disais pas l'inverse pour les synonymes. Je disais que tous les synonymes de "s'enivrer" ne sont pas synonymes entre eux et que les listes des synonymes des synonymes seront donc différentes.

elle ne tient pas la charge dès que l'on veut faire des applications utiles ok mais j'attends encore de savoir quelles seraient ces merveilleuses applications utiles dont on nous vends l'existence à venir. Il est difficile de considérer correctement la balance bénéfices/risques (parmi les risques, celui de gâcher notre temps) lorsque l'on a qu'une idée vague des bénéfices potentiels.

Wikidata ne contient pas de termes, juste des données sauf que les contenus des propriétés sont des termes, et qu'ils devraient donc être adaptés en fonction de ce qu'ils contiennent. Je pense que c'est une des raisons que me font trouver la contribution sur Wikidata désagréable. J'ai bien trop l'impression que les textes sont inadaptés, inopportuns, pas prévu pour être lus par la personne qui contribue.

Pour l'affichage d'une date, j'ai déjà vu ça ailleurs, mais ce n'est pas ce que j'ai écris. Je parlais d'affichage de la donnée mais aussi de l'ajout d'une note de bas de page avec une référence bien formatée. La valeur des données que l'on présente à notre lectorat dépend des sources qu'ils vont trouver sur la page elle-même. Il me paraît impensable de demander d'aller dans des pages illisibles sur un autre serveur pour connaître la source d'une information.

ton avis est demandé et est le bienvenue ce n'est pas l'impression que j'ai eu sur l'ensemble de la procédure. Et même quand mon avis est demandé, je n'ai pas l'impression qu'il soit écouté.

24 000 données importés du Wiktionnaire en français ? L'exemple que tu donnes, ce n'est pas pour une donnée, c'est pour un interlien pour une page hors de l'espace principal. Je veux bien avoir la liste des données qui sont indiquées comme provenant du Wiktionnaire francophone et qui ne sont pas utilisées pour des interliens vers des pages dans des espaces de noms hors de l'espace principal. C'est potentiellement problématique car il n'y aurait pas de respect de la licence CC BY-SA. En fait, en y réfléchissant, les catégories correspondent à la macrostructure du Wiktionnaire. Et la macrostructure est en CC BY-SA d'après la note préliminaire. Je me demande s'il n'y aurait pas un problème. Je vais poser la question au conseiller juridique

Noé (talk) 10:24, 11 March 2018 (UTC)Reply

Ok, on est donc d'accord sur la synonyme, A syn B équivaut à B syn A (mais même si C syn A cela ne veut pas dire C syn B).

Pour les outils, Wikidata se concentre surtout sur proposer les données, c'est à chacun d'imaginer et de construire les outils autour. Pour les idées, j'en ai déjà données des dizaines et même sans nouvelles idées, il y a l'amélioration des outils existants (tout les outils de manipulation « basiques » comme les anagrammes, les lipogrammes, etc. ou même les rimes serait sans doute plus efficace avec les données Wikidata).

Pour la date, ooups, oui il existe des outils pour modifier Wikidata sans aller sur Wikidata, typiquement sur Wikisource on utilise souvent WEF (ru:Wikipedia:WE-Framework, qui pourrait être adapté pour les besoins des lexemes). C'est effectivement très pratique (justement parce que l'on est plus confronté aussi directement aux données).

Il me semble pourtant que ton avis est écouté… En tout cas, moi je t'écoute.

Regarde mieux mon exemple, je ne parle pas du lien interwiki, je parle bien de données avec en référence imported from Wikimedia project (P143) French Wiktionary (Q22001373) (or les liens interwikis ne peuvent pas contenir de références). D'ailleurs, je n'ai pas lié vers Q35459762 mais vers Q35459762#P971 et les deux valeurs de category combines topics (P971) sont biens des imports du Wiktionnaire. Il suffit de 2 secondes pour modifier la requête précédente et remplacer le comptage par la liste complète (et une autre requête permet de voir que ce sont toutes des Wikimedia category (Q4167836)).

Je te laisse poser la question à l'avocat, perso je n'y vois aucune créativité ni originalité suffisant pour ouvrir des droits d'auteur.

Cdlt, VIGNERON (talk) 10:57, 11 March 2018 (UTC)Reply

Ok pour les synonymes.

Pour les idées d'outils, rien n'est resté sur la page Wikidata:Wiktionary, et la présentation à Wikimania ne mentionnait rien. Pour convaincre les communautés des Wiktionnaires de s'impliquer dans ce projet, je pense qu'il aurait fallu bien plus insister sur ces aspects et prévoir d'emblée le financement d'une poignée de développeurs dédiés à la création d'outils, plutôt que de décharger du développement en prétendant n'être pas concerné par cela. Parce que sur les Wiktionnaires, on a l'habitude de développer des choses dans notre coin vu qu'il n'y a pas de développeur financé spécifiquement par la WMF pour ce projet. Du coup, ça nous fait pas trop rêver quand on nous dit qu'il y aura du développement financé mais pas pour nous.

Pour les outils, on verra plus tard. La discussion en cours sur l'espace de discussion anglophone, comment le vandalisme sur Wikidata affecte les wikis me convainc juste un peu plus de ne réafficher aucune donnée de Wikidata directement. Faire des requêtes pour vérifier des données, ok, mais afficher en direct, c'est trop risqué.

Je n'ai rien compris à ton paragraphe plein de liens. Je vais prendre le temps de le relire plusieurs fois au calme.

Pour la question, je l'ai aussi posée ici.

Oui, j'ai bien le sentiment que tu m'écoutes, et TomT0m aussi. Mais vous n'êtes pas dans l'équipe de développement et in fine, j'ai le sentiment que ton avis sur la présence des glosses rédigées ne sera pas plus écouté que le mien puisque la décision a déjà été prise depuis longtemps par l'équipe de développement. Noé (talk) 11:23, 11 March 2018 (UTC)Reply

Pour les idées d'outils, cela doit venir de ceux qui ont des besoins (sinon, tu seras le premier à dire que c'est imposer par les développeurs et là je serais d'accord avec toi). N'hésite pas à faire des propositions sur Wikidata:Lexicographical data/Ideas of tools (et tu peux les y faire en français si cela concerne le wiktionnaire francophone uniquement).

Je te laisse relire mon paragraphe pleins de liens

. Si je n'ai pas été clair, n'hésite pas à me le dire (cet après-midi je serais en atelier Wikisource mais je pourrais répondre ce soir ou plus tard).

J'ai notifié l'avocat (sinon, il n'aurait sans doute pas vu ta question).

Pour les gloses, il est possible qu'il y en ait, on verra bien. Mais je doute de leur utilité (en tout cas, pour ce qui m'intéresse à savoir décrire les liens entre les mots, notamment les variantes lectales en breton ; là, clairement, inutile de mettre la même glose sur 10 variantes d'un même mot). L'équipe de développement ne fait que proposer une case pour mettre des gloses, comme un terrain de jeu que la communauté pourra décider d'utiliser ou non.

Cdlt, VIGNERON (talk) 11:38, 11 March 2018 (UTC)Reply

Ontologie

Latest comment: 5 years ago5 comments2 people in discussion

Salut,

Au cas où tu ne suivrais pas la page, Tpt (qui en plus est francophone, donc n'hésite pas à lui demander des précisions ou explications directement en français ) a répondu à ta question sur Wikidata_talk:Lexicographical_data#Ontology.

Cdlt, VIGNERON (talk) 12:49, 5 March 2019 (UTC)Reply

Salut VIGNERON, j'ai gardé un onglet ouvert sur la discussion, mais merci pour la notification

Noé (talk) 13:21, 5 March 2019 (UTC)Reply

Salut, encore moi. Par rapport à ton message, oui sans en être totalement déconnecté, l'ontologie des Lexemes n'est pas exactement la même que LEMON, ou schema, ou autre, c'est une synthèse plus large avec quelques innovations qui permet de faire différemment, quelque chose plus adapté à Wikidata (et en premier lieu le lien avec les autres entités de Wikidata). Du coup, si tu documente un alignement quelque part, ce serait fort utile. Et si c'est public et si tu le souhaites, je pourrais peut-être aider.

Notamment par rapport « rdfs:label rather than lemon:SenseDefinition », j'ai quelques réflexions. Cela ne me semble pas tout à fait exact, d'abord Wikidata n'a pas de définitions, juste des gloses (et pour rdfs:label, voir fr:Resource Description Framework et fr:RDF Schema). D'ailleurs, je ne trouve pas SenseDefinition dans LEMON (par sur https://www.w3.org/2016/05/ontolex/ en tout cas et même si le sens est évident pour un humain mais là on parle de syntaxe pour machine). Enfin, l'équivalent dans les Lexeme Wikidata de lemon:SenseDefinition c'est apparemment plutôt skos:definition (voir fr:Simple Knowledge Organization System).

C'est en tout cas, ce que je comprends du résultat d'une requête SPARQL simple comme :

SELECT * WHERE { wd:L3-S1 ?predicate ?object . }

Try it!

Au passage, tu noteras aussi l'indication rdf:type <http://www.w3.org/ns/lemon/ontolex#LexicalSense> qui fait explicitement le lien avec LEMON. Voilà, j'espère avoir été utile et n'hésite pas à demander si tu as besoin d'aide. Et re-@Tpt: pour confirmer ou infirmer si j'ai dit trop de bêtises. Cdlt, VIGNERON (talk) 16:01, 6 March 2019 (UTC)Reply

Merci pour ton message. En fait, Tpt m'a répondu sur Mediawiki. Je travaille à un alignement du Wiktionnaire francophone, et je m'intéresse donc logiquement à celui qui a été mis en place pour Wikidata, mais les deux ne seront pas compatible car Wikidata ne se préoccupe pas de la manière dont l'information est structurée dans les dictionnaires mais de la manière dont elle est structurée dans le langage, ce qui n'est pas la même chose. Par exemple, dans le langage, les synonymes vont d'un sens vers un sens tandis que dans les dictionnaires les synonymes vont d'une définition vers une page ou bien d'une entrée vers une page. Le niveau de la page (qui intègre nom 1, nom 2 et adjectif par exemple) n'est pas nécessaire dans Wikidata, car absent en langue. Les propriétés de Lemon sont plutôt pour le langage, donc peu adaptée pour décrire le Wiktionnaire. Lexicog permet de résoudre quelques uns de ces problèmes. Enfin du coup, Wikidata n'ayant pas pris en compte ces différences, de ce que j'ai pu lire jusque là, je ne vois pas trop comment une ontologie d'un Wiktionnaire (francophone ou autre) pourrait communiquer avec l'ontologie de Wikidata. D'autant plus quand celle-ci est difficile à trouver.

Je parlais de lemon:SenseDefinition et non pas de ontolex:SenseDefinition car cette classe n'a pas été conservée lors de l'évolution de l'ontologie. L'ontologie que je construis s'appuie aussi sur Lexinfo v. 2, qui ne prend pas en compte Ontolex, et la version 3 n'est pas prête de sortir d'après l'avis que j'ai reçu en sollicitant la liste de diffusion d'Ontolex. Mais du coup, je vais tâcher de rester aussi proche d'Ontolex que possible.

Je sais que Wikidata est sensé ne pas avoir de définitions mais des gloses et je suis d'autant plus étonné de l'utilisation de skos:definition ! Noé (talk) 16:16, 6 March 2019 (UTC)Reply

Ah ok parfait, n'hésite pas à me tenir au courant.

Intéressant ta distinction langage/dictionnaire, je vais réfléchir dessus (vu que je base la plupart des mes contributions sur des dictionnaires en prenant bien soin d'indiquer la page, qv. gwenn (L30901) pour un exemple parmi d'autres ; j'avais aussi vaguement réfléchi au lien entre Lexeme et Wikisource, par exemple via l'encodage fr:Text Encoding Initiative).

Sinon, en parlant d'alignement du Wiktionnaire, il me semble que DBpedia avait fait des choses dessus aussi, cela vaudrait sans doute la peine de regarder de ce côté.

Cdlt, VIGNERON (talk) 16:36, 6 March 2019 (UTC)Reply

Genre instable ?

Latest comment: 1 year ago3 comments2 people in discussion

Salut,

J'ai (re-)commencé à rédiger Wikidata:Lexicographical data/Documentation/Languages/fr (lors des derniers Data Quality Days) et je suis tomber sur l'élément genre instable^(110222158) que tu as crée et qui me pose plusieurs questions.

Déjà, l'élément possède un nature de l’élément^(P31) et un sous-classe de^(P279) (alors que normalement il faut en choisir un seul des deux, même si c'est malheureusement devenu une erreur très courante...) et les valeurs pour ces deux propriétés me surprennent. De plus, il n'y a aucune source... (je viens de créer Vox populi vox Dei ? L'identification du genre grammatical en français^(113077409) qui parle du sujet mais qui ne mentionne pas de genre instable, au contraire il rappelle qu'il n'y a que deux genres en français... ceci dit, cette publication contient de nombreux exemples intéressants sur la question du genre)

Je n'arrive pas trop à le verbaliser mais pour moi "genre instable" n'est pas un genre et ne devrait pas être utilisé avec genre grammatical^(P5185) comme dans après-midi (L25740). J'aurais plutôt utilisé has characteristic (P1552). Un mot a pour caractéristique d'avoir un genre instable mais son genre n'est instable.

Je ne sais pas trop en penser exactement au final et ton avis m'intéresse. VIGNERON (talk) 11:20, 14 July 2022 (UTC)Reply

Salut Nicolas,

Alors, un genre n'est pas une donnée intrinsèque d'un mot, c'est une valeur qui dépend d'une communauté d'usage d'une langue, et qui peut être relativement stable et homogène au sein d'une communauté de langue, ou alors n'être pas très fixée et varier selon les parties du locutorat ou selon les moments où une même personne va l'utiliser. Certains mots que tu utilises, tu les emplois parfois au masculin et parfois au féminin, sans bien savoir ce qui est le mieux, parce que ça dépend, ça varie, et il en est de même pour beaucoup de mots dans la langue, malgré les efforts des aménageurs linguistiques qui cherchent à forcer un usage en particulier. Les exemples les plus communs sont autoroute, après-midi, été. Il me paraît tout à fait bizarre de les caractériser avec deux genres, ils ne sont pas masculin ET féminin, ils sont masculin OU féminin, selon les moments où ils sont utilisés, les gens qui les emplois, etc.

Par ailleurs, il existe une autre valeur du genre en français, qui sont les mots épicènes, ou invariables en genre, c'est à dire qu'ils peuvent désigner des référents masculins ou féminins sans pour autant être marqués : pianiste, spéciste, sentinelle. Ceux-là sont masculin ET féminin. L'aspect fluctuant dans l'usage et l'aspect fixe mais non marqué sont des indications précieuses dans la description de la langue française, que les lexicographes rapporteront au mieux. Les linguistes ne le feront pas forcément, selon leur approche de la grammaire du français. Mon bouquin de référence sur le sujet, Gender, de Greville G. Corbett (Cambridge University Press, 1991), discute de ces deux concepts au chapitre 3.3.3. en parlant de unstable gender et epicene.

Pour l'utilisation de P31 et P279, je me suis basé sur le modèle de epicene (Q3083701).

Pour l'utilisation de has characteristic (P1552), je ne sais pas. Je ne vois pas d'intérêt à caractériser les phénomènes d'accord en genre de deux manières différentes, selon les cas. Mais cela présente peut-être des avantages. A voir si d'autres modélisations ont fait ce choix

Noé (talk) 18:06, 16 July 2022 (UTC)Reply

Salut,

Je suis bien d'accord, d'ailleurs une donnée n'est jamais intrinsèque (on vit dans une société tout ça tout ça). Je parlais de la différence entre être et avoir (dans les deux cas de façon extrinsèque), un mot est épicène ou a un genre épicène, Wikidata peut stocker les deux données mais ce sont des données différentes (potentiellement pour la même information ou non, sans indication explicite il y a une incertitude).

Je suis aussi bien conscient de l'instabilité et de la multiplicité des cas qui fait que ce n'est pas un mot = un genre (j'avais déjà d'ailleurs mentionné après-midi comme exemple dans la page de doc). Mais c'est justement pour cela que l'on a besoin d'être précis pour différencier pourquoi il y a plusieurs genres. Le genre peut varier dans le temps, dans l'espace, selon l'usage, par exception (les fameux amour, délice et orgue), par erreur, etc. (et parfois plusieurs de ces paramètres en même temps).

Je vais y réfléchir et essayer de revenir avec une proposition cohérente et plus solide que ce que l'on a actuellement (pour prendre une incohérence basique, on a par exemple unstable gender (Q110222158), ambiguous gender (Q100919075), feminine or masculine (Q85319912) qui sont plus ou moins la même chose mais mal structurées). Je te tiendrais au courant.

Je vois que l'on a déjà Greville G. Corbett (Q27916087) et deux de ces projets (mais aucune publication, je m'en occupe dès que j'ai le temps et après les avoir lu).

Cdlt, VIGNERON (talk) 18:52, 16 July 2022 (UTC)Reply

Add topic