Wikidata talk:Lexicographical data/Archive/2018/01

This page is an archive. Please do not modify it. Use the current page, even to continue an old discussion.

2017 Community Wishlist Survey

Hi,

There is already some good ideas in the Community Wishlist Survey and some of them may gain by some Wikidata helps. I am still not sure to understand this project of tiding Wikidata with Wiktionary and I am still not happy with CC0, so I will not spend time now to duplicate those ideas, but feel free to do so, to check in Phabricator and to pick some of those! Noé (talk) 18:02, 30 December 2017 (UTC)

Thanks Noé, that's a good idea. Theses wishes need to be sorted and adapted but indeed but some really cling with the L items. Some of theses ideas need a third place to store data (like the Wikisource dictionaries for Wiktionary you suggested) and the L items could be a good place for that (especially as the wikisources dictionnaires are already PD so fully compliant with CC0).
I'm working on the Dictionnaire français-breton de Le Gonidec right now and here how it could work: creating a page for every entry on Wikisource (that I will do anyway), create a Q item for these entry (like it's usually done), create a L item for each corresponding word and linking them with the corresponding Q item (that's a new part that L items can do). Then a tool can collect these links and retrieve the content from Wikisource to show them on wiktionaries or anywhere really (that's also a new part, external to L items and it could work without them but in any case we need a place to store these links).
Cdlt, VIGNERON (talk) 18:22, 30 December 2017 (UTC)
I feel you suggest a very complex process for this idea. Well, if someone else is interested on this topic, ask me to translate the following lines, but knowing that both Vigneron and I are French speakers, I'll write in this language now on.
Bon, je suis d'accord avec la première étape que tu proposes, d'avoir une page par entrée dans le dictionnaire présent dans Wikisource. Mais ensuite, j'ai l'impression que ce serait plus simple de transclure le contenu de ces pages de la même manière que l'on transclue le contenu d'une page de l'espace de nom Modèle, ou des images qui sont présentes dans un autre lieu de stockage. Il faudrait ajouter l'appel de la transclusion sur les pages concernées (pages liées Autres dictionnaires associées aux pages de l'espace de nom principal), et cela pourrait être fait par un bot une fois pour toute. Après, plus besoin d'y retoucher, vu que c'est pas dynamique du côté de Wikisource. En vrai, un duplicata des définitions ferait tout aussi bien l'affaire, et ça serait peut-être même encore plus simple.
Je trouve bien compliqué de mettre en place un espace de stockage supplémentaire alors qu'une simple requête pourrait suffire pour collecter les liens et nourrir un modèle du Wiktionnaire, il me semble. Pour moi, cette idée pourrait tout à fait être réalisée sans l'intermédiaire de Wikidata. Je suis intéressé pour mieux comprendre les intérêts que tu vois dans cet intermédiaire. Noé (talk) 21:07, 30 December 2017 (UTC)
D'accord pour utiliser le français (if translation is needed I'm avalaible too).
Les deux premières étapes sont déjà en place (avec des nuances et des distinguos, mais c'est déjà ce qui est fait, voir ce qui a été fait avec le Dictionary of National Biography il y a plus de 3 ans, où 27k éléments sont déjà à 27k éléments correspondants sur les entrées de ce dictionnaire, ici cela concerne des personnes et des noms propres mais la structure est là et déjà utilisée depuis pour de nombreux autres dictionnaires).
La troisième sera très certainement mise en place aussi sous une forme ou sous une autre dans les prochains mois (une fois les éléments Lexeme en place, c'est la même chose pour le DNB ; cela me semble utile et même nécessaire pour le projet Wikidata au minimum et d'autres projets pourraient en profiter, j'ai déjà quelques pistes de réflexions pour les Wikisources).
Pour le dernier point, par contre, j'ai émis une idée potentielle. Ton idée pourrait aussi fonctionner, en parallèle, en supplément ou en complément ; tu connais mieux le Wiktionnaire que moi, ton expérience sera utile pour voir comment articuler cela au mieux.
Cdlt, VIGNERON (talk) 23:04, 30 December 2017 (UTC)
Poursuivant la réflexion, j'ai l'impression que le multidictionnaire serait finalement dans Wikidata, avec les entrées du Wiktionnaire considérées à l'égale des entrées lexicales dans Wikisource, liées autour de nœuds qui auraient des gloses, c'est à dire, des définitions courtes. L'affichage final de ce multidictionnaire pourrait être dans un onglet supplémentaire du Wiktionnaire tout aussi bien qu'ailleurs. Et le Wiktionnaire devient une interface de consultation, ce qui, pour ce type de contenu (des dictionnaires libres de droit) me paraît bien, dans la mesure où le travail collaboratif est terminé lors de l'affichage. Ce serait un contenu figé, non améliorable et non-collaboratif, c'est un peu étrange.
Par ailleurs, lier différentes entrées, d'accord, mais nous ne lieront pas ainsi les sens, seulement les formes graphiques. Chaque entrée de dictionnaire pourra donner plus ou moins de définitions, qui ne colleront pas souvent avec le nombre de définition présent dans les autres dictionnaires (Wiktionnaire inclue), et je pense qu'il serait impossible et inintéressant de lier les entrées au niveau des sens. C'est souvent le point que j'ai le plus de mal à faire comprendre à des wikidatiens qui n'envisagent pas les évolutions sémantiques et les choix éditoriaux et idéologiques fait par les dictionnaires. Rattacher une définition à un seul sens n'est pas souvent possible, et nous avons déjà bien de la peine avec les traductions, alors vouloir tenter de faire ça avec des documents d'époques différentes et de nature différente (dictionnaire monolingue ou bilingue, de définition ou étymologique), ça me semble être complétement absurde.
Bon, j'ai l'impression que l'idée s'affine, mais je ne vois toujours pas où ni comment développer tout ça au mieux. Qu'en penses-tu ? Noé (talk) 09:26, 31 December 2017 (UTC)
Merci pour cette réponse fort détaillée que j'ai relue plusieurs (sans être certain de bien tout comprendre je le crains).
J'ai un peu de mal avec la formulation du début, en tout cas, je n'aurais pas formulé ainsi mais j'ai l'impression que l'on est d'accord dans l'ensemble.
Pour le sens, je n'ai pas compris précisément ce qui te posait problème, cela m'aurait semblé plus simple et plus logique de relier au niveau des formes mais c'est tout à fait possible de lier au niveau du lexeme et on peut faire ainsi si tu estimes que c'est mieux (juste j'aimerais bien comprendre parce que j'ai l'impression de rater quelque chose). En tout cas, il faudrait simuler un cas pour mieux se rendre compte (on risque d'avoir des surprises, notamment je me suis rendu compte que s:fr:L’Encyclopédie/1re édition/CHIEN contient ce que j'aurais séparé en plusieurs entrées ; je viens justement de poser la question du périmètre des entrées sur la Wikisource).
Cdlt, VIGNERON (talk) 12:19, 3 January 2018 (UTC)

"L-items" for lexemes?

It seems that no lexeme item has been created at Wikidata (if I am wrong, I apologize). And I think that using "L" as the prefix might be confusing because lowercased "L" (l) looks same as, or at least similar to, capitalized "i" (I) and Arabic number "one" (1). Although the prefix "L" is capitalized at the item page, it may be possibly lowercased in other contexts and may confuse readers. Could we choose another letter as the prefix? --Neo-Jay (talk) 21:52, 11 November 2017 (UTC)

If I recall the discussion at WikidataCon correctly, L-item is not finalized yet, because of the same aforementioned reasons. So far, L-items have not been created on Wikidata (probably they will be created in 2018/2019). John Samuel 09:08, 12 November 2017 (UTC)
Many thanks for your information. --Neo-Jay (talk) 09:35, 12 November 2017 (UTC)
@Neo-Jay: technically it's still possible to change, but what letter would you suggest? and is it really problematic ? as no items would ever begin with I or 1 (or |, 丨 or any other homograph) ; there would only be Q and L, no confusion seems possible. It's seems a bit like « don't choose Q, it's look like O and 0 ». Cdlt, VIGNERON (talk) 17:24, 10 January 2018 (UTC)
@VIGNERON: Even if Wikidata will never use "I" or "1" as prefix for item ID, the prefix "L" may still confuse those readers who are not familiar with Wikidata's naming policy, and may cause misunderstanding and typos. And I don't think that Q looks like O or 0. To me, any letter other than I, L, and O (as well as P and Q, which have been used), is fine and not confusing. The prefix "L" is good because it stands for "lexeme". But I don't think that the prefix has to be such reasonable when I realize that Wikidata chooses "Q" as prefix just because it "looks cool" and is the first letter of the name of former Wikidata Project Director's wife. --Neo-Jay (talk) 18:45, 10 January 2018 (UTC)

Senses vs forms

Looking at the demo system I have a question. Now senses and forms are quite independent - they are like different "properties". But what if each sense has its own forms (it is happened some times in Russian)? --Infovarius (talk) 13:28, 10 January 2018 (UTC)

@Infovarius:, I have no definitive answer but a comment. The demo shows one item with the forms inside the L-item : L15 'Leiter' containing 'Leiterin' L15-F3) but also have an Litem specific for 'Leiterin' L25.
I'm not entirely sure but I think separate L-items would be better ; at least I can think of cases where it would be simplier (in Breton (Q12107) for instance forms can be quite complicated and numerous, as nouns don't always have a singular and mutations can create a lot of different forms ; an example : gwez = trees - collective, gwezenn = tree - singulative, gwezennoù = some trees - plural of singulative, da wez = 'your trees' or 'to the trees', ho kwrez = 'you trees' (plural you), and so on ; and even words with a regular singular can have multiples plurals depending of the context : lagad = eye, daoulagad = a pair of eyes - dual, like "The color of the eyes of someone", lagadoù = eyes - but separately, like in "the witch has a jar full of eyes").
Cdlt, VIGNERON (talk) 14:24, 10 January 2018 (UTC)
What Vignerorn said. It is assumed that in these cases we would have separate Lexemes. It is also assumed that these situations are quite rare (the development team uses the German word de:wikt:See as the standard example).
Alternatively, statements and qualifiers could be used to restrict a certain Form, but just based on my gut feeling, I would strongly favor separate Lexemes. On the other hand, if the data turns out to make that impractical, other solutions have to be considered - such as statements or qualifiers. --Denny (talk) 16:13, 10 January 2018 (UTC)
Return to the project page "Lexicographical data/Archive/2018/01".