User:Pmartinolli/Tutoriel chercheur

Tutoriel pour indexer les identifiants de chercheurs, de publications ou d'institutions de recherche edit

  • Créez-vous un compte Wikimedia, si ce n'est pas déjà fait.
  • Connectez-vous avec ce compte.

Renseignez manuellement un item Q existant d'un chercheur edit

Préparez edit

  • Allez sur Wikidata. Dans la case de recherche en haut à gauche, saisissez un Prenom Nom d'un chercheur renommé que vous connaissez. Le but est de trouver un élément Q existant à son nom. Si vous en trouvez un ou plusieurs, vérifiez lequel correspond à votre chercheur.
    • Le moteur de recherche n'est pas performant.
    • Dans quelques cas rares, il se peut qu'il y ait doublon. Voir section Gestion des doublons.
  • Vérifiez que les informations déjà existantes sont exactes.

Vérifiez edit

La bibliothécaire peut simplement superviser la tâche d'indexation faites par un.e technicien.ne et ensuite faire les vérifications. J'ai remarqué qu'il faut environ une demi-journée (3h30) pour réviser tous les identifiants de tous les professeurs de 3 départements (soit environ 100 personnes) et faire 170 modifications ou ajouts. Habituellement, il y a moins d'une demi-douzaine de cas qui demandent une investigation plus poussée (doublons, erreurs, oubli de création, etc.).

Parmi les erreurs communes : occupation = écrivain car le professeur a écrit un livre et un identifiant a été créé à partir d'un catalogue. Remplacer par chercheur.

Requête pour vérifier un item edit

Parfois un item ne renvoie qu'un prénom nom et quelques déclarations trop imprécises. Pour savoir tous les items Wikidata qui utilisent ce dernier. Utilisez la requête suivante en remplaçant l'item Q par celui du chercheur :

SELECT ?node ?property WHERE {?node ?property wd:Q3572699 }
Try it!

Complétez edit

  • Complétez manuellement les informations minimales manquantes :
    • Label (en) : Prénom Nom usuel en anglais
    • Label (en) : Prénom Nom usuel en français
  • Description (en) : researcher in [field of work]
    • IMPORTANT : la première lettre de la description devrait être en minuscule, comme si nous étions en milieu de phrase, à moins que le mot soit toujours avec une majuscule (exemples valides : researcher, researcher in economics, anthropology researcher, French literature scholar, scholar of French literature)
  • Description (fr) : chercheur en [discipline de recherche]
    • IMPORTANT : la première lettre de la description devrait être en minuscule, comme si nous étions en milieu de phrase (exemples valides : chercheuse en génétique, chercheur en anthropologie, chercheur)
  • Also know as : par exemple le chercheur J.R.R Tolkien. Permet de retrouver plus facilement le chercheur si un usager saisit une autre forme du nom.
  • instance of (P31) = Human (Q5)
    • Si manquant, cliquez sur +add statement, puis dans la 1ère case cherchez "Instance of" ou "P31" et dans la 2e case cherchez "Human" ou "Q5". Cliquez enfin sur Publish ou tapez Entrée.
  • sex or gender (P21) = female (Q6581072) ou male (Q6581097)
    • Si autres, assurez-vous que les informations soient exactes, ne soient pas diffamantes ou n'enfreignent pas la vie privée. (exemple : Jennel Jacquays une conceptrice de jeu)
  • occupation (P106) = researcher (Q1650915)
  • field of work (P101) = choisir la discipline.
    • Notez de renseigner la même discipline générique pour tous les chercheurs d'un même département. Il est possible de rajouter des sous-disciplines si le professeur a une spécialisation. J'ai remarqué qu'en informatique, les chercheurs utilisent plutôt leur spécialité (ex: deep learning (Q197536)) à la place de la discipline plus générale (ex: computer science (Q21198)).
    • Voir liste des disciplines de sciences sociales, sciences humaines et arts de ma bibliothèque ci-dessous (faites-vous votre propre liste).
  • employer (p108) = Université de Montréal (Q392189) ou HEC Montréal (Q273527) ou Polytechnique Montréal (Q273619) .
    • En 2020, il y a beaucoup de chance pour que votre université ait un élément Q. Si ce n'est pas le cas, faites une recherche plus approfondie et si elle est infructueuse, créez un élément Q pour votre institution. Il faudrait qu'elle ait au minimum : Label, description, also known as (initiales), instance of (P21)=university(Q3918), inception (date de création), country, official website.
  • affiliation (P1416) = QID du département (exemple). Ne pas inclure les professeurs invités.
    • Position held (P39) = QID du statut de professeur.
    • Point in time ou Start time/End time : date
  • ORCID iD (P496) = identifiant à 16 chiffres s'il existe et si vous le connaissez.
  • Google Scholar author ID (P1960) = identifiant alphanumérique ressemblant à YceAuWYAAAAJ par exemple. Utiliser cette recherche de profil (en cherchant avec Prénom Nom).

Liste des départements/écoles de mes disciplines en lettres, sciences sociales et humaines (pour le champ Affiliation) edit

Mes départements
item Q Département
Q112918650 Histoire
Q112918626 Science politique
Q23817644 EBSI
Q111512221 Démographie
Q112918669 Criminologie
Q112918679 Relations industrielles
Q112918688 Travail social
Q112918697 Institut études religieuses
Q112918638 Sociologie
Q112918632 Sciences économiques
Q112918616 Philosophie
Q112918207 Littératures et de langues du monde
Q112918660 Histoire de l'art et études cinématographiques
Q112917814 Linguistique et traduction
Q111534412 Littératures de langue française


Pour aller plus loin... edit

Vous pouvez aussi renseigner les statements suivants s'ils sont disponibles :

  • given name (P735) = QID du prénom si existant
  • family name (P734) = QID du nom si existant
  • award received (P166) = QID de prix, récompenses, distinctions, etc.
  • doctoral advisor (P184) = QID
  • educated at (P69) : QID de l'institution qui a délivré le doctorat.
    • Puis aller encore plus loin en ajoutant des identifiers sur ce statement.
    • +add identifier : academic degree (P512) = Doctor of Philosophy (Q752297)
    • +add identifier : academic major (P812) = QID
    • +add identifier : point in time (P585) = YYYY, ou YYYY-MM, ou YYYY-MM-DD.
  • country of citizenship (P27) = QID
  • member of (P463) : QID de sociétés savantes, etc.
  • official website : si le chercheur a un site web officiel personnel
  • ResearcherID et Publons ID
  • Academia.edu profile URL
  • ResearchGate profile ID
  • Scopus author ID
  • Twitter username
  • LinkedIn personal profile ID

Faites ceci pour d'autres chercheurs pour vous faire la main.

Si un chercheur n'a pas encore d'item Q, créez-en un à partir de zéro avec le menu de gauche : Create new item.

Si l'information est nulle ou inconnue : cliquer sur Edit, puis sur les icônes rectangulaires Custom value juste avant la case. Sélectionner None ou Unknown.

Liste de mes disciplines en lettres, sciences sociales et humaines edit

Mes disciplines
item Q field of work
Q309 history
Q36442 political science
Q199655 library science
Q37732 demography
Q161733 criminology
Q932071 industrial relations
Q205398 social work
Q34187 religious studies
Q21201 sociology
Q8134 economics
Q5891 philosophy
Q208217 literary studies
Q50637 history of art
Q8162 linguistics
Q6689 French literature

Pour aller plus loin : la liste de 65000 concepts de OpenAlex, classés en 5 niveaux et alignés avec Wikidata.

Liste des statuts de professeurs edit

item Q occupation EN occupation FR
Q1650915 researcher chercheur
Q25339110 full professor professeur, professeur titulaire
Q9344260 associate professor professeur agrégé (système : Amérique du Nord)
Q3406827 professeur agrégé (France) non-adapté pour le Québec
Q5669847 assistant professor professeur adjoint
Q211830 Professor Emeritus professeur émérite
Q338337 honorary professor professeur honoraire
Q1266283 senior lecturer chargé de cours, professeur associé
Q357813 adjunct professor professeur associé (autre appellation)
Q94084 visiting professor professeur ou chercheur invité
Q5133792 clinical professor professeur de clinique (tout rang)
Q113681169 professeur sous octroi (tout rang)
Q1569495 lecturer chargé de cours (il y a aussi Q7456139 que je n'utilise pas)
Q93576386 department director directeur de département
Q723682 dean doyen
Q11827459 vice dean vice-doyen
Q212071 rector recteur
Q2113250 prorector vice-recteur
Q1622272 university teacher très (trop?) générique

Suggestion (plus développée) : Utiliser d'abord Affiliation (P1416) = qid du department. En qualifiers : Position held (P39) = status du tableau + point in time (année actuelle où le statement est vrai) OU encore mieux : start date/end date. Exemple

Liste des statuts par l'UdeM

Récompenses et prix edit

  • Award received (P166) = honorary doctorate (Q11415564)
    • conferred by (P1027) = UdeM (Q392189)
    • point in time (P585)
    • reference = reference URL (P854)

Gérez les doublons edit

  • Voir la page dédiée pour paramétrer son compte et ajouter une extension qui permet de fusionner les doublons.
  • Si vous repérez un doublon, allez dans un des deux. Puis (en haut à droite) : More > Merge with...
    • Ensuite le plus récent des deux sera fusionné avec le plus ancien et les renvois automatiques seront faits.
    • Il peut y avoir parfois des conflits à résoudre.
    • Plusieurs chercheurs de mathématiques ont été créés en 2019-2020 à partir d'une base de données mais sans recherche d'antécédents, ce qui a engendré de nombreux doublons.

Renseigner les items Q en lot edit

Renseigner manuellement les items Q est précis mais fastidieux. À un moment donné, il peut être plus productif de renseigner ces items en lot. ATTENTION à ne pas faire de bêtises, allez-y progressivement et en testant vos procédures.

Préparation edit

En dehors de Wikidata, vous allez manipuler un tableur (comme Calc de LibreOffice) et un éditeur de texte avancé (comme Notepad++). Puis vous allez soumettre vos données en lot à une application nommée Quickstatements qui va les verser dans Wikidata.

Tableau de données dans le logiciel Calc edit

  • Dans Calc, créez un nouveau document (un tableau) avec comme colonne A : exactement qid (pour item Wikidata), et colonne B : exactement Len (pour Label english, ie. les prénom et nom usuels du chercheur).
    • On peut faire pareil dans MS Excel mais ma préférence va à Calc parce que c'est un logiciel libre et il gère très bien le format CSV.
  • Versez la liste de noms des chercheurs d'un département dans la colonne B.
  • Pour chaque chercheur, vérifiez si l'item Wikidata existe. Si oui, indiquez-le.
    • Vous remarquerez que le moteur de recherche de Wikidata n'est pas performant et qu'il peut passer à côté de résultats.
    • La forme qui fonctionne le mieux en recherche est « Prénom Nom ».
    • Si vous ne trouvez pas, n'utilisez pas les initiales intermédiaires comme dans certains noms comme « Howard P. Lovecraft » et préférez « Howard Lovecraft ».
    • Aussi, ne vous contentez pas de la proposition semi-automatique sous la boîte de recherche mais cliquez sur la loupe ou tapez Enter pour avoir une liste complète de résultats. Explorez finement les résultats.
    • Oui, c'est une étape fastidieuse. Mais on ne peut pas en faire l'économie ni la simplifier. C'est la base de tout le travail futur et la garantie de ne pas créer de doublons, ou pire encore : associer les éléments d'un chercheur à un autre chercheur qui se nomme pareil. Les cas ne sont pas rares. Par exemple, il existe DEUX professeurs de science politique d'âges similaires et francophones qui portent le même nom (« Pierre Martin ») l'un est chercheur à Montréal et l'autre à Grenoble.
Exemple fictif de tableau que vous pourriez avoir
qid Len
Q85497589475 Jean Bon
Q7834758455 Ana L. Fabette
Paul Position
Rick Tusse
Q4385748578 Martine Oli
  • Dans le logiciel Calc, enregistrez ce tableau au format standard du logiciel (classeur ODS).
  • Ajoutez une colonne D nommée Den (ie. description). Dans chaque cellule en dessous, inscrivez researcher.
  • Ajoutez une colonne D nommée P31 (ie. instance of). Dans chaque cellule en dessous, inscrivez Q5 (human).
  • Ajoutez une colonne E nommée P106 (ie. occupation). Dans chaque cellule en dessous, inscrivez Q1650915 (researcher).

Dans un éditeur de texte edit

  • Enregistrez une autre copie au format CSV. C'est un format d'échange de données tabulées très simple. Ouvrez le fichier CSV avec un éditeur de texte comme Notepad++, cela devrait ressembler plus ou moins à ceci :
qid,Len,Den,P31,P106
Q85497589475,"Jean Bon","researcher",Q5,Q1650915
Q7834758455,"Ana L. Fabette","researcher",Q5,Q1650915
,"Paul Position","researcher",Q5,Q1650915
,"Rick Tusse","researcher",Q5,Q1650915
Q4385748578,"Martine Oli","researcher",Q5,Q1650915
  • Si les informations ne sont pas formatées de manière valide telles que ci-dessus, utilisez les fonctions de multiremplacement pour modifier votre fichier CSV (Ctrl+H). Je pense principalement aux guillemets " qui permettent de saisir une valeur texte.
    • Les triples """ sont très utiles pour certaines valeurs (URL par exemple).
    • Les lignes sans item Q commencent par une virgule, c'est normal.
    • Voici quelques clés pour faire des multiremplacements en mode étendu dans Notepad++ :
      • \t : tabulation
      • \r\n : saut de ligne
  • Pour exporter au format csv avec des variables textes encadrées de "" et des variables Q sans guillemets :
    • Exporter les colonnes au format csv en encadrant toutes les variables avec des ""
    • Utiliser les expressions régulières de Notepad++ pour remplacer : "Q([0-9]+)" par Q\1. et ainsi enlever les guillemets aux variables Q.
  • Pour saisir des dates avec comme précision seulement l'année, le fichier CSV devrait ressembler à ceci (exemple fictif avec date de publication P577 = 1983) :
qid,P577
Q16246270,+1983-00-00T00:00:00Z/9

Dans Quickstatements edit

  • Allez dans l'application Quickstatements, connectez-vous avec vos identifiants Wikimedia.
  • Sélectionnez New batch.
  • Donnez un nom à votre versement dans la case : as batch name.
  • Copier-coller le contenu du fichier CSV valide.
    • SUGGESTION : faites un premier test en ne sélectionnant que les 2 premières lignes (la ligne de titre commençant par qid et le premier item).
  • Cliquez sur le bouton Import CSV commands.
  • Une liste des tâches s'affiche. Cliquez sur Run.
    • Si le processus s'interrompt un certain temps, cliquez sur Stop puis relancez. Prenez en note les éléments qui ont été sauté.
    • Parfois une erreur est mentionnée, allez résoudre le problème manuellement. Par exemple, il se peut que deux items avec le même label (le "prénom nom" par exemple) aient la même description ("researcher" par exemple) : changez légèrement la description ("researcher in political science" par exemple).
    • Vous remarquez que les informations déjà présentes dans Wikidata sont ignorées (avec un signe !).
    • Vous remarquez que les items Q qui n'existent pas encore sont créés.
  • Allez vérifier dans quelques items que les informations sont bien saisies.
  • Ci-dessus, on peut voir que j'ai utilisé 5 colonnes d'un coup. Cependant, quand je fais des modifications avec Quickstatements, je n'utilise que 2 colonnes pour chaque Batch (une pour qid et l'autre pour l'information que je veux changer). Ainsi, c'est plus facile de produire des fichiers CSV bien valide et de traquer les erreurs.
  • Champs Title (P1476) avec langue : qid,P1476

Q11281471,"en:""Un titre, avec une virgule dedans"""

Lier leurs publications edit

De nombreux articles révisés par les pairs ou des livres se trouvent dans Wikidata. Souvent, ils sont créés par des robots qui récupèrent les sources dans les références des pages Wikipédia. Il existe deux Properties pour indiquer l'auteur : ou bien Author (P36) suivi de l'identifiant de l'auteur (exemple); ou bien Author Name String (P2093) avec le nom de l'auteur rédigé dans un champ texte (donc non rattaché à un élément contrôlé d'autorité, exemple). Si vous repérez des publications avec des Author Name String, remplacez-les par Author et le nom du chercheur.

Author Disambiguator edit

Il existe une application pour automatiser les choses : Author Disambiguator.

Cherchez avec le Prénom Nom (éviter NOM Prénom car elle est super sensible, notez que Prénom Nom ignore les articles attribués à Prénom I Nom avec initiales au milieu). Puis sélectionnez toutes ses publications en dessous. Puis sélectionnez son Qid. Puis Lancez.

Créer des publications edit

Wikidata contient déjà plusieurs millions d'articles scientifiques. Si une publication n'existe pas encore, il est possible de la créer si elle correspond aux critères de notoriété de Wikidata. TL;DR : tout article révisé par les pairs et toute monographie d'une presse universitaire ou d'une société savante est notable.

Création manuelle edit

Informations minimum à indexer :

  • Instance of = scholarly article ou scientific work (scientific reference work si très notable)
  • Publication date
  • Author (lié au QID du chercheur) ou Author name string (écrit manuellement si QID inexistant).
    • Qualifier : series ordinal = 1 ou 2 ou 3... selon l'ordre de mention de chaque auteur.
  • Published in (pour un article)
  • Publisher (pour un livre)
  • DOI: si existant

Création avec Cita et QuickStatements edit

  • Il est possible de créer semi-automatiquement un élément Wikidata avec l'extension Cita pour Zotero.

Elle permet de créer un code d'importation QuickStatements pour faciliter la saisie.

  • IMPORTANT : Publisher (livre) ou Published in (article) doit être rajouté ensuite manuellement pour les maisons d'édition ou les revues.

Amélioration de l'indexation edit

Voici les informations qui améliorent la qualité d'indexation d'un document :

  • Description et aliases
  • Main subject
  • Cited works : autres éléments Wikidata cités dans l’œuvre
  • Title : Titre exact dans la langue originale (avec indication de la langue)
  • Language of work or name
  • Identifiants pérennes externes : ISBN-13, VIAF, Open Library ID, etc.

Exemple de flux de travail Zotero-Cita-Wikidata edit

  • Extraire les données d'une base de données bibliographiques avec la meilleure qualité de référence possible.
  • Créer une collection dans Zotero pour y importer les références bibliographiques.
  • Sélectionner tout > Cita > Obtenir les DOI
  • Rajouter et colorer le marqueur _QID à toutes les références contenant le terme qid dans Extra (ou partout).
    • Pour les références AVEC _QID :
      • Prendre une référence > onglet Citations : clic sur DOI et clic sur QID (en bas).
        • Ajouter le titre en français dans le label fr (boîte de description) et dans le title (P1476) [quasiment toujours absent]
        • Ajouter language of work or name (P407) = French (Q150) [très souvent absent]
        • Supprimer les crochets [ ] dans les titres en anglais
    • Pour les références SANS _QID :
      • Nettoyer la référence dans Zotero : titre (attention à la casse), langue (code : en ou fr)
      • Sélectionner la référence > Cita > Obtenir les DOI : Echec > Souhaitez-vous... OK > Utiliser QuickStatements > OK. Dans QuickStatements : coller le texte + Import V1.
      • IMPORTANT : Publisher (livre) ou Published in (article) doit être rajouté ensuite manuellement pour les maisons d'édition ou les revues.
  • Vérifier quel auteur est UdeM dans l'article en ligne
    • Si cet auteur est author name string : créer le QID du chercheur ou author + passer un coup de Author-disambiguator.
    • Si cet auteur est author : vérifier qu'il est bien employer = UdeM

Cita en lot (une revue à la fois) edit

  • Vérifier que les données dans Zotero sont bien formattées et qu'il n'y a pas de doublons déjà présents dans Wikidata. On privilégiera les références avec des DOI.
  • Envoyer les références dans Wikidata :
    • Zotero : Sélectionner toutes les références. Exporter les documents > Wikidata Quickstatements
    • Ouvrir Quickstatements et copier-coller le résultat. Lancer.
  • Ajouter la propriété Published in en lot :
    • Attendre quelques minutes.
    • Zotero > Sélectionner toutes les références > Cita > récupérer les qid
    • Zotero > Sélectionner toutes les références > Exporter au format CSL-JSON
    • Ouvrir un extracteur JSON comme JSONPath : copier-coller le contenu du résultat JSON dans la première fenêtre et appliquer le filtre : $..note pour extraire les qid du champ Extra.
    • Copier-coller le résultat, le nettoyer, appliquer une colonne Published in (P1433) et envoyer le tout via Quickstatements.
  • Ajouter le label+description en français (si besoin):
    • Lancer une requête pour extraire tous les titres en français, basée sur Published in (P1433) ou la liste des QID.
    • Travailler le fichier en csv avec LibreOffice Calc.

qid,Lfr,Dfr

Q0000000,"Titre de l'article ici","article universitaire"

    • Le renvoyer avec Quickstatements.

Exemple de flux de travail DOI-Zotero(Cita)-OpenRefine-QS edit

Idéal pour plusieurs articles de différentes revues. À partir d'une liste de DOI. Le champ Published in est réconcilié par OpenRefine.

  • Extraire une liste de DOI purs (chaque ligne commence par 10.). Il y a un DOI par ligne.
    • Choisir une base de données. Lancer une requête. Exporter les résultats voulus au format RIS.
      • Exemple de code en Python permettant de récupérer une liste de DOI à partir d'un ISSN (exemple avec Science Fiction Studies)
# -*- coding: utf-8 -*-
"""
Created on Thu Jul  6 10:39:16 2023

@author: Pascaliensis with ChatGPT 3.5 + REST API doc of Crossref 
"""

# https://github.com/CrossRef/rest-api-doc 

import requests

# Construct the API request URL
# base_url = 'https://api.crossref.org/works'
base_url = 'https://api.crossref.org/journals/0091-7729/works'
query_params = {
    #'query.container-title': '"Science Fiction Studies"', # Specify the journal's name
    'filter': 'type:journal-article,from-pub-date:1973,until-pub-date:2023',
    'rows': 1000,  # Don't increase this number (max quota/threshold for error 400)
}
response = requests.get(base_url, params=query_params)

# Check the response status
if response.status_code == 200:
    # Extract the DOIs from the response
    data = response.json()
    if 'items' in data['message']:
        dois = [item['DOI'] for item in data['message']['items']]
        
        # Write DOIs to a text file
        with open('dois.txt', 'w') as file:
            for doi in dois:
                file.write(doi + '\n')
        print('DOIs written to "dois.txt"')
        
    else:
        print('No items found for the specified journal.')
else:
    print('Error:', response.status_code)
    • Ouvrir le fichier RIS avec Notepad++. Edition > Lignes > Trier : ne garder que les lignes contenant les DOI. Supprimer les débuts de ligne "DO - " par multiremplacements.
  • Copier-coller cette liste de DOI dans Zotero grâce à la baguette magique.
    • Attendre un petit peu car cela peut prendre du temps s'il y a beaucoup de DOI (ma limite : 500 à la fois).
      • Cet outil se base sur CrossRef, DataCite, etc. (normalement tous les principaux distributeurs de DOI).
  • Dans Zotero, créer des recherches enregistrées qui vont superviser le nettoyage des données :
    • Recherche enregistrée 1 : liste les références qui seront ignorées car déjà présentes dans Wikidata.
      • Nom = « 1 : avec QID »
      • Extra : contient = qid
    • Recherche enregistrée 2 : repère les champs langues vides. Utiliser en, fr, pt, es, ...
      • Nom : « 2 : sans langue »
      • Langue : contient = %
    • Recherche enregistrée 3 : repère les codes html dans les titres. À supprimer.
      • Nom : « 3 : avec hmtl »
      • Titre : contient = <
    • Recherche enregistrée 4 : repère quelques compte rendus de lecture. J'ai fait le choix de les supprimer.
      • Nom : « 4 - book review »
      • Titre contient : (un par ligne séparé par Au moins une des conditions suivantes) pp. paperback pbk £ $ press isbn
    • Recherche enregistrée finale : liste prête à l'exportation vers QuickStatements.
    • Nom : « Final - OK pour QS »
    • Extra : ne contient pas = qid
    • Langue : ne contient pas = %
    • Titre : ne contient pas = <
  • Utiliser Cita pour repérer quels articles sont déjà dans Wikidata.
    • Aller dans Ma Bibliothèque pour sélectionner toutes les références.
    • Clic-droit Cita > obtenir les QID
      • Parfois, Cita bloque donc ne le faire que pour des lots de maximum 200 à la fois.
      • Attendre un peu.
      • Observer que les références arrivent dans les recherches enregistrées.
      • Il est possible de vérifier que Cita a bien fait son travail avec un test de contrôle : lancer une requête SPARQL pour vérifier (voir plus bas pour la syntaxe à utiliser à partir des DOI).
  • Utiliser des marqueurs colorés _rejeté_QID, _rejeté_BookReview, etc. pour indiquer les articles à ignorer dans le traitement.
  • Nettoyer le reste des références si besoin :
    • Titres tout en majuscule : à changer ?
    • Pas d'auteur.
    • Publication retracted (ça arrive).
    • Enlever les Editorials
    • Langue : vérifier chacune en fonction du titre (parfois c'est indiqué en alors que c'est fr ou es).
    • Titres tout en majuscules : changer la casse ?
    • Problèmes d'encodage de caractères : cédille (François) ou ï (Moïse) ou ü (Pflügers) ou autre : faire une passe de vérification dans le fichier prêt pour QS en cherchant : �
  • Nettoyer les codes html dans Zotero avec multiremplacements
    • Ouvrir la console Javascript.
    • Coller le code :
var fieldName = "title";
 
var fieldID = Zotero.ItemFields.getID(fieldName);
var s = new Zotero.Search();
s.libraryID = Zotero.Libraries.userLibraryID;
s.addCondition(fieldName, 'contains', ' <sup>e</sup>'); // chercher XXXXXX
var ids = await s.search();
if (!ids.length) {
    return "No items found";
}
await Zotero.DB.executeTransaction(async function () {
    for (let id of ids) {
        let item = await Zotero.Items.getAsync(id);
        let mappedFieldID = Zotero.ItemFields.getFieldIDFromTypeAndBase(item.itemTypeID, fieldName);
        let fieldID = mappedFieldID || fieldID;
        item.setField(fieldID, item.getField(fieldID).replace(/ {2,}/g, 'e')); // remplacer par YYYYYYY
        await item.save({
        	skipDateModifiedUpdate: true
        });
    }
});
return ids.length + " item(s) updated";
    • Remplacer XXXXX=<sup>e</sup> et YYYYY=e par d'autres séries:
      • <i> par rien
      • </i> par rien
      • double espace par rien
      • Liste des champs
  • Quand tout est prêt, faire une exportation de la Bibliothèque Zotero pour archiver le travail fait (avec les marqueurs rejetés, les recherches enregistrées, etc.) : au format Zotero RDF.
  • Les articles qui se trouvent dans la recherche enregistrée no. 4 : les sélectionner tous, clic-droit Exporter les documents > Format Wikidata QuickStatements.
  • Ouvrir ce fichier exporté avec Notepad++. Sélectionner tout. Copier.
  • Coller dans QuickStatements. Méthode V1. Lancer.
    • Relancer les erreurs.
    • Parfois un titre (label) est trop long. Raccourcir.
  • Attendre au moins 15 minutes après la fin de QS (car tout n'est pas encore rafraichi sur le serveur SPARQL)
    • Puis récupérer les qid générés en utilisant cette requête :
SELECT DISTINCT ?item ?doi ?itemDescription WHERE {
  VALUES ?doi { "10.1002/ab.21963"
"10.1002/ajim.23256"
"10.1016/j.chb.2021.107149"
 }
  ?item wdt:P356 ?doi .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}
Try it!
    • NB: le fichier des DOI doit être traité pour commencer et finir les DOI par "" ou par ''. De plus, les DOI doivent être mis en majuscules pour être reconnus par Wikidata SPARQL si ça fait longtemps qu'ils sont sur Wikidata car il y a des robots qui mettent les DOI en majuscules au bout d'un certain temps.
    • Exporter le résultat de la requête au format CSV.
  • Dans OpenRefine:
    • Create project > sélectionner le fichier query.csv > [rien à toucher] > Create project.
    • Ajouter une colonne avec le nom de la revue seulement : Sélectionner la colonne itemDescription > Edit column > Add column based on this column...
      • New column name : Published in
      • Language = Python/Jython
      • Expression =
import re

x = value.replace("journal article from '","")

x2 = x.replace("book section from '","")

y = x2.replace("' published in "," ")

z = re.sub(r"[0-9]", "",y)

return(z)
    • Cliquer sur la colonne Published in > Reconcile > Start Reconciling
      • Sélectionner Wikidata.reconci.link dans la colonne de gauche.
      • Sélectionner Scientific journal.
      • Start reconciling.
        • Choisir manuellement ce qui n'a pas été automatiquement (et choisir Match all identical cells).
        • Sélectionner manuellement ce qui n'a pas été trouvé avec Search for matches.
        • Créer de nouvelles revues (rare).
    • Colonne Published in (réconciliée à 100%) : Edit column > Add column from reconciled values... > Add property : écrire qid et sélectionner SPARQL:qid > OK.
    • Renommer cette colonne Qid > Edit column > Rename column > P1433
    • Exporter le tableau en CSV : Export > comma-separated value. Ouvrir avec OpenOffice Calc, nettoyer pour ne garder que la 1ère colonne (à renommer qid) et la colonne P1433.
    • Exporter vers QS.

Divers modèles d'indexation edit

Curiosités edit

  • Quelques rétractions (découvertes grace à Retraction Watch et son API automatiquement installée dans Zotero).
  • Le QID d'un document tellement gros (2.93 MB) qu'on ne peut plus le modifier : Q22676705

Enjeux et suggestions de pistes de développement edit

  • Éléments Wikidata inexistants :
    • Pour de nombreux chercheurs existants.
    • Pour les jeunes chercheurs doctorants et post-doc.
    • Pour des chercheurs passés.
  • Éléments Wikidata incomplets :
    • Établir une liste des statements prioritaires.
  • Travail sur les institutions :
    • Laboratoires, chaires, prix, etc.
    • Tissage de l'ontologie (qui est affilié à qui, etc.).
    • Devient un bottin utile pour s'y repérer (en cas de changement de noms, de fusion, etc.) et pour documenter l'histoire des institutions.
  • Demander des URLs stables aux services d'archives.
  • Enrichissement sémantiques intéressants :
    • Thèmes : Field of Work
    • Filiations : Qui a influencé qui ? est l'étudiant de qui ? etc.
  • Utilité de Wikidata pour les publications :
    • Repérer quel chercheur est dans le graphe relationnel d'un autre mais qui n'a jamais collaboré avec lui (pour aider un éditeur de revue scientifique à repérer les réviseurs potentiels).

Propriétés et institutions edit

  • Part of = UdeM : pour les facultés et les départements
  • Affiliation = UdeM : pour les hôpitaux
  • Parent organisation : entre les départements+facultés / faculté+UdeM / labo+département / etc.
  • Owned by = UdeM : pour le CEPSUM par exemple
  • Partnership with = UdeM : pour le Mila par exemple
  • Funder = UdeM : pour un centre de recherche financé par l’UdeM
  • Sponsor = UdeM : pour un centre de recherche soutenu par l’UdeM

Données du SADVR edit

Modèle-cadre d'indexation des identifiants d'une université, ses éléments et sa communauté edit

Créer 2 listes centrales edit

  • Si possible au format tableur (LibreOffice Calc ou MS Excel).
  • Créer d'abord : Une liste des institutions
  • Créer ensuite : Une liste des chercheurs


Liste des institutions edit

  • Récupérer (ou créer si inexistant) le QID de l'université.
    • Enrichir le QID avec le plus d'informations pertinentes.
    • Vérifier qu'il n'y a pas de doublons ou d’ambiguïtés.
    • Ajouter des aliases si besoin.
  • Récupérer (mais c'est rare, alors créer si inexistant), les QID des facultés de l'université.
  • Récupérer (mais c'est rare, alors créer si inexistant), les QID des départements de l'université.
  • Créer une liste en deux colonnes :
    • QID
    • Nom de l'institution recensée
  • Optionnel : ajouter les centres de recherche, les hôpitaux, etc. (à développer)

Liste des chercheurs edit

  • Récupérer tous les chercheurs qui ont déjà un QID et qui sont employés/affiliés à l'université.
  • Faire 4 colonnes :
    • QID
    • Nom du chercheur
    • Employeur
    • Affiliation
  • Prendre un département et faire le traitement suivant pour chaque professeur de la liste des professeurs (sauf professeurs invités).
    • Cliquer sur le nom du professeur pour atteindre sa page départementale.
    • Chercher si le professeur est déjà dans la liste (recherche avec UN nom de famille uniquement).
    • Si le professeur est dans la liste :
      • Vérifier que c'est le bon :
        • Dans la liste : il peut avoir d'autres professeurs de même nom issus d'autres départements.
        • Dans Wikidata : idem. Possibilité de doublons aussi. Lancer une recherche sous la forme "prénom nom".
      • Informations minimum :
      • Dans une 5e colonne : indiquer si les éléments du professeur ont été bonifié ou mettre une note pour le bonifier prochainement.
    • Si le professeur n'est pas dans la liste :
      • Créer un nouvel élément avec les informations minimum listées précédemment.
      • Ajouter une 5e colonne comme indiqué précédemment.