User:Simon Villeneuve/OpenRefine

Guide de nettoyage de données

edit
  1. Vérifier les lignes et colonnes entièrement vides
    1. Lignes : Dans la colonne "toutes", choisir Facette -> facette par valeur vide -> supprimer les lignes entièrement vides
    2. Colonnes : Dans la colonne "toutes", choisir Facette -> valeurs vides par colonne -> supprimer les colonnes qui ont un nombre de valeurs vides égal au nombre de lignes du projet
  2. Créer une nouvelle colonne à partir de colonnes déjà existantes
    1. Sélectionner l'une des colonnes -> éditer la colonne -> joindre des colonnes -> Ecrire le résultat dans une nouvelle colonne nommée
  3. Séparer les cellules multi-évaluées
    1. Éditer les cellules -> Diviser les cellules multiévaluées
    2. types de séparateurs : , / -
  4. Repérer les doublons
    1. Voir en: lignes
    2. dans la colonne ciblée -> facette -> facettes personnalisées -> facette par valeur vide (retirer les valeurs vides entre les valeurs)
    3. facettes -> facettes personnalisées -> facette doublons
    4. trier -> options par défaut
    5. éditer les cellules -> vider les valeurs répétées dans des cellules consécutives
  5. Réconciliation
    1. D'abord réconcilier les colonnes les plus évidentes. Elles pourront être utilisées par la suite pour faciliter la réconciliation des colonnes moins évidentes.
    2. Passer une première fois, puis sélectionner les (none) et passer une autre fois avec un critère ou catalogue différent.
    3. facette -> facette textuelle, puis sélectionner "compte" pour ordre décroissant d'occurence
    4. lier ou non au meilleur choix à la fin
  6. Créer de nouveaux éléments
    1. mode ligne : Éditer les cellules -> vider les valeurs répétées dans des cellules consécutives
    2. Réconcilier -> Action -> Créer un nouvel élément pour les cellules similaires
  7. Remplir les vides
    1. colonne principale : Éditer les cellules -> Recopier les valeurs dans les cellules vides consécutives

Pièges

edit
  • Construction d'une URL -> attention aux lettres accentuées

Outils

edit
OpenRefine
  • https://wikidata.reconci.link/ , https://github.com/OpenRefine/OpenRefine/wiki/General-Refine-Expression-Language et https://docs.openrefine.org/manual/grelfunctions
  • value.split('/')[-1]
  • rechercher-remplacer : value.replace("VALEURCHERCHÉE","VALEURREMPLACÉE").replace(ibid)...
    • encadrer avec barre oblique / pour REGEX avec guillemets droits pour remplacer, avec \ comme d'hab (exemple : value.replace(/\+1\-(...)(...)(....)/,"+1-$1-$2-$3"))
  • OpenRefine ne semble pas aimer l'opérateur ?
  • précision sur l'année pour une date : P577@year dans la colonne "Comme propriété" de la réconciliation
  • copier une valeur lorsqu'une ligne multiévaluée est divisée : sélectionner Toutes -> Transformer et écrire row.record.cells[columnName].value[0] en désélectionnant la colonne multiévaluée
  • diviser multi-évaluée avec retour-chariot : remplacer "/n" par ","
  • ajouter http:// à tout URL qui ne débute pas par cela
    • value.replace(/^(?!http)/,"http://")
Tableur
  • Dans une équation, une référence absolue se crée lorsque l'on utilise le symbole $. Ainsi, par exemple, si on étend la formule suivante à une colonne entière :  , la plage B2:B700 sera fixe, alors que la place C2 s'incrémentera pour chaque cellule.