Wikidata:Gruppo Wikidata per Musei, Archivi e Biblioteche/Riviste FUP

Il progetto (novembre-dicembre 2022), finanziato da Wikimedia Italia (Q15136611), prevede l'importazione su Wikidata da parte di Alexmar983 dei metadati degli articoli disponibili in open access delle riviste Caryologia (Q3661018) e Substantia (Q111198802), pubblicate dalla Firenze University Press (Q3745980).

Gli articoli importati si caratterizzano per l'uso di author (P50) per indicare gli autori (che sono quindi rappresentati da singoli elementi, disambiguati dai principali omonimi) e, nella gran parte dei casi, per l'uso di main subject (P921) per indicare gli argomenti (che sono anch'essi rappresentati da elementi, integrati nell'ontologia di Wikidata e connessi ove possibile a thesaurus generalisti e disciplinari). L'importazione ha inoltre permesso di segnalare alcune imprecisioni nei dati bibliografici presenti nei siti delle riviste.

Import edit

Strategia edit

Se si fosse fatto un import semiautomatico come inizialmente prefigurato, molti problemi si sarebbero trascinati nel risultato finale: errori di battitura, discrepanze ordine autori. Altri si sarebbe comunque dovuti manualmente correggere (pagine mancanti).

In mancanza di riscontri dalla FUP per agevolare l'import di tutti i metadati, e considerando anche una certa mancanza di omogeneità nel sito della FUP (autori o affiliazioni mancanti), si è preferito un import semi-automatico rispetto al progetto. Open Refine è stato usato per ottimizzare e standardizzare ma il grosso del lavoro è stato fatto su fogli di dati revisionati manualmente, e creando in anticipo bozze di item su molti autori non-Europei particolarmente critici.

Alla fine è stato considerato più efficiente come rapporto tempo/risultato procedere de facto manualmente: per esempio le parole chiave ha senso inserirle se si apre e consulta l'abstract o il pdf, tutte cose che si fanno sicuramente se si devono controllare meglio gli autori e errori sul sito, e quindi si procedeva a rifinirle contestualmente senza tornare più volte. Si è lavorato di più, ma prodotto di più che non spezzettando il lavoro in più fasi o fra più utenti.

Forse per Substantia se ci fosse stata un'architettura di sito più agevole, l'approccio automatico con rifinitura quasi esclusivamente ex post avrebbe avuto senso, anche perché il grosso degli autori oltre essendo di meno per articolo erano italiani (e quindi godevano di buone schede), ma questo non era già più vero per Caryologia, che ha rappresentato il grosso del lavoro.

Articoli edit

Autori edit

Il lavoro di base sarebbe la semplice creazione dell'elemento autore con nome e cognome ove mancante, ma non è da ritenersi sufficiente per il livello medio di qualità che rende i metadati fruibili (analisi statistiche). Inoltre collegamenti delle schede autori a nuovi item di articoli come questo sono facilitate dalla ricchezza di informazioni come affiliazioni e identificativi esterni.

Per gli autori italiani solo il 20% manca, e la maggior parte del lavoro sono riconciliazione a elementi esistenti. In questo caso è logico puntare a una certa omogenità di livello, e inserire identificativi comuni (almeno due o tre fra ORCID, Reserachgate, SCOPUS, Google Scholar, talvolta LinkedIn), un lavoro che assorbe tempo soprattutto per autori stranieri in particolar modo cinesi e indiani.

Il lavoro sugli autori ove possibile è stato esteso anche agli omonimi per limitare fraintendimenti. Si è stimato un tempo di circa cinque minuti da parte di Alessandro Marchetti, oltre il quale Camillo si è occupato eventualmente di continuare a migliorare casi complessi (se presenti) per essere certi di minimizzare riconciliazioni errate in futuro. Questo permette un controllo incrociato accurato sulla qualità di ogni scheda autore soprattutto quelle più critiche e a rischio confusione.

Questo è fatto perché alla fine è un'allocazione più efficiente del tempo. Per avere delle metriche relative alle riviste dai metadati di Wikidata (es: genere o età degli autori) creare delle schede semiautomatiche con informazioni minimali oltre la semplice istanza di umano e informazioni biografie (nome e cognome) risulterebbe abbastanza inutile, e implicherebbe comunque rimandare in seguito un lavoro manuale di raffinamento. Anche se andare più in dettaglio richiede più tempo per il singolo operatore, globalmente fare tutto assieme per raggiungere una certa qualità ne richiede di meno e porta subito a una forma usufruibile appieno dei dati. Allo stesso tempo, una verifica incrociata è importante e quindi tanto vale farla sui casi più critici che sono appunto le omonimie.

Gli autori specific della rivista si possono stimare con qualche query, qui di seguito per visualizzare la portata del lavoro si riportano alcuni omonimi.

qui un esempio di omonimo che viene integrato dopo pochi giorni nella rete di metadati, a riporva dell'importanza del lavoro. Questo non è stato pensato come import limitato e massivo.

Per gli autori di Caryologia europei e nordamericani, sono risultati abbastanza frequenti i duplicati dei botanici creati con un flusso di lavoro diverso da quello dei ricercatori.

Autori minimali edit

Sono schede che includono al massimo l'affiliazione, non si riescono a collegare a altri archivi, con rischio frammentazione (si consiglia l'uso delle stringhe ma vengono fatti pro forma)


Questo elenco non include item che hanno un solo identificativo anche se mono-articolo (SCOPUS). Saranno destinati a qualche unione in futuro, ma solo con il miglioramento dei databasi esterni, però dovrebbe essere creato da Elsevier un link quindi il problema non si pone, e non necessitano di specifica attenzione. In alcuni casi tuttavia l'affiliazione riportata nell'articolo non è su Wikidata come elemnto rendendo l'elemento comunque molto "fragile" in termini di interconnettivitò:

Omonimi creati edit

Omonimi migliorati edit

Per gli autori cinesi può includere anche le forme invertite fra nome e cognome, e le varianti senza la i finale

Cognomi edit

Sono stati creati anche alcuni cognomi (circa un cognome mancante in media per issue di rivista) ma questa operazione è interamente delegata alla disponibilità di Pellizzari.

Considerazioni finali su nomi e cognomi edit

Per autori indiani gli omonimi sono talvolta numerosi e creano confusione, per quelli cinesi al problema dell'omonimia si aggiunge il fatto che la presenza in archivi è sempre parziale e frammentaria. Come si può intuire la standardizzazione degli omonimi è più efficiente con autori di origine occidentale, creando quindi una differenza ancora più marcata per operazioni semi-automatiche future. Il ritardo nella metadatazione dei ricercatori dell'Asia e dell'Africa è serio e import non esaustivi di dati bibliometrici di riviste possono esacerbare il problema, anziché migliorarlo.

Per ogni profilo migliorato, una quantità maggiore rischia di essere abbozzata con scarsa utilità o impatto per l'ordine futuro. Si è fatto impossibile per sistemare almeno un paio e spesso anche più omonimi laddove almeno i dati risultassero chiari, ma è un impatto ancora insufficiente.

Affiliazioni edit

Come con progetti simili è usuale migliorare elementi delle istituzioni degli autori, prevalentemente alias mancanti. Questo migliorerà future riconciliazioni da parte di bot e suggerimenti semiautomatici. Circa il 5%-10% degli autori processati (eventualmente anche omonimi) ha portato a migliorare elementi delle proprie università e centri di ricerca di affiliazione se provenienti da Europa o nord America. La situazione peggiora leggermente spostandosi verso India o Cina.

Elementi migliorati di istituzioni edit

Non include inserimenti semplici di un alias

Elementi creati di istituzioni edit

Argomenti edit

In assoluto gestire i collegamenti a elementi di argomenti è la parte (facoltativa) che si è rivelata più impegnativa subito dopo i profili di ricercatori russi o cinesi. Questo lavoro avrà un impatto positivo sull'uso di main subject (P921) per futuri import da operatori meno precisi.

Indicativamente riconciliare con precisione richiede ancora al momento la creazione di decine di nuovi concetti, si stima una carenza di circa il 20%-25% in entrambi i settori tematici delle due riviste. In ogni caso, una porzione resta non processata perché non è chiaro quanto concetti specifici siano utili e definiti. Le "keywords" sono stringhe e mai davvero concetti, sarebbe bene che nell'editoria sostituissero a queste stringhe parole un'ontologia chiara.

Operativamente finché un termine compare nei titoli di più pubblicazioni si procede a crearne l'elemento, e inserito anche come keyword in altri articoli già presenti per darne una certa robustezza prima dell'import con fonte based on heuristic (P887) inferred from title (Q69652283).

Le mancanze residuali sono di due tipi:

  1. alcuni sono troppo specifici (non compaiono come porzioni di titolo o keyword in altre pubblicazioni) e se ne preferisce una versione più generica, esempio enantioselectivity rispetto a history of enantioselectivity o Nobel Prize rispetto a Nobel Prize 2000, chloroform o ammonia rispetto a chloroform synthesis and uses o synthetic ammonia, didymium invece di history of didymium, fossils al posto di meaning of fossils. prevention per prevention strategies, e error rispetto a fortuitous error (in questo caso perché esiste già serendipity come altra parola chiave);
  2. alcuni potrebbero avere una ricorrenza, ma non risultano avere una descrizione precisa e non si è certi su come integrarli nell'ontologia generale; purtroppo gli elementi di concetti scientifici non sono così strutturati di partenza come altri settori, quindi non è utile fare il passo più lungo della gamba, perché creare elementi per semplice filiazione dalle parole chiave delle riviste indurrebbe non ordine ma lavoro aggiuntivo per gli utenti in modi che non si possono ben definire al momento. In generale, se il concetto è specifico e presente in altri articoli caricati su Wikidata, si fa il possibile per prenderlo in esame e fornire qualche sottoclasse chiara per definirlo.
  3. tutto quanto sembra sporadico, troppo specifico o tecnico è stato in generale ingorato e inserito con alcuni commenti nell'apposita sezione alla fine, qualora qualcuno altro volesse dedicarcisi in futuro.

Infine:

  1. alcuni sono stati non ignorati ma disgiunti, es. Catalysis and catalysts si è messo Catalysis e catalysts.
  2. alcuni sono stati corretti, in quanto calcati dall'italiano, es periodic system anziché periodic table

Argomenti creati - Substantia edit

Argomenti migliorati - Substantia edit

Si escludono modifiche minime tipo aggiunte di forme plurali negli alias

Argomenti per il futuro - Substantia edit

  • Substantia, vol. 1: power law, bar detector, Joseph Weber, transmutation, petrographical analyses, restoration materials, surface potential, interfacial potential, colloid interaction, electrokinetic slip, molecular sociology, aromatic endoperoxides, Betti base
  • Substantia, vol. 2: interfacial thermodynamics, inverse Bayes inference e coil hermeneutics
  • Substantia, vol. 3: gated-channel concept, pump-related diseases, liquid state structure (theory of liquid structure in statistical mechanics), surface analysis (e non solo surface science), archeometry (scorporare da archeological science?), molecular photovoltaics, gold refining, integrant molecule, ELISA (diagnostica), biomeasurement (scorporo da biostatistics), mineral precursor/precursor mineral, secondary source (per materiali, ma manca anche l'altro significato su fonti), unexpected separability, lunar rythmicities (in plants), molecular modulation, layered hybrid perovskites, Structural models (troppo generico?), Interacting Teaching Approaches, chemistry textbook, solid state packing, critical material(s), periodicity tree, Mendeleev Archives (fatto museo, in cui sono contenuti probabilmente), electrochemical technology, energy system transition (troppo simile a energy transition), irreversibility (ho messo irreversible process), water synthesis, Ethiopian secondary school, textbooks of chemistry, intergroup accommodation, carboncoal, H.G. Deming (autore tavola periodica nel 1923, editore o autore)
  • Substantia, vol. 4: elementary particle approach/elementary-particle approach (contenuto in alcuni articoli anni 70 ma nessuno ancora importato), period doubling (forse si capisce leggendo tutto l'articolo, ma sembra troppo specifico), metabolic treatment, 3M3P/Pollution Prevention Pays, LOTUS China Trial, coal-tar processing, transient collisions, Chemistry of Element/Properties of element/Application of Element (troppo generico?), bubble interaction, modern science (si confonde con altro, intende postcontemporanea), Nitrous Gas Test, Proportions of Combinations (probabilmente qualche dizione più specifica su scienza dei gas), helium gas (scorporare da helium), infection dynamics, zwitterionic polymer resin, Scientific Entertainment (ho messo scicomm, il concetto appare in evoluzione nelle fonti), Interactive Teaching Approaches, bubble inhibition, silica sphere, Toxic heavy metals, extracellular pressure, coalescence inhibition
  • Substantia, vol. 5: American science (messo in USA), Niagara Ammonia Company, Ion electrophoresis, candle burning, science popularization, Ladenburg's prism formula for benzene (forse con un termine generico, vedasi categoria commons), mixed mathematics
  • Substantia, vol. 6: -

Argomenti creati - Caryologia edit

Argomenti migliorati - Caryologia edit

Si escludono modifiche minime tipo aggiunte di forme plurali negli alias

Argomenti per il futuro - Caryologia edit

  • volume 72: Demond EC25, Karyotype stasis, Phytochrome A, natural hybrid, hemigamy, embryo less seeds (typo?), low seed set, umbel order, germplasm protection/germplasm conservation, karyotype evolution, ITS (tipo di marker), chromomycin fluorochrome banding, centromere staining, retrotransposon abundance, Illumina cDNA libraries, retrotransposon expression, DNA content, Melikerria (si usa la famiglia di solito perché unico genere?), antioxidant enzyme, male gametophytes
  • volume 73: cytochrome c (sembra mancare un termine geenrale non mischiato con quello umano, e nell'articolo era di specie vegetale), mitodepresive, caspase-1 like activity, pollen sterility, mathematical analysis (vedi anche statistical analysis), new cytotype, cytogenetic effects, species relationships, cytotype diversity, cytomixis and meiotic abnormalities, Himalayan grasses, Cryptic changes (sembra importante ma non so come definirlo in modo ottimale), population connectivity (compare spesso ma non sono certo come definirlo enllo specifico della genetica), dispersal capacity, Indo-Burma bio-diversity hotspot, anti-cytotoxicity, anti-genotoxicity (rapporto con genotoxicity e anti-mutagenicity), proliferative activity, infraspecific polypoidy, heterosized pollens, karyotype evolution, symmetric karyotype, heteropycnotic, genetic identification, inter-varietal symmetry, bulbous genus, ploidy level, cytogenetic effect, molecular techniques (troppo vago), aluminum stress (signaling in plant), G3pdh (molteplici opzioni specifiche), near-isogenic lines/NILs-B1, Egyptian petrified woods , fluorochrome banding, cryptic taxa , karyosystematic, plant breeding, principal coordinate analysis /PCoA, 2C nuclear DNA, nucleolar dominance
  • volume 74: genetic affinity (va bene solo alias?), table-top banana ( o concetto di "da tavolo" per alimentazione, o elemento per cultivar di banana edibili o dolci), Total Form percentage (TF%), nuclear DNA content (si trova in molti articoli), DNA yield, Pintado da Amazônia (informazioni frammentarie o vage su quale tipo di pesce sia), Yaque (troppo rischio per frammentarietà di informazioni, è un ibrido Pseudoplatystoma Fasciatum x Leiarius Marmoratus probabilmente), Napoleon 4EC (not sure if it is a less common name, sources are limited), cpDNA trnT-trnL3’ (trppo specifico), fluorescent karyotype (fatto il fluorescent banding e credo sia il prodotto), modulatory effect (sarebbe utile ma troppo vasto e non vorrei sbagliarmi), cytogenetics probe (o molecular cytogenetics probe), HGT analysis (non sicuro cosa sia), 45S e 5S, local accessions, PST index o PST value (forse legato a fotosintesi), repetitive DNA probe (non sicuro che sia un redirect forse), population assignment, Chromosome evolution (molto usato in articoli, temo lo descriverei troppo vagamente), equilocality (non vorrei sbagliarmi), unreduced gametes (potrebbe essere un redirect), Barbara’s buttons (non sicuro se valga il genere o la specie Marshallia caespitosa ), "caryometry" (non trovo tante info)
  • volume 75: cytological anomaly, chlorophyll mutant, phytochemical property, fish karyology, population differentiation, somatic chromosome number, new record (utile se correttamente codificato, magari specifico per settore tipo nuovoa segnalazione e conferma di una specie), inter and intra chromosomal symmetry/asymmetry estimation (pensare bene a come spacchettarlo), statistical analysis (va pensata con calma meglio, fra item simili e possibili redirect), nuclear abnormality (valutare differenza con quella dei cromosomi)

Svolgimento edit

Substantia edit

In questo caso la presenza di autori occidentali ha reso più semplice l'import degli articoli direttamente con OpenRefine una volta controllati questi ultimi e gli autori. Salvo alcuni numeri già importati via bot, la data di import è la data di creazione.

  • 2022-11-28: import volume 1
  • 2022-12-05: import volume 6
qui c'era uno strano shif di un giorno per codifica di formato data
  • 2022-12-12: import volume 2
  • 2022-12-26: import volume 5
check
  • 2022-12-26: import volume 3
check
  • 2022-12-27: import volume 4
check

Caryologia edit

In questo caso si è proceduto a un pre-inserimento manuale perché gli autori cinesi e indiani suggeriscono di partire dalla pubblicazione su Googlscholar o Researchgate per indivudare rapidamente profili in caso di omonimi. Per questo l'uso di ResearchGate publication ID (P5875) è più marcato.

  • volume 72 (in realtà, iniziato molti giorni prima import manuale come creazione): completato il 2012-12-28
  • volume 75 (in realtà, iniziato molti giorni prima import manuale come creazione): completato il 2012-12-28
import delle pagina saltato per rinomina di una colonna, fatto in due fasi.
  • volume 73 (in realtà, iniziato molti giorni prima import manuale come creazione): completato il 2012-12-29
volume faticoso per una serie di typo e per essere stato il meno revisionato manualmente. C'è un typo nella data di consultazione fonte che sto revisionando a mano mentre li controllo a uno a uno.
  • volume 74 (in realtà, iniziato molti giorni prima import manuale come creazione): completato il 2012-12-30
controllo. Le keyword saranno fatte in seconda battuta per praticità (non erano un target del progetto)
c'è un curioso baco di triplicazione di una fonte all'autore 5 che non è un errore manuale di creazione perché al massimo sarebbe stata una duplicazione, probabilmente è stato un baco di visualizzazione di interfaccio, o ritardo nel mostrare una modifica.


Per articoli già importati, è essenziale:

  • rimuovere il doppione del campo doi se già convertito in maiuscolo.
  • verificare la presenza di campi stringa per autori.

Segnalazioni alla FUP di imprecisioni edit

Segnalazioni per Substantia edit

Quasi tutte le riconciliazioni e import fatti a modo segnalano errori. Se non lo facessero, sarebbe probabilmente superficiali.

I punti suddetti sono stati segnalati alla FUP il 22/12/2022. --Epìdosis 15:16, 30 December 2022 (UTC)[reply]

Segnalazioni per Caryologia edit

  • qui errore di battitura con ripetizione nel titolo
  • qui l'ordine degli autori non corrisponde a quello del PDF
  • qui l'articolo 65-75 è finito in cima alla lista e non in ordine numerico corretto
  • qui NOR attaccato nelle parole chiave
  • qui si vedono 1,2,3 nelle affiliazioni
  • qui mancano gli intervalli di pagine (li ho dovuti estrarre a mano)
  • qui senza affiliazioni è impossibile inserire autori, a parte ipotizzare
  • qui c'è un AA.VV., l'autore è questo probabilmente
  • qui come si può verificare su Scopus e altri articoli del gruppo c'è una ripetizione nel nome Nafath-ul-Arab Arab
  • qui l'abstract è duplicato
  • qui POMEGRANATE è in maiuscolo ma non è un acronimo o sigla, è proprio il frutto pomegranate
  • qui Basavaraju Surendranath è probabilmente scritto male (cfr. Scopus)
  • qui forse il nome di Dobreva è Ana e non Anna (cfr. Scopus)
  • qui probabilmente è Michele e non Micheli
  • qui c'è un errore di battitura in una parola chiave (stethophyma ha h spostata)
  • qui heterochrmatin compare due volte di seguito come parola chiave
  • qui due parole chiave sono attaccate
  • qui manca l'affiliazione di un autore, riportata invece nel pdf e su Scopus
  • qui manca un'affiliazione al primo autore che è finita al secondo autore; si veda link a Scopus in elementi e il pdf; inoltre manca del tutto un autore omesso rispetto al pdf
  • qui Miloto Vanessa ha nome e cognome invertiti

I punti suddetti sono stati segnalati alla FUP il 30/12/2022. --Epìdosis 15:31, 30 December 2022 (UTC)[reply]

Query edit

Attenzione:

per Caryologia le mancanze potrebbero riferirsi a volumi precedenti il passaggio alla FUP. Smaltiremo anche quelle per scrupolo, ma con meno urgenza;
alcuni numeri di oridnamento mancanti si riferiscono a articoli con un solo autore;
alcuni doi non erano presenti in Substantia, si tratta di prefazioni e editoriali soprattutto;
altri doi sono rotti al momento e vengono rimossi per errore da KrBot, a parte reinserirli non si può fare molto.
Query per elencazione
Query per statistiche
Query di controllo per gli articoli
Query di controllo per gli autori