User talk:Dipsode87/ARK

Commentaire edit

@Dipsode87:

Je vais lire la proposition plus en détail, merci de l'avoir mise par écrit ! J'aime déjà beaucoup l'idée globale mais j'ai déjà quelques remarques préliminaires. Si je comprends bien l'image File:Schéma_de_la_représentation_de_l'identifiant_ARK_dans_Wikidata.png, l'idée est de remplacer :

par

Ma première remarque est sur la nécessité de ces deux qualificateurs, cela me semble redondant (vu que l'on a déjà directement via general catalog of BnF (Q15222191)operator (P137)Bibliothèque nationale de France (Q193563) et indirectement via Bibliothèque nationale de France (Q193563)Name Assigning Authority Number (P1870)'12148', donnée mentionnée dans le schéma).

@VIGNERON: Effectivement, c'est partiellement redondant. Les qualificatifs seraient optionnels, disponibles dans les cas où l'on souhaite distinguer plusieurs identifiants ARK pour un même item. --Dipsode87 (talk) 12:25, 27 February 2021 (UTC)Reply

Ma seconde remarque porte sur les contraintes. Comment remplacer toutes les contraintes indiquées sur P:P268#P2302 ? (une partie est déjà sur P:P8091#P2302 mais pas toutes). Or les contraintes sont une partie essentielle de Wikidata, la plus important pour assurer la fiabilité minimale des données.

Oui, la contrainte d'unicité ne s'appliquerait pas pour Archival Resource Key (P8091), par définition. Concernant la contrainte de format, c'est une des caractéristiques d'ARK que de laisser chaque organisation attributrice définir sa syntaxe de nom ARK, même s'il existe une bonne pratique qui consiste à utiliser l'alphabet sur 29 caractères défini par la CDL et implémenté dans le logiciel libre Noid, à la base du service EZID. En cela, ARK n'est ni plus ni moins contraignant que DOI (voir P:P356#P1793 - vous aurez compris qu'un de mes objectifs est de faire reconnaître le statut d'ARK comme identifiant au même titre que DOI !). Cela dit, la contrainte de format exprimée dans Wikidata pour Bibliothèque nationale de France ID (P268) repose sur un constat fait par les contributeurs de Wikidata, pas sur un engagement de la BnF. Cette forme peut donc changer à tout moment - c'est d'ailleurs le cas pour les identifiants de Gallica, pour lesquels une nouvelle forme est apparue récemment. La seule annonce que fait la BnF sur la syntaxe porte sur le dernier caractère, qui est une clé de contrôle.
En tous les cas, je vois trois solutions :
La troisième solution me semble la plus raisonnable ! --Dipsode87 (talk) 12:25, 27 February 2021 (UTC)Reply

Cdlt, VIGNERON (talk) 15:24, 26 February 2021 (UTC)Reply

Deux portails / un numéro d'autorité nommante ? edit

Merci beaucoup @Dipsode87: de votre présentation! Cela est très utile.

J'ai encore une question de compréhension :

Comment le résolveur n2t.net sait sur quel portail de la BnF redirigé un ARK? En effet, comme vous l'avez précisé la BnF utilise les ARK dans au moins deux portails distincts (Gallica et le catalogue général). Je peux imaginer que ce n'est pas n2t.net qui fait cette redirection mais la BnF elle-même (à travers http://ark.bnf.fr) , c'est juste? Quelle est la régle suivie par le résolveur de la BnF? Est-ce si ARK commence par "cb" c'est le catalogue général et sinon c'est Gallica? Avez-vous d'autres portails qui se voient attribués des ARK?

@2le2im-bdc: Effectivement, dès 2005, la BnF savait qu'elle souhaitait attribuer des ARK à deux types de ressources : les notices de son Catalogue général et ses documents numérisés (et maintenant nativement numériques, mais c'est une autre histoire !). Comme elle n'a pas fait le choix d'un système de réattribution centralisé, mais plutôt de l'habillage d'identifiants existants (numéro de notice pour le cat. gén., code-barre d'envoi en numérisation pour les documents numériques), le résolveur mis en place à ce moment-là, http://ark.bnf.fr/, était très simple : il analysait le préfixe du nom ARK et redirigeait vers l'une ou l'autre des applications (d'où le fait que l'on recommande aux organisations qui commencent à attribuer des ARK de les générer dès le départ avec un préfixe pour se ménager d'autres espaces de nom pour leurs projets futurs). Donc n2t.net redirige tous les ARK en 12148 vers un seul point d'accès par institution - ark.bnf.fr pour la BnF (voir http://n2t.net/ark:/12148).
Bien évidemment, le paysage s'est considérablement complexifié depuis 2005, avec la diffusion des données BnF sous licence libre et la multiplication de ce qu'on appelle des "sous-autorités nommantes" (d'autres contextes d'attribution au sein de la BnF) :
* Médailles et Antiques, ex. : http://ark.bnf.fr/ark:/12148/c33gb15rmm,
* BnF Archives et manuscrits, ex. : http://ark.bnf.fr/ark:/12148/cc1063058/cb14
* Expositions virtuelles ou éléments d'exposition virtuelle, ex. : http://ark.bnf.fr/ark:/12148/mm4262000293.
Et j'en passe... Le résolveur a donc dû s'adapter à cette nouvelle complexité. --Dipsode87 (talk) 12:53, 27 February 2021 (UTC)Reply

Par ailleurs, j'ai créé la déclaration qui illustre votre exemple : Archival Resource Key (P8091) of Nicolas Bouvier (Q123518)

Merci beaucoup pour cela et pour la discussion ! --Dipsode87 (talk) 12:53, 27 February 2021 (UTC)Reply

Merci d'avance de vos informations --2le2im-bdc (talk) 08:37, 27 February 2021 (UTC)Reply

Duplication de données en provenance d'autres institutions edit

Dans la déclaration sur l'utilisation d'ARK, il est précisé que la BnF aggrège aussi des données provenant d'autres institutions et leurs attribue un numéro ARK. Pourriez-vous donner des exemples?

Merci d'avance --2le2im-bdc (talk) 08:55, 27 February 2021 (UTC)Reply

@2le2im-bdc: J'ai omis de répondre à cette question... Pour le moment, non, la BnF n'attribue pas d'ARK à des données qu'elle ne possède pas et ne maîtrise pas. Cette déclaration est sans doute à revoir, mais ce que laisse entendre la dernière phrase, c'est que certaines ressources de la BnF auxquelles elle attribue un ARK peuvent doublonner des ressources existantes (exemple de Gallica Marque blanche, où la BnF attribue un ARK à la copie du document numérique diffusée dans le nouveau portail, même si le partenaire a déjà attribué un identifiant à sa copie). --Dipsode87 (talk) 09:11, 1 March 2021 (UTC)Reply

Web des données (data.bnf.fr) et ARK edit

Permettez-moi @Dipsode87: encore une question vis-à-vis de l'utilisation de ARK par la BnF.

Visiblement, le choix a été fait d'utiliser des identifiants ARK distincts pour de nombreux portails gérés par la BnF mais, étrangement à mon sens, pas pour data.bnf.fr.

En effet, l'identifiant ARK est, dans ce cas, le même pour la ressource sur catalogue.bnf.fr et data.bnf.fr. Il a, par ailleurs, été choisi que le résolveur interne de la BnF (ark.bnf.fr) reverrait sur la notice du catalogue.

Exemple avec Nicolas Bouvier :

Deux remarques:

  1. Si on se place dans une perspective de web des données, la seule vraie ressource que l'on souhaiterait identifier est celle disponible sur data.bnf.fr, or il se trouve que c'est la seule qui ne soit pas accessible directement.
  2. Les deux notices ne semblent pas tout à fait les mêmes. Il n'y a donc pas vraiment de raison qu'elles disposent du même identifiant.

Question : Y aurait-il encore un autre protocole qui permettent aux machines de retrouver via un ARK une ressource sur data.bnf.fr ?

Merci d'avance de vos lumières!

--2le2im-bdc (talk) 21:20, 27 February 2021 (UTC)Reply

C'est exact, les données de data.bnf proviennent du même réservoir que le catalogue général. Jusqu'à il y a peu, data.bnf se limitait à présenter ces données sous une forme plus facile à interroger pour les machines, et plus facile d'accès pour un public qui ne fréquente pas les catalogues de bibliothèque. Le contenu étant le même, mais sous une autre forme, on a considéré qu'il s'agissait de la même ressource.
La situation commence, depuis quelques années, à changer, car data.bnf est considéré comme le laboratoire pour calculer automatiquement des données nouvelles. Ainsi, data.bnf est en avance sur le catalogue pour le calcul automatique des oeuvres à partir des informations des notices, qui décrivent des éditions. On reverse ensuite ces oeuvres calculées dans le catalogue, lorsqu'on est assez sûrs de leur validité. De ce fait, le choix initial d'identifier les deux ressources par un même nom ARK peut être discuté, mais il nous semble avoir malgré tout plus de bénéfices que de contraintes.
Selon la "doctrine" ARK, le nom de domaine est inerte sémantiquement. D'où le fait que ces ARK soient toujours redirigés vers le réservoir le plus complet : le catalogue général. On pourrait (et l'on y réfléchit) permettre de citer et d'identifier les ressources dans la forme proposée par data.bnf ; dans ce cas, il faudrait le faire grâce à un qualificatif de service (ex. : ark:/12148/cb11893627z.rdfxml). Ce qualificatif pourrait être interprété par le résolveur et redirigé vers data.bnf plutôt que vers le catalogue.
La question se pose d'ailleurs pour d'autres plateformes que data.bnf : Presse locale ancienne (http://presselocaleancienne.bnf.fr/accueil) et la base des éditions parisiennes du XVIe siècle (https://bp16.bnf.fr/), pour ne citer qu'elles, utilisent également le même ARK que le catalogue.
Une autre solution envisageable est la négociation de contenu : un client annonçant sa préférence pour une réponse sous forme application/rdf+xml pourrait être redirigé vers data.bnf. C'est d'ailleurs ce que permet le résolveur DOI, qui autorise les organisations attributrices à soumettre, outre une paire identifiant / URL d'accès, des paires types MIME / URL d'accès.
Il s'agit là d'intéressantes perspectives pour développer un outil jusque-là peu valorisé, mais qui prend progressivement plus d'importance à mesure que les données BnF sont diffusées. --Dipsode87 (talk) 10:46, 28 February 2021 (UTC)Reply
Merci beaucoup @Dipsode87: d'avoir apporté ces informations complémentaires!
Quelques remarques en passant :
* Le système de préfixes rend les ARK tout de même moins opaques, non?
* Le portail à destination des "publics peu habitués aux catalogues de bibliothèque" mériterait d'être dissocié de data.bfr.fr afin de pouvoir conserver celui-ci pour les usages les plus techniques.
* Mettre au centre des démarches les données primaires RDF regroupées dans data.bnf.fr semble évidemment plein d'avenir. Le dernier des silos en date sera certainement à l'avenir la source de tous les autres portails.
* Je reste d'avis que les ressources RDF présentent dans data.bnf.fr devraient disposer d'ARK distinctes de celles du catalogue.
* La distinction de la page et de la ressource dans l'objet identifié par l'ARK (ou les ARK) semble une piste prometteuse. En effet, qu'est-il le plus précieux de citer en référence :la page ou la ressource. Je pencherais vers la seconde. En effet, il semble probable qu'à l'avenir beaucoup de pages web soient constituées d'une ou plusieurs ressources identifiées par des ARK. Il faudrait prendre l'habitude de publier dans les pages web les identifiants ARK de ces ressources "embarquées".
* Il y aurait un gain à identifier qui est le public qui va utiliser les ARK. Soit le grand public, soit les machines. Pour les machines (et les humains derrières et Wikidata à priori), deux ARK les intéressent : celle de la ressource RDF dans data.bnf.fr et celle de la version numérique du document dans Gallica. Les autres portails ne seraient que des exploitations de ces deux ressources. Pour le grand public, le fait de disposer d'un URL stable permettant de citer une page consultée a certes un intérêt mais je me questionne encore si le déploiement d'ARK est absolument nécessaire. Sur quelle durée de vie de l'information doit-on se fixer. J'aurais tendance à dire que pour la longue durée, les scientifiques (et les personnes informées) vont citer l'ARK de la ressource RDF même s'elles consultent le catalogue. Il faudrait toutefois pour cela que cette ARK "embarquée" dans le page du catalogue soit affichée.
* À mon sens, les pages "human user frendly" de data.bnf.fr pourrait gagner à être un peu plus brutes et prôche du modèle de données. Il y aurait alors plus de risque de confusion (voir de concurrence) avec le catalogue. J'ai un exemple pour illuster ce à quoi je fais référence mais le service semble ce soir hors service (https://data.swissbib.ch/person/aeb3dfdc-bded-37d4-98b7-582f42841013).
--2le2im-bdc (talk) 22:16, 28 February 2021 (UTC)Reply
Cela faisait déjà deux ans que je devais répondre à votre message @2le2im-bdc:... Toutes mes excuses. Depuis plusieurs mois maintenant, data gère un qualificatif de variante ".rdf" qui permet de récupérer directement le RDF/XML dans un fichier dédié (ex. : données RDF sur Carol Gilligan). Mais je ne sais pas si ça répond vraiment au besoin. Je pense qu'il est temps qu'on refasse le point sur data et les ARK !
Concernant la moindre opacité des ARK du fait de leur préfixe : c'est vrai, mais nous ne publions nulle part d'information sur un tel lien entre préfixe et autorités d'adressage, les déductions sont aux risques et périls des utilisateurs ! Dipsode87 (talk) 17:09, 17 February 2023 (UTC)Reply
Return to the user page of "Dipsode87/ARK".