Wikidata:Téléchargement de la base de données
Wikidata propose des copies du contenu disponibles librement téléchargeables.
Veuillez noter qu'il existe aussi plusieurs autres méthodes pour accéder au contenu structuré de Wikidata, qui ne nécessitent pas forcément d'avoir un dump complet de la base de données.
Dumps de la base de données
Différents types de dumps de données sont disponibles. Veuillez noter que bien que les dumps au format JSON et RDF soient considérés comme des interfaces stables, ce n'est pas le cas des dumps au format XML. Les changements apportés aux formats des données utilisés par les interfaces stables sont sujet à la Politique des interfaces stables.
<span id="JSON_dumps_(recommended)_">
Dumps JSON (recommandé)
Les dumps JSON contenant tous les éléments Wikidata sous forme d'un seul tableau JSON peuvent être trouvés à https://dumps.wikimedia.org/wikidatawiki/entities/. Les entités dans le tableau peuvent être dans le désordre : par exemple, Q2 ne se trouve pas forcément après Q1. Ces dumps sont créés de façon hebdomadaire.
C’est le format de dump recommandé. Veuillez vous référer à la documentation de la structure JSON pour connaître les informations concernant la manière de représenter les entités Wikidata.
Astuce : Chaque objet entité (élément ou propriété) est placé sur une ligne séparée du fichier JSON, pour que le fichier puisse être lu ligne à ligne, et que chaque ligne puisse être décodée séparément comme un objet JSON individuel.
À noter que les fichiers utilisent la compression parallèle, ce qui signifie que certains décompresseurs ne peuvent pas décompresser de façon fiable les fichiers. Si vous utilisez Windows, vous pouvez utiliser Bzip2 par exemple. Sur les systèmes *nix, utilisez lbzip2 qui peut décompresser en parallèle Bzip2. pbzip2 n'est pas un bon choix car il ne sait pas décompresser en parallèle des fichiers qui n'ont pas été compressés avec pbzip2.
Vous pouvez actuellement télécharger un dump tout à fait récent en utilisant un torrent. wikidata-20240101-all.json.gz (130,53 Go) sur academictorrents.com ( lien magnet)
- JsonDumpReader est une bibliothèque PHP pour lire les dumps.
- gitlab.com/tozd/go/mediawiki est une bibliothèque Go pour traiter les dumps Wikipedia et Wikidata.
- WDSub est une bibliothèque Scala qui traite les dumps JSON de Wikibase et qui peut générer des sous-ensembles en utilisant les schémas d'entités comme entrées.
- simple-wikidata-db est un parseur de dump JSON écrit en Python.
- qwikidata prend en charge les dumps JSON et il est écrit en Python.
Archives au format RDF
Premièrement, les dumps RDF canoniques utilisant les formats Turtle et NTriples sont accessibles à partir du lien https://dumps.wikimedia.org/wikidatawiki/entities/. La cartographie est décrite ici. Ces déclarations complètes sont indiquées avec "all".
Deuxièmement, ce que l'on appelle des dumps truthy sont fournis. Ils utilisent le format nt. Ils sont dans le même format que les dumps complets, mais limités aux déclarations directes et justifiées. Par conséquent, ils ne contiennent pas de métadonnées telles que des qualificatifs ou des références.
Les fichiers de dump -all contiennent toutes les informations sur les entités de Wikidata, à l'exception de l'ordre (des alias, des déclaration, etc.) qui ne se représente pas de manière évidente en RDF. Les fichiers de dump -truthy encodent les *meilleures* déclarations (par exemple celles avec le rang le plus élevé de chaque paire (sujet, propriété) donnée) en un triplet RDF unique (les qualifieurs et les références n'y figurent pas).
Les dumps de l'espace de noms Wikidata Lexeme aux formats Turtle et NTriples se trouvent au même endroit avec le suffixe lexemes.
Pour des détails sur le format de dump RDF, voir la page RDF Dump Format.
Dumps partiels RDF
WDumper est un outil tiers pour créer des dumps RDF wikidata personnalisés. Les entités et les déclarations peuvent être filtrées.
Dumps XML
Les dumps XML complets de Wikidata sont téléchargeables à https://dumps.wikimedia.org/wikidatawiki/.
Attention : le format des données JSON contenues dans les dumps XML est susceptible de changer sans préavis, et peut devenir incohérent d'une version à l'autre. Il devrait être traité comme des données binaires opaques. Il est fortement recommandé d'utiliser les dumps JSON ou RDF à la place, qui utilisent des représentations canoniques des données !
Des dumps incrémentaux (ou dumps des ajouts/modifications) de Wikidata sont aussi disponibles au téléchargement. Ces dumps contiennent ce qui a été ajouté durant les dernières 24 heures, limitant le besoin de télécharger la base de données complète. Ces dumps sont bien plus légers que ceux de la base complète.
Ces dumps peuvent être trouvés sur https://dumps.wikimedia.org/other/incr/wikidatawiki/.
Anciens dumps JSON et RDF
Les anciens dumps RDF et JSON sont disponibles sur le Internet Archive (Q461) :
Modèle de données
Le modèle de données peut être consulté ici. Il décrit les blocs de construction fondamentaux des données de Wikidata.
Schéma de la base de données
Cette page propose une vue d'ensemble du schéma de la base de données (qui n'est pas le schéma des données dans Wikidata).
Licence
Ces bases de données peuvent être utilisées pour un usage personnel ou commercial, comme sauvegardes ou pour utilisation en local. Toutes les données structurées de des espaces de noms principal, des propriétés, des lexèmes, des schémas d'entités sont disponibles sous licence Creative Commons CC0 (résumé en français). Les textes des autres espaces de noms sont disponibles sous licence Creative Commons Attribution Partage à l’identique (résumé en français) ; d’autres conditions peuvent s’appliquer. Les contenus de l’espace de noms Media sont disponibles sous d’autres licences, décrites sur leurs pages de description.
Voir aussi
- Wikipedia:fr:Big data
- Pour obtenir des instructions sur la récupération du RDF pour des éléments individuels, consultez la page Data access page.