Wikidata:データベースのダウンロード

This page is a translated version of the page Wikidata:Database download and the translation is 100% complete.

ウィキデータの内容は全てダウンロードできます。

なお、データベース全体のダンプ以外にも、ウィキデータの構造化データにアクセスする他の方法もあります。

データベースのダンプ

データダンプにはいくつかの種類があります。JSONダンプとRDFダンプは「安定版のインターフェイス」と見なされますが、XMLダンプは違います。「安定版のインターフェイス」で使用されるデータ形式の変更は、安定版のインターフェイスの方針の対象となります。

<span id="JSON_dumps_(recommended)_">

JSONダンプ(推奨)

https://dumps.wikimedia.org/wikidatawiki/entities/ にて全てのウィキデータの内容を一つのJSONの配列として含むJSONダンプをダウンロードできます。 内容の配列は必ずしも順番に並んでいるとは限りません。例えば、Q2はQ1の次にあるとは限りません。 これらは毎週更新されます。

これは推奨されるダンプの形式です。ウィキデータのデータ構造についてはJSONの構造についてのドキュメントを参照してください。

ヒント:JSONファイルの内容は一行につき一つのJSONオブジェクトを含むため、ファイルの内容を改行コードで分割すれば一行をJSONオブジェクトにデコードできます。

ダンプファイルはパラレル圧縮を使っているため、解凍ソフトによってはうまく解凍できません。例えば、WindowsではBzip2が使えます。*nix システムでは、並列で Bzip2 を解凍できる lbzip2 を使用します。pbzip2 は、pbzip2 で圧縮されていない並列ファイルで解凍できないため、良い選択ではありません。‎

最新に近いダンプをtorrentでダウンロードすることもできます。 wikidata-20220103-all.json.gz (109.04 GiB) / academictorrents.com (  magnet)

  • JsonDumpReaderはPHPで書かれたJSONダンプ読込用のライブラリです。
  • gitlab.com/tozd/go/mediawikiはウィキペディアとウィキデータのダンプを処理するためのGoライブラリです。
  • WDSubはJSONウィキベースダンプを処理し、エンティティスキーマを入力として利用してサブセットを生成することができるScalaライブラリです。
  • simple-wikidata-dbはPythonで書かれたJSONダンプパーサー(解析器)です。
  • qwikidataはJSONダンプをサポートし、Pythonで書かれています。

RDFダンプ

TurtleおよびNTriples形式の標準的なRDFダンプは https://dumps.wikimedia.org/wikidatawiki/entities/ でダウンロードできます。そのマッピングはこちらを参照。これらの全文は「all」と注記されています。

次に、truthyダンプと呼ばれるダンプが提供されています。これはnt形式を使っているものです。これらは完全なダンプと同様のフォーマットになっていますが、直接的な、真なる文に限定されています。そのため、修飾子や情報源といったメタデータは含みません。

‎「-all」ダンプファイルには、ウィキデータ内のすべてのエンティティ情報が含まれますが、(別名、文などの)順序は例外で、当然これはRDFでは表現できません。「-truthy」ダンプファイルは、*最良*の文(つまり、指定された(subject, property)のペアで最高ランクの文)を、単一のRDFトリプルとしてエンコードします (修飾子と情報源は省略されます)。‎

TurtleおよびNTriplesフォーマットの語彙素名前空間のダンプは、「lexemes」接尾辞が付いた同じ場所にあります。

RDFダンプのフォーマットについては、RDFダンプフォーマットのページをご覧ください。

部分的なRDFダンプ

WDumperは、カスタムしたウィキデータRDFダンプを作成するためのサードパーティツールです。 エンティティと文はフィルタリングすることができます。

XMLダンプ

完全なXMLダンプは https://dumps.wikimedia.org/wikidatawiki/ から入手できます。

警告:XMLダンプに埋め込まれたJSONデータの形式は、予告なく変更されることがあり、リビジョン間で一貫性がない場合があります。そのためこれは不透明なバイナリデータとして扱われるべきものです。代わりに標準表現のデータであるJSONダンプまたはRDFダンプの使用が強く推奨されています。

ウィキデータでは、インクリメンタル・ダンプ(増分ダンプ、または追加/変更ダンプ)もダウンロードできます。これらのダンプには直近の24時間に追加されたものが含まれています。インクリメンタル・ダンプを使うと、完全なデータベース・ダンプをダウンロードする必要性が少なくなります。インクリメンタル・ダンプは完全なデータベース・ダンプよりはるかに小さいです。

https://dumps.wikimedia.org/other/incr/wikidatawiki/ でダウンロードできます。

旧 JSON ・ RDF ダンプ

古いRDFダンプとJSONダンプは Internet Archive (Q461) にあります:

データモデル

データモデルはこちらにあります。データモデルはウィキデータのデータの基本単位を記述します。

データベースのスキーマ

データベースのスキーマの概要はこのページにあります(ただし、これはウィキデータのデータのスキーマではありません)。

ライセンス

これらのデータベースは、個人利用または商用利用、バックアップまたはオフラインでの利用が可能です。標準名前空間、プロパティ名前空間、語彙素名前空間、エンティティスキーマ名前空間にある全ての構造化データは、クリエイティブ・コモンズCC0ライセンスの下で利用可能です。その他の名前空間にあるテキストはクリエイティブ・コモンズ表示-継承ライセンスの下で利用可能です(追加の条件が適用される場合があります)。メディアファイルとその他のコンテンツは、別のライセンスの下で利用可能です(それらの説明ページに詳細があります)。

関連項目