ウィキデータ:SPARQLチュートリアル

This page is a translated version of the page Wikidata:SPARQL tutorial and the translation is 76% complete.

Outdated translations are marked like this.

WDQS こと Wikidata Query Service は、Wikidata のコンテンツへの洞察を提供する強力なツールです。このガイドでは WDQS の使い方を説明します。interactive tutorial by Wikimedia Israel も参照してください。

自分で SPARQL クエリを書く前に、{{Item documentation}}やその他の一般的な SPARQL クエリのテンプレートを調べて、その中にすでに書きたいクエリが含まれていないかどうか確認してください。

はじめる前に

このガイドはとても長く威圧的に見えるかもしれませんが、どうか敬遠しないでください。SPARQLの基本を学ぶだけでも、かなりのことができるようになります。#初めてのクエリまでで読むのを止めたとしても、興味深いクエリをたくさん書くための知識としては十分です。さらにこのチュートリアルの各セクションを読めば、よりパワフルなクエリを書くことができるでしょう。

WikidataやSPARQL、WDQSについて、これまでまったく聞いたことがない方のために、これらの用語について簡単に説明しておきましょう。

Wikidata は知識データベースです。「カナダの首都はオタワである」「モナリザはポプラの木に油絵の具で描かれている」「金の融点は1,064.18度である」といったような、何百万もの文から成ります。
SPARQL は知識データベースに対して定式化された質問（クエリ）を行うための言語です。適切なデータベースとSPARQLクエリがあれば、「音楽のもっとも主要な調性は?」「もっとも多くの俳優に演じられたキャラクターは?」「血液型の分布は?」「今年パブリックドメインになる作家の作品は?」といった疑問に答えることができます。
WDQS こと Wikidata Query Service は、上のふたつを統合したものです。SPARQLクエリを入力すると、Wikidataのデータセットに対して検索を行い、その結果を表示します。

SPARQLの基本

シンプルなSPARQLクエリは次のようなものです。

SELECT ?a ?b ?c
WHERE
{
  x y ?a.
  m n ?b.
  ?b f ?c.
}

SELECT節にはクエリの結果として得たい変数を列挙します（変数はクエスチョン・マークで始まります）。WHERE節はそれらの変数に対する制約からなり、ほとんどの場合はトリプルの形をとります。Wikidata（および類似の知識データベース）のすべての情報は、トリプルの形で保存されています。クエリが実行されると、クエリサービスは得たいトリプルの制約を満たすような変数の値を知識データベース上に見つけようと試みます。そしてそのような変数の組み合わせが見つかるごとに、それをひとつの結果として返します。

トリプルは主語、述語、目的語を持つ文のように読むことができます(トリプルがピリオドで終わるのはそのためです)。

SELECT ?fruit
WHERE
{
  ?fruit hasColor yellow.
  ?fruit tastes sour.
}

このクエリの回答は、例えば “lemon” です。Wikidataでは、ほとんどのプロパティは “has” の性質を持つプロパティです。そのためこのクエリは以下のように書いてもいいでしょう。

SELECT ?fruit
WHERE
{
  ?fruit color yellow.
  ?fruit taste sour.
}

これは?fruit has color ‘yellow’ と読めます（?fruit is the color of ‘yellow’ ではありません — parent/child のような対になるプロパティのためにこれは心に留めておいてください）。

しかしながら、WDQSの説明のためには、これはあまりいい例ではありませんでした。taste（〜な味がする）は主観的なので、Wikidataにはこれに対応するプロパティがないのです。代わりに、たいていの場合においては曖昧さのない、parent/child（親／子）の関係について考えてみましょう。

初めてのクエリ

バロック音楽の作曲家、ヨハン・ゼバスティアン・バッハの、すべての子供を列挙したいものと考えてみてください。上のクエリで見たような擬似要素を使うとして、あなたならどんなクエリを書きますか？

こんな感じのクエリを書いたのではないでしょうか。

SELECT ?child
WHERE
{
  #  child "has parent" Bach
  ?child parent Bach.
  # （注：‘#’ より後ろはすべてはコメントで、WDQSには無視されます。）
}

あるいはこんなのや、

SELECT ?child
WHERE
{
  # child "has father" Bach 
  ?child father Bach. 
}

こんなのかもしれませんね。

SELECT ?child
WHERE
{
  #  Bach "has child" child
  Bach child ?child.
}

最初のふたつのトリプルは、?childは parent/father に Bach を持っていなければならない、と言っています。3つめのは、Bach はその子供に?childを持っていなければならない、と言っています。ここでは2つめのを採用することにしましょう。

では、これを適切なWDQSクエリに変換するためには、あと何が必要でしょうか。ウィキデータでは、項目やプロパティを特定するために使われているのは、例えば「父親」（プロパティ）とか、「バッハ」（項目）とかいった、人間にわかりやすい名前ではありません。（これにはちゃんとした理由があります。「ヨハン・ゼバスティアン・バッハ」はドイツの画家の名前でもありますし、「バッハ」は人物の姓であるだけでなく、フランスの自治体や、火星のクレーターなどの名前でもあり、これらを指しているかもしれないからです。）代わりに、ウィキデータの項目とプロパティには、識別子が割り当てられています。ある項目の識別子を見つけるには、項目を検索して、（例えば説明文などから）それらしいものが見つかったら、その Q ナンバーをコピーします。プロパティの識別子を見つけるのにも同じことを行いますが、単に検索窓に探している言葉を入力するのではなく、「P:探している言葉」と入力すれば、プロパティに限定して検索を行います。この検索の結果として、あの有名な作曲家のヨハン・ゼバスティアン・バッハは Q1339 であり、そしてある人物の父親を指定するプロパティは P:P22 であることがわかります。

最後に忘れてはいけないのが、接頭辞をつけることです。単純なWDQSトリプルでは、項目にはwd:を、そしてプロパティにはwdt:を、その頭につけなければいけません。（ただしこれは値が決まっているときだけにしてください。変数に接頭辞をつけてはいけません。）

これをまとめると、初めての正しいWDQSクエリが出来上がります。

SELECT ?child
WHERE
{
# ?child  father   Bach
  ?child wdt:P22 wd:Q1339.
}

child	childLabel
wd:Q57225	Johann Christoph Friedrich Bach
wd:Q76428	Carl Philipp Emanuel Bach
…

自然言語	例	SPARQL	例
文	Juliet loves Romeo.	ピリオド	`juliet loves romeo.`
接続詞（節の）	Romeo loves Juliet and kills himself.	セミコロン	`romeo loves juliet; kills romeo.`
接続詞（名詞の）	Romeo kills Tybalt and himself.	コンマ	`romeo kills tybalt, romeo.`
関係節	Juliet loves someone who kills Tybalt.	角括弧	`juliet loves [ kills tybalt ].`

ウィキデータ:SPARQLチュートリアル

はじめる前に

SPARQLの基本

初めてのクエリ

自動補完

より進んだトリプルのパターン

インスタンスとクラス

プロパティパス

修飾子

ORDERとLIMIT

演習

アーサー・コナン・ドイルの本

化学元素

ミシシッピ川に流れ込む川

ミシシッピ川に流れ込む川 その2

OPTIONAL

式、FILTERとBIND

データ型

演算子

FILTER

BIND、BOUND、IF

COALESCE

グループ化

都市の人口

画材

メーカー別の銃

ページ数別の出版社

HAVING

集約関数の概要

wikibase:ラベルと集約

VALUES

さらには…

関連項目

`ORDER`と`LIMIT`

ミシシッピ川に流れ込む川その2

`OPTIONAL`

式、`FILTER`と`BIND`

`FILTER`

`BIND`、`BOUND`、`IF`

`COALESCE`

`HAVING`

`VALUES`