Wikidata:Flemish art collections, Wikidata and Linked Open Data/Whitepaper/ja
下記はウィキデータを利用してリンクトオープンデータを公開する事業 (Linked Open Data publication with Wikidata) の2015年10月版の白書です。このプロジェクトでは複数のフランドルの美術館より、ウィキデータに収蔵品データをご提供いただきました。この白書はウィキデータへデータ提供を検討している他の方(特に他文化の機関の方)にとっても興味深いものかもしれません。
ご感想をお待ちしております。ご質問やご意見は議論のページにお寄せください。
執筆者はサンドラ・フォーコニアー Sandra Fauconnier (User:Spinster)、バート・レメンズ Bert Lemmens ならびにバーバラ・ディアリックス Barbara Dierickx です (PACKED vzw). 継承 (クリエイティブ・コモンズ)ライセンスに従って公開します。
編集者註
この白書はウィキデータを利用したリンクトオープンデータの公開 事業 (Linked Open Data publication with Wikidata) による、初のプロジェクト (『D1. 白書―ウィキデータにおけるオープンデータ管理』) を取り上げたもので、事業計画では次のように述べています。
PACKED vzw とウィキメディア財団は、美術館・博物館のデータ管理者が収蔵品データをウィキデータ上に公開しまたこの収蔵品データを定期的に更新する方法について共通のビジョンを築きます。 これには次を含みます:
- 収蔵品データのウィキデータにおける構築方法
- ウィキデータへのデータ読み込みと書き出しの仕組み
このビジョンは白書に記録し、このプロジェクトの運営委員会に提案するものとします。この白書は、美術館・博物館とウィキメディア財団ならびにウィキデータと目的をひとつにすることを目指します。
本書はオランダ語で執筆したものを英訳し、ウィキメディアのコミュニティにより広く配布するものです。
この白書に基づき、プロジェクト内で引き続き活動を計画中です。その実現に当たり、実務はウィキメディアのボランティアによって行われます。
概要 |
---|
本書は3部構成です。
この白書の結論には、ご所管の収蔵品情報をウィキデータ利用によりウェブ上に公開する件について SWOT 分析をご提供。 |
ウィキメディアとウィキペディア、ウィキデータの関連
この章ではその「親」事業に当たるウィキメディアならびに姉妹プロジェクトで知名度の高いウィキペディアと対比し、ウィキデータをご紹介します。ウィきメディアの編集者には非常になじみのある情報となります。
ウィキメディア
ウィキメディアとは世界規模の運動として、世界に教育的コンテンツを無償で提供するという使命を抱いています。最も知名度の高い事業はウィキペディアといい、無料の百科事典です。それよりも知名度は下がるものの、10を超えるプロジェクト群 (例えばウィキメディア・コモンズ、ウィキデータならびにMediaWikiというソフトウェア) は同一のファミリーに属しています[1]。
ウィキメディア・プロジェクトはすべて、利用者のコミュニティ(主にボランティア)によって編集され、MediaWikiソフトウェア上で運用されます。プロジェクトへの寄付はすべて、クリエイティブコモンズ契約の下にあり、コンテンツを自由に再利用、編集、コピーおよび配布することができます。
ウィキメディア運動のさまざまなプロジェクトはお互いをサポートし、可能な限りコンテンツを交換します。ウィキメディア・コモンズとは、他のウィキメディア・プロジェクトがホストする画像、サウンドファイル、ビデオを集めた、無料のメディアの集積所です。 ウィキデータは無料のデータベースとして、ウィキメディアのさまざまなプロジェクトを結ぶ中心的な「データのハブ」として機能します。
ウィキペディア
ウィキペディアとは、ウィキメディア運動で最も知名度の高いプロジェクトです。2001年に創設された無料の百科事典として、290の言語で提供しています (2015年10月現在)。これは参考資料であり、例えば他の、すなわち2次的な情報源に依拠する情報の要約を行うことを意味しています。ただし、独自研究の場ではありません。
2015年9月から10月にかけて、英語版ウィキペディアの掲載記事数は約500万であり、編集には約3万人の活発な利用者が当たっています[2]。
ウィキデータ
2012年に創設されたウィキデータはフリーナレッジの基本として全世界をカバーしようと目指しています。ウィキデータは人間も機械も読み取れるよう設計されました。ウィキメディアのプロジェクト群がカバーするすべての言語で提供されています。
ウィキデータ上のデータはウィキメディア・プロジェクト群の姉妹プロジェクトのどの情報よりも「無料」です:第三者ができるだけ自由にデータを再利用できるように、クリエイティブ・コモンズの契約の下で利用可能です(この契約の詳細は下記を参照)。ウィキデータ上のデータは、教育から商用まで、あらゆる用途で普遍的に有用で、かつ誰でも再利用できることを明示しています。
ウィキデータは経済的出資をとりわけ Google より受けています (英文)。2015年に Google は独自のフリーナレッジの基盤Freebaseを無効にしました[3]。おそらく、Google のナレッジグラフは部分的にウィキデータ上のデータに基づいています。ウィキデータ上のデータの利用は、大規模な検索エンジンの検索対象に限定されません。クリエイティブ・コモンズの契約により、すべての開発者に次のことが許可されます。
ウィキペディア自体でも、記事作成の第一歩としてウィキデータ上のデータを再利用しています。スクリプト言語Luaを使うウィキペディアの編集者は、ウィキデータ上で取得したデータをいわゆるテンプレート(基礎情報など)で使用することができます。これは多言語のウィキペディアにおいて、言語版ごとに異なるペースで進みます。それぞれのウィキペディアのコミュニティ内の合意形成により、ウィキデータ上のデータを取得するかどうか決定されます。他のウィキペディアと比較すると、この領域で実験の制約が少ないウィキペディアがいくつかあります。
例:
- 英語版ウィキペディアのlist of paintings by Jacob van Ruisdael (ヤーコプ・ファン・ロイスダールの絵画作品一覧) はウィキデータから自動生成されています。
- フランス産チーズの情報欄 (Modèle:Infobox fromage) はウィキデータから生成されています。例: Brie (fromage) (ブリーチーズ)
- ウィキペディアの人物情報で用いられる、いわゆる「典拠データ」テンプレートはデータを直接、ウィキデータから引いています。これはウィキペディアの記事末尾に情報欄として示され、以下の例は英語版Théo van Rysselberghe (テオ・ファン・レイセルベルヘ) の記事のものです。
ウィキメディア外部の開発者にも、ウィキデータの API を使ってデータを抽出できます。SPARQLクエリも2015年半ばから利用されています。
ウィキデータの項目
ウィキデータは内部リンクでつながった項目で構成されます。項目は現実世界の物体 (例: 建造物や美術品、人物) あるいは概念または出来事と照合します。項目ごとに少なくとも1言語のラベルがあり (人間に読める名称) 個別の識別子ならびにメタデータを備えています。またそれぞれ固有のQ番号を振られたページがウィキデータ上に存在します。例を示します。
- ジェームズ・アンソール – Q158840 – http://www.wikidata.org/entity/Q158840
- 平和 – Q454 – http://www.wikidata.org/entity/Q454
- the Royal Question (ベルギー王レオポルド3世の王位復帰に関する国民投票) – Q2666386 – https://www.wikidata.org/entity/Q2666386
2015年10月現在、ウィキデータにはおよそ1,500万項目が収載されました。既存のウィキペディアの記事から一括で読み込んだ概念によって、「最古」の項目が収集されています。このときの大量の読み込み以降、ボランティアならびにボット (スクリプト) が日々、数万件の新規項目を追加しています。
ウィキデータの有効範囲は何ですか? 特定の項目がウィキデータに属すか属さないかの差はなんでしょうか? ウィキデータの知名度の説明は、以下を参照してください (「知名度」の節。)
ウィキデータの収録情報
ウィキデータは世界のウィキペディア群から (オープン) データをインポートして創設しました。ウィキペディアの記事で述べたトピックはすべて、ウィキデータ上に固有の項目があります。それらトピックのメタデータは、ウィキペディアに設けた情報欄からボットやスクリプトで検索し、属性やステートメントとして項目に追加しました。
ウィキペディアから引いたこれらの情報に加え、ウィキデータには次の例のように、外部 (のオープン) データを常に追加しています。
人物に関する記事がウィキペディアに掲載されていないものの、関連性が高く (評判の高い出版物や出典に記載) と構造化データに組み込むべき美術家 - たとえばウィキデータの作品の制作者がいます。一例を挙げるなら、オランダの美術家 Klaas Kloosterboer (Klaas Kloosterboer (Q19938879))、の作品数点はウィキデータに掲載されています。
オランダの「保護建造物」 (Rijksmonument) にはすべてウィキデータ項目があり、ウィキペディアに固有の記事がない建物や記念物でも独自のウィキデータ項目が登録されています。例: スプラングカペレの Nederlands Hervormde Kerk (Dutch Reformed Church (Q2213168))。
ウィキデータのコミュニティは外部機関が着手された公開データの大規模な読み込みに対応します。その詳細はプロジェクトページWiki Loves Open Dataを参照してください。
このページには寄贈されたオープンデータに関して、ウィキデータのコミュニティが寄せる期待を述べます。以下の特徴が備わると理想的です。
- 無料。クリエイティブコモンズ契約のもと、法的な手続きを経ずに簡単に利用・再利用・加工ができる。
- 知名度。ウィキメディアのプロジェクト群に掲載されているもしくはその資格がある。 – 情報価値を参照。
- 出典がある。さまざまな情報源に基づくデータの検証や複数の値の公開が可能。
- クエリ可能。公開と管理のプロセスを可能な限り自動化できる。
- 編集可能。ウィキメディアのコンテンツと同様に、データ改善の統合にはオープンな必要がある。
- 管理されている。ダンプして忘れてしまうのとは対照的。 – ウィキデータは長期的な関係を保つ。
上記の点のうち、いくつかをさらに説明します。
無料
美術館博物館はすべての著作権を放棄したメタデータを、ウィキデータに寄贈します。データ使用の権利は主張できず、その理由は可能な限り障壁を低くして、このデータを他のアプリケーションで再利用および変更し、データをできるだけ広く知らせ配布するためです。
契約
ウィキデータに格納するデータは クリエイティブコモンズ CC0 契約のもとに公開され、サードパーティーのデータ再利用は無料で行われます。これは教育目的から商業目的まで、誰でも、あらゆる目的でデータを使用できることを意味します。
CC0 契約によって公開されたものは、だれでも、いかなる種類の帰属もなく再利用できます。ライセンスは法的に要求していませんが、対照的に例えばa CC-BY 契約においては、無料性はライセンス条件の本質的な部分ではありません。入手できるデータの再利用をするに当たり、CC0 は明確な価値となります。複数のデータを組み合わせたり、充実させたり、再作成したりするときにソースがさまざまだと、帰属を適切に示すだけで非常に複雑な行程に始終する可能性があります。
利用のガイドライン
世界には善意の再利用者がいて、提供者が (自分たちに) もたらしたものについて、帰属をきちんと示そうとします。では、使用に関する契約について法的手段をとらないとするなら、この状況をどのように解決しますか? 解決策のひとつは法的な必要事項としてではなく、社会的な要求へとシフトさせることです[4]。もちろん再利用は必ずしも発生ないという事実を受け入れながらも、議論の場に倫理観を持ち出し、再利用を促すのです。その実現には利用規定を決めてデータに添付するとよいのです。
ヨーロピアナは、クリエイティブ・コモンズを利用したメタデータの公開と並行してこのような利用規約を定めた先達に含まれます。ヨーロピアナによるメタデータ利用規約には次の条件が含まれます。
- 権利情報があるものはそれを表示:電子化素材およびそのメタデータを提供した人への帰属を示します。これらの機関はデータの収集と管理や調整において重要な役割を果たし、データが広く普及し相互運用できる道をつけます。
- メタデータは動的:メタデータの使用はユーロピアナ APIを介するか、あるいはリンクによるか検討してください。メタデータは変更(更新、追加など)の対象となる可能性があるため、動的呼び出しメソッドの使用が最適です。 *メタデータの変更点に言及し、変更されたメタデータを同じ条件で利用可能にする。既に他の提供者からもたらされた場合には、そのデータのソースであると主張しないでください。
- メタデータの使用は個人責任で行うよう注意してください。不完全な情報の使用は自己責任です - ユーロピアナは第三者から配信されたメタデータを収集しています。
米国デジタル公共図書館のダン・コーヘン事業部長はこの種の帰属の要望について次のように応じました。
私はこれを暗黙的または倫理的な帰属と呼んでいます。あるいは、短くてうまい象徴が好きなら、 CC-BY (or ODB-BY) ではなくクリエイティブ・コモンズ (CC0) (+BY) だと考えることです。
コーヘンはまた、悪意を持つ人々はすべてのオープンデータで悪いことをする可能性があると冷笑的な人なら述べるだろうと言いました。ただし、それはウェブの本質的な特徴です。実際、自分の情報にどのような契約を適用するかは問題ではありません。悪意のある人なら、是が非でも取るでしょう。私たちは怒るかもしれない誤用ばかり心配してしまい、達成したい望みに沿った使用にほとんど気が回りません。DPLA の経験では、データを使って目的を果たそうとするソフトウェア開発者の多くはDPLA データ使用の最善慣行 Data Use Best Practices に基づいて自らの意思で適切な帰属を示しているといいます。しかも、クリエイティブ・コモンズ契約に強制されなかったという事実にもかかわらず、こういう行動をとったのです。
CCO (+BY) はどちらの意味でも最適ではないでしょうか。自由に流れる環境にあって、創造性と再利用を可能にするデータであり、かつ管理は依然として、自分自身を社会契約の一部とみなす世間の人々がしているのですから。 – Dan Cohen
DPLA およびヨーロピアナはこの手法を守る孤立した勢力ではありません。同じ道のりをたどった人たちは他にもいます。テイトは約7万点の美術品と美術家3,500人に関するメタデータを公開、クリエイティブ・コモンズ契約 (CC0) のもとに実行しましたが、契約宣言の隣には「Usage guidelines」という見出しもあります。アメリカの機関であるニューヨーク近代美術館 (MoMA) とクーパー・ヒュー一途・デザイン美術館 (Cooper-Hewitt) も同じ考え方に従いました(この白書の付録に要約をつけてあります)。
ウィキデータを利用したリンクトオープンデータの公開 事業において、前述の利用規約は事業提携先と締約する「データ使用契約書」と不可分です。ガイドラインには強制力はないものの、データセットそれぞれに添えて公開されます。この事業で提案された最小限の使用ガイドラインでは、次のことを明記しています。
- 素材はメタデータのみである (画像は除外);
- 収蔵元の帰属の表示を歓迎する;
- 詐欺的で無責任な使用は認められない;
- その素材の変更や改良が発生し、共同事業者が統合する可能性がある;
- 素材の (再) 利用は自己責任で行う。
もちろん、これらは自らの意図に応じ、機関ごとにさらに特定または拡張することができます。
知名度
情報として、ウィキデータに属する・属さないの判断規準とは? 設立当初、ウィキデータが掲げた目標が2点ありました。:
- ウィキメディアのプロジェクト群の言語間リンクを集約する。
- 広く世界の誰もが使える知識の基盤となる。
上記の少なくともいずれかに該当する項目、該当する項目のみをウィキデータに格納するものとし、すなわち以下の分類のいずれかに該当することとします。:
- ウィキペディア、ウィキボヤージュ、ウィ気ソース、ウィキクォート、ウィキニュース、ウィキブックス、ウィキデータもしくはウィキメディア・コモンズ上のページに少なくとも1件のサイトリンクがある。
- 明確に識別できる概念もしくは素材の実態を属性とすることが、権威がありかつ公的に入手可能な参考文献を用いて記述できる。
- いくつかの構造的必要性を満たすものである。例えば: 他の項目で扱う言説の有用性を高めるために必要とされる。
ウィキデータを利用したリンクトオープンデータの公開 事業で提供されるデータは、目標(2)ならびに分類(2)に該当します。寄贈者であるコレクションの収蔵品の記事が、以前からウィキペディア上にあるという事例では、目標(1)ならびに分類(2)に該当します。この原則は寄贈者であるコレクションの収蔵品の制作者も対象とします。
公的なコレクションの収蔵する独創的な美術品 (絵画、素描、インスタレーション、ユニークな彫刻) で、美術史の文献に説明がある作品および/あるいは制作者が評判の高い情報源で取上げられたものの知名度について、2015年末まで目立った問題は発生していません。
連作の知名度の扱いは検討中です。大量に普及した出版物 (書籍など) の1冊はウィキデータに含めません。彫刻または銅版画の連作は、単体に分かれて各地の美術コレクションに存在する可能性があり、2015年10月まで、それらのうちの1点の記述の仕方について、コミュニティの同意事項や「最善の慣行」は決まっていませんでした。
通常、美術コレクションのうち、こまごまとした日常品はウィキデータにとって注目に値せず知名度が十分とは見なされません。それでも非常に特殊な収蔵品で、評判の良い独立の情報源で個別に記述されたのであれば、例外扱いにできます。ウィーンの美術史美術館収蔵のベンヴェヌート・チェッリーニ作『サリエラ』(Cellini Salt Cellar (Q697208)) がその好例です。これはウィキペディアの多くの言語に記事があり、多くの出版物に掲載されています。
出典がある
ウィキデータを利用したリンクトオープンデータの公開 事業におけるデータセットには、いくつかの (永続的な) 統一資源識別子 (URI) を割り当てます。これらURIは美術品の作成者、日付、収蔵番号など、多数のステートメントの情報源を照会します。
クエリ可能
ウィキデータを利用したリンクトオープンデータの公開 事業のデータセットは静的ファイル (csv) として読み込み/インポートされます。読み込みの段階ではウィキデータのボランティアがクエリや整形の処理を行います。そのようなデータセットは 永続的に公開されると理想的で、先例としてMoMA や テイトは GitHub 経由で公開し、さらに/あるいは API を使ったクエリができます。例:Europeana (ヨーロピアナ)。前述の事業の参加機関では独自のデータハブの構築を計画中で、ウィキデータを利用したリンクトオープンデータの公開 事業もこの手法で成立させることができます。
編集が可能
ウィキメディアのプロジェクトとして、ウィキデータは (主に) ボランティアによって構成されるコミュニティが、記入と管理を行います。データ提供者がそのデータを維持管理される独自のデータベースやプラットフォーム/ Webサイトがあり、それらデータはウィキデータのように活発なプラットフォームに読み込まれた後、ボランティアとボットによって編集され充実していきます。データ提供者にはこの点をご認識いただき、部外者によるウィキデータ上の追加や改善に対して制限を設けないでいただく必要があります。
管理されている
ウィキデータのボランティアが行う作業と、専門家が細かく目を配ってまとめたコンテンツとの違いは何でしょうか。ウィキデータ上に寄贈した情報に、永続的な管理を望む提携先を探す方法は?
ウィキデータ (の美術と文化分野を) 編集するのは誰か
ウィキデータの登録利用者は2015年9月に2万5,917人を数え、そのうち6,126人がアクティブと見なされています[5]。これらの利用者がウィキデータの編集に当てるのは主に自由時間です。関心のある分野に応じて、とりわけ、いわゆるウィキプロジェクトごとにグループが組織されます。視覚芸術分野で活動するウィキプロジェクトの詳細は、以下のとおりです。
- WikiProject Visual Arts (ウィキデータにおける視覚芸術分野) – 2015年10月にボランティア14名が参加、説明文の「最善の慣行」を議論。
- WikiProject Sum of All Paintings (ウィキプロジェクト:絵画のすべて) – 2015年10月にボランティア24名が参加、世界中の有名な絵画にウィキデータ項目を作成する努力に着手。
ウィキプロジェクトの文化分野のボランティアのほとんどは熱意にあふれ、教養のある文化と芸術の愛好家であり、中には文化機関で働く人もいます。あるいはまた、ウィキデータの手作業による編集と平行して、自分たちで書いたボットで作業する人もいます。
自分が積極的に貢献した記事のウォッチリストを追っていくのが、ウィキメディアの典型的なボランティア像です。関心のある領域の「最近の編集」を見守り、必要に応じて即座に反応することができるのです。ウィキデータを含むウィキメディア・プロジェクト群全般に特定のワークフローがあり、不正行為対策に特化したボランティアがいます。意味をなさない編集は、通常、数分以内に差し戻されます。
美術館・博物館の権威性
ウィキデータにおいて美術館・博物館は、それぞれ独自の収蔵品の権威とみなされています。ウィキデータはすべての声明に信頼できる出典を得ようと努めてきました。美術館・博物館が提供する評価の高い (オンラインの) 出版物への言及は、これに非常に適しています。
ウィキデータを利用したリンクトオープンデータの公開 事業では、データの寄贈により前述の参照がいくつも含まれています。すなわち、参加美術館・博物館のウェブサイトが、美術作品の説明への永続的なリンクとして機能します。これらの参照もウィキデータへ読み込まれます。もちろん読み込み後、ボランティアによって、これらの説明に他の参照を追加することもできます。
ウィキデータには矛盾する「間違った」情報がありませんか?
ウィキデータ上には矛盾した記述が存在することができます。複数の(評価が高い)情報源の記述が互いに矛盾する場合には(例:美術品の帰属・個人の生年月日など)、両方の記述とともに情報源が記入される場合があります。「最新」とみなされる記述には「優先順位」を付けることができます。経緯の保存や研究の視点から、過去には「真実」と考えられたが古くなった「廃止予定の」記述の維持(ならびに削除しないこと)ことにも非常に意義深いものがあります。
情報源への言及は非常に重要であることを強調しておかなければなりません。ボランティアあるいは専門家が「真」または「偽」をめぐって特定の記述を検討する場合、その主張を支持する、独立した信頼できる情報源を出典として引用する必要があります。
未完成で未検証のデータでも寄贈できますか?
「最善は善の敵」とはVoltaire (ヴォルテール) の格言でした (or Montesquieu? 議論:「最善は善の敵」はモンテスキューの言葉では? フランス語版ウィクショナリーの議論のページより)。美術館・博物館収蔵品のウェブサイトでは、全体から選ばれたほんの一部のみ、キュレーター (学芸員) 他の職員が承認したものだけ閲覧できます。これらの美術品は徹底的に検証され、十分に公開に適しているとみなされます。
しかしながら、収蔵品管理データベースには通常、「きれいにされていない」あるいはまだ検証の済んでいない情報が多数、含まれています。潜在的に未検証で不完全な「整っていない」データは、オンラインで公開したり、データ寄贈に含めても許容範囲(あるいはむしろ望ましい)でしょうか? 例えば MoMA の場合、GitHub のクリエイティブコモンズ契約 (CC0) に基づき収蔵品データを公開するに当たり、この方法の採用を決めました。検証を受けて十分に「クリーン」なデータには、データセット内で「キュレーター承認」とマークしてあります。その他のデータも寄贈されましたが、このマークはないままです。フィオナ・ロメオ (Fiona Romeo, MoMA デジタルコンテンツ兼戦略統計担当ディレクター) によると、この決定は研究者の裏づけのある要望に触発されたと主張しています[6]。
「...『キュレーター未承認』と記された記録の背後にこそ、より大きな文化的シフトが存在するといいます。今回のデータリリースに含まれる記録の半数以上には不完全な情報があり、エラーを含む可能性があります。研究者は、可能な限り迅速な収集記録へのオンラインアクセスを望んでいるという確立された論拠があります。そこで当館ではこの作業中のデータを公開し、『たとえ記録にどんな不正確さやギャップが含まれていたとしても』、MoMA のより包括的な見解を提供しようとするものです。
まさに文字通り:ウィキデータにおける「典拠管理」
ウィキデータは世界全体を網羅しようとする知識ベースです。例えば2015年10月現在、ウィキデータに収載した人物情報はおよそ300万人分ありました。すべての項目を明確に識別して区別し、かつまたウィキデータを他の情報源をつなぐデータハブとして埋め込むには、典拠管理が多くのボランティアにとって活動の中心を占めています。
ウィキデータの項目は評価の高い外部の典拠データベースと、可能な限りリンクを張ります。ウィキデータの多くの典拠属性の最新版概要はウィキデータ:プロパティの一覧/全般#典拠管理にまとめてあります。
ウィキデータの視覚芸術分野では、一連の典拠データベースが(多くの選択肢の中で)参照されています:
- 人と組織:ULAN、RKDartists、VIAF
- 場所:地名のシソーラス Thesaurus of Geographic Names
- 概念/キーワード:芸術と建築シソーラス Art and Architecture Thesaurus
寄贈された外部のデータセット(例えばウィキデータを利用したリンクトオープンデータの公開 のデータセット)の部分が、すでに外部機関のデータベースと照合する場合(例:美術家名は既にRKDartistsの識別子とリンク)、ウィキデータで該当する人物を正確に見つける役に立ちます。
注意点は、概念は明確さを確保するため(ほぼ)常時、直接リンクにすることが重要です。外部の典拠データベースへは、第2レベルでのみリンクします。
例えば美術作品とは以下のように定義されます。
<item (artwork)> creator (P170) <item (person)> RKDartists ID (P650) RKDartists 識別子
<item (artwork)> depicts (P180) <item> Art & Architecture Thesaurus ID (P1014) 美術品・建築シソーラスにおける識別子
ウィキデータと新しい情報技術
典拠データベースの作成と維持には時間がかかり、しばしば出版者と専門家(ゲッティ、RKD、アート・アーキテクチャーシソーラス Art and Architecture Thesaurus 維持に向けた国際文化セクターなど)との間で長い議論が必要です。ウィキデータはこの方向性とは逆に、新しい開発に素早く反応します。特定のトピックに関してウィキペディアに初めて記事が執筆されると、すぐに新しい用語が急に出現します。例えば概念internet art (Q1569950) は Art and Architecture シソーラスにはまだ存在しないもののウィキデータには項目があります。
結論
文科系機関の情報がウィキデータに読み込まれると、ウィキデータのボランティアによって編集が行われます。つまりウィキデータとは、美術館収蔵品ならびに文化遺産に関するダイアログ(会話)を扱う、外部の公開のプラットフォームと位置づけられます。 その観点から、ウィキデータはあくまでも機関の内部管理された収蔵品データベースあるいはウェブサイトを補完するものであって、置き換えるものではありません。
ウィキデータ上のダイアログは豊かであり、訂正やさまざまな意見が並立しています。ウィキデータのコミュニティは美術館・博物館および遺産のコミュニティから、そのダイアログに効果的な参加を確実に得られると期待しています。これには新しい収蔵品が加わった場合などに備えた、定期的なデータ更新も含まれると理想的です。
このようなダイアログから、ウィキデータと美術館・博物館・遺産など、双方のコミュニティが受けるメリットとはどのようなものでしょうか? 次の章ではウィキメディア・プロジェクト群、美術館・博物館、広義の一般社会それぞれのコストと利益を検証します。
ウィキデータに情報を提供するコストと利点
この章ではウィキデータを利用して美術品に関する情報をオープンデータ化するコストと利点について述べます。分析は美術館、ウィきメディアのコミュニティならびに一般社会を対象とします。
美術館 / 美術品コレクションにとって
美術館におけるウィキペディアへのデータ寄贈については、動画記録のウィキデータを利用したリンクトオープンデータ公開 でもご説明しています。(スクリーンキャストはオランダ語版です。)
利点 |
コスト |
---|---|
低コスト
ウィキデータのプラットフォームは、Web空間におけるデータの再利用を可能にする低コストで堅牢なインフラストラクチャです。堅牢なインタフェースとAPIを提供し、データの管理と他のアプリケーションとの統合を実現します。 美術館・博物館では、類似のプラットフォームを機関内で作成・管理するために費やす、開発と技術の専門知識を節約することができます。 一般社会へのアウトリーチ (普及) ウィキデータならびに関連するウィキメディア・プロジェクト群は広くアウトリーチ (普及) しています。ウィキデータのプラットフォーム自体の活発な利用者は6,000人です。これは、技術的に経験豊富な、しばしば自分でアプリケーションを開発する専門家ばかりのため、かなり多い数です。ウィキデータというブランドとそのオープン性が広く知られているため、このプラットフォームへの道は、ウィキメディア外部の開発者からも簡単に見つかります(最近のGoogleのサポートとの対比)。 美術館・博物館はウィキデータを介して、広大で国際的そして非常に多様な閲覧者に遡及できるかもしれません。ウィキデータにより美術品コレクションは収蔵館独自の教育およびコミュニケーション部門を通じて実現する以上の、はるかに広い範囲の閲覧者に到達します。 創造性 純粋なアウトリーチに次いで、活発なウィキデータ利用者6,000人は何か特別なもの、つまり収蔵品に関する新しい視点を開く能力を提供します。ウィキデータが到達する「デジタル・ネイティブ」と呼ばれる特定の人たちは、自発的かつ創造的にウェブ版のアプリケーションによるデータの組み合わせや処理を行います。さらに加えて、このグループは年齢層が若いことから、美術館・博物館が若年層の閲覧者への遡及に必要な、翻訳の支援を得ることもできるかもしれません。 純粋なアウトリーチに次いで、活発なウィキデータ利用者6,000人は何か特別なもの、つまり収蔵品に関する新しい視点を開く能力を提供します。ウィキデータが到達する「デジタル・ネイティブ」と呼ばれる特定の人たちは、自発的かつ創造的にウェブ版のアプリケーションによるデータの組み合わせや処理を行います。さらに加えて、このグループは年齢層が若いことから、美術館・博物館が若年層の閲覧者への遡及に必要な、翻訳の支援を得ることもできるかもしれません。 文脈 美術館・博物館のデータはウィキデータにおいて、特定の「サイロ」(貯蔵庫) に収まるのではなく、世界全体を対象とする知識のベースに存在します。これは第一に、幅広く豊富な文脈にデータが置かれていることを意味します。第二に、ウィキデータは歴史的な出来事や著名人など、作品に描かれた題材のメタデータも収載しています。また第三にVIAFやArt and Architecture Thesaurusなど、外部の機関や用語集のデータのハブでもあります。最後に、芸術作品は個々の収蔵機関の壁を越え、美術家の作品群の一部となります。 |
データの独占性の喪失
ウィキデータ上に公開されたデータは、クリエイティブ・コモンズ契約により提供され再利用されます。博物館はウィキデータのプラットフォームに公開するデータについて、いかなる形式であっても排他性を明確に示すことはありません。クリエイティブ・コモンズの下でデータをいったん公開すると、このライセンスの取り消しはできません。 美術館美術館はウィキデータを介して社会にデータを寄付します。それにより美術館博物館は、第三者に提供する再利用可能なデータに基づく利得/収益獲得のモデルを放棄することになります。具体的には、例えば美術館博物館の収蔵品データのライセンス販売によって収益を得ることはできません。美術館博物館はまた、そのデータを第三者が製品に再利用して得た収益の一部を請求することもできません。 データ更新にかかる時間投資 ウィキデータにデータを公開される美術館博物館はそのデータの定期的な更新、データの正確性に専念し、他の(専門家ではない)ウィキデータ利用者とデータの完全性に関して対話することを期待されます。 美術館・博物館のデータ管理者はウィキデータ・インターフェースを理解する必要があり、これを用いたデータ管理にウィキペディアン (登録利用者) として従事します。自発的なこの取り組みは、データの再利用の促進に不可欠です。 データ整形の時間投資 収集品管理システムのデータはウィキデータのプラットフォームに読み込む準備として、整理・整形して正規化する必要があります。現時点でその目的に利用できるツールを使用すると、エクスポート、権限のリンク付け、データ正規化とマッピングなど、データ処理にかなりの手作業が求められます。 この工程には専門知識を持つデータ・マネージャーが欠かせず、あるシステムから別のシステムへのデータ転送、データ整形用の特定のツールに精通していることが必要です。 ウィキデータによるリンクトオープンデータの公開とは、フランドル派のオランダ美術館が運用するデジタルインフラの更新を目標とする、広範な戦略の一環です。この分野の美術館博物館ではすでに集中的な手順を経ており、データの整理と正規化、内容の充実が進み、データ識別に永続的なURIを使っています。そのような経緯により、これらのコストの大部分は既に投資済みで、データは最小の調整でウィキデータ・プラットフォームに読み込みができます。 |
ウィキメディアにとって
社会的ならびに文化的機関と定期的に協働するウィキメディアのコミュニティでは、UNESCO、British Library (GLAM大英図書館事業) ならびにWiki教育財団および全世界の美術館・博物館との活動実績があります。GLAM-WIKIプロジェクト (学術・文化施設)は文化的機関との共同事業を統括します。
初の招聘ウィキペディアンであるリアム・ワイアット (Liam Wyatt, 2010年大英博物館): “同じ作業を同じ趣旨のもと、共通の閲覧者のために共通の媒体で行うのですから、ぜひ協力しましょう。”
美術コレクションのデータ寄贈によってウィキメディアとウィキデータに発生する利点とコストは以下のとおり:
利点 |
コスト |
---|---|
使命に準拠するコンテンツ
機関はウィキメディアの使命に準拠し、かつウィキデータの独自性基準に該当するデータを寄付します。 高品質なデータ 機関から寄贈されるデータは、高品質で慎重に編集され、信頼性の高い情報源への参照を含んでいます。 学習機会 ウィキデータを介したリンクされたオープン・データの公開 を例とするデータ寄贈事業は文化的機関の専門家との協働という学習の機会をウィキデータのコミュニティに与え、あわせてデータのモデル化、インポート、再利用に習熟する機会となります。 さらにフリーコンテンツを格納するための踏み台 寄付されたデータにより、参加する美術館・博物館/コレクションが無料の情報(画像や他のメディアなど)をさらに追加し豊かにするよう願っています。 |
ストレージ
寄贈されたデータは、ウィキメディア財団のサーバ空間を占有することにより、保管、保守およびエネルギー使用による一定のコストを発生させます。 時間 寄贈されたデータはボランティアによって編集、管理、維持されます。この実現にはかなりの量の善意と人々の自由時間の投資が求められます。 新しいツールの必要性 データの寄贈によって、さらに大量のツールが必要になります(例えば大量の読み込み、データの測定および更新のため)。短期的には充当する予算や時間の不足の可能性があります。 |
一般社会にとって (出資機関、依託団体、一般社会、納税者...)
利点 |
コスト |
---|---|
知名度
(オランダの)美術館にとって、データの寄贈は保存している遺産の発見可能性、可視性、アクセス性を向上させます(オランダ美術コレクションの使命に準拠)。 低コスト オープン・プラットフォームの利用は社会全体のインフラとしてコスト対効果が優れています。 オープンデータ 欧州の公的機関情報の指令 European PSI directive (PSI 指令) によると、公的資金を調達したヨーロッパの機関が作成したデータは、持続可能な方法でオープンデータとして利用可能です。ウィキデータに対するデータ寄贈はその具体的な実践です。美術館博物館は日々の業務にウィキデータAPIという道具を追加し、データを再利用できます。 ウィキペディアの記事 寄贈されたデータを根源として、ウィキペディアの執筆者が優れた記事を生みだす可能性があります。そうなると一般社会も恩恵を受けます。執筆者に情報源が与えられ、世界中の閲覧者がその情報を参照するのです。同じことがウィキデータ API を利用する開発者についても当てはまります。 オランダ美術コレクションなどの機関は、世界の閲覧者にオランダ美術の遺産をみせたいと望んでいます。ウィキデータのようなプラットフォームを介すると、それら作品の情報はウィキペディアの多言語の記事に記載されます。美術作品にはウィキデータの項目が1対1しかありません。記事の執筆者は誰でも、この情報源から典拠情報を含む同じ記録を入手します。 |
納税者の資金の投資
データ作成は公共の予算が当てられる。 |
クロスウォーク、データ転送、データ読み込み方式
この章ではウィキデータに設ける美術作品の最小単位のプロフィールを提案します。美術作品の十分な最小単位のウィキデータ項目を作成するには、どのようなクリエイティブ・コモンズ情報が必要でしょうか? ウィキデータで記述し記録する形態とは?
次に、データの受付方法、ウィキデータに提供されたデータがボランティアの手で統合される仕組みを簡単に説明します(2015年10月現在の情報)。
クロスウォーク(データベース間マッピング)
制作物のサンプルとして好適な項目として、テオ・ファン・レイセルベルヘ Théo van Rysselberghe の絵画A reading by Emile Verhaeren (Q21012032)を使います。
データセットに含めるメタデータ
(注記: オリジナルのデータセットに含まれなかったデータの追加は、後日、ボランティアにより処理します) |
ウィキデータ | 備考 |
---|---|---|
作品名。最低1言語で記入 | ウィキデータ項目のラベル (設定した言語で表記) | タイトルの表記はデータセットに言語を明示する場合、複数の言語でも可。また別名も可。ウィキデータには別名 (エイリアス) として登録、検索のヒット率向上に有効です。 |
制作者名 | 属性 creator (P170) | 制作者名はできれば名と姓が1枠、あるいは名と姓をそれぞれ別の枠 (フィールド) に入力してください。姓名を「,」(半角カンマ) で区切り1枠に入力すると不明確です。
読み込み処理担当者は制作者名ウィキデータと「照合」してください – 制作者名の正確で詳細な情報がウィキデータに種類のQ番号付きで登録されていなければなりません。左記により、データセット原本がそもそもウィキデータと照合できるとたいへんに有効です。ウィキデータには VIAF、ULANおよびRKDartists の各識別子を保存します。これにより制作者名が探しやすくなります。データセット原本にこれらID (のいくつか) を付けてあると、左記のとおりたいへんに有効です。 |
種類 (美術品が属する分類) | 属性 instance of (P31) | 読み込み処理担当者は種類をウィキデータと「照合」してください – 種類の正確で詳細な情報がウィキデータに種類のQ番号付きで登録されていなければなりません。左記により、データセット原本がそもそもウィキデータと照合できるとたいへんに有効です。 ウィキデータには AAT 識別子を保存します。これにより美術品の種類とジャンルが探しやすくなります。データセット原本にこれらID (のいくつか) を付けてあると、左記のとおりたいへんに有効です。 |
収蔵先 | 属性 collection (P195) | 読み込み処理担当者は機関をウィキデータと「照合」してください – 機関の正確で詳細な情報がウィキデータに機関のQ番号付きで登録されていなければなりません。これにより、データセット原本をウィキデータ上のそれと照合できます。ウィキデータには ISIL 識別子を保存します。これにより美術品の種類とジャンルの照合ができます。左記により、データセット原本にこれらID (のいくつか) を付けてあると、たいへんに有効です。 |
このコレクション中の収蔵台帳番号 | 属性 inventory number (P217) | |
日付 (わかる場合) | 属性 inception (P571) | ウィキデータに登録する日付は以下の条件の正確性を重んじます。
ウィキデータに登録する日付として「1856年頃」あるいは「1574年から1603年頃」は不適格です。データのインポート時に近似値を用います。 |
URL / URI |
|
可能な限り恒久的なリンク/パーマリンクとする。美術品に関する情報を提供する URLを記入。 |
画像 (複数可) | 属性 image (P18) | ウィキメディア・プロジェクト群に共通の条件として、ウィキデータもフリーライセンス (パブリックドメイン、CC-BY、CC-BY-SA) で使用できる画像やメディアを格納 (リンク) するものとします。読込先のメディアバンクは ウィキメディア・コモンズとします。 |
作品が表現する者は? | 属性 depicts (P180) | |
美術品の所在地 | 属性 location (P276) | 通常は収集機関と同じだが、異なる場合もある (長期貸出契約や公共空間の展示など) |
素材 | 属性 made from material (P186) | |
ジャンル | 属性 genre (P136) | |
芸術運動 | 属性 movement (P135) | |
幅 | 属性 width (P2049) | |
高さ | 属性 height (P2048) | |
重量 | 属性 mass (P2067) |
データ配信と読み込みの方法
この白書の執筆時点 (2015年10月)で大量の外部データをウィキデータに一括で読み込むための容易で簡単なツールはまだ存在しません。
この時点で、経験豊富なボランティアによって外部データのアップロードが実行されます。 彼/彼女は通常、カスタムスクリプト(ボット)でデータをアップロードします。 このようなアップロードボットは、さまざまな形式のデータを処理できます。 最も重要な条件は、データセット内の明確で論理的な構造です。
データ配信には、とりわけ、以下の方式が適しています。 質問や疑問があるデータ提供者には、アップロード作業のボランティアに連絡されるようお勧めします。
- テキストファイル形式で、csv、tsvまたはその他「区切り文字」を採用する
- 表計算ファイル形式で、excel、Google シートまたはOpenOfficeスプレッドシートなど
- XMLまたはRDFファイル
- Microsoft Accessのエクスポート・ファイル(ただし「フラット」ファイルを優先)
- 公開アクセス可能なAPI
データセット内のフィールド/メタデータの順序は重要ではありません。
データセットの受領後、読み込み作業のボランティアおよび使用したぼっとに寄る次の処理を行います。
- データセットとウィキデータの人物、団体、概念を照合 (対応する Q 項目のルックアップ)
- ウィキデータ上に該当しなかった人物、団体、概念のリスト化
- データセット内の制作物 (artwork) がウィキデータに既存のものと重複しないか調べ、重複する場合は読み込み作業中に除外するよう処理。
- 新規の制作物を1件単位で処理し、固有のQ番号を割り当てウィキデータに読み込む。受領したメタデータは、上記のデータベース間照合 (クロスウォーク) の原則に照らし、すべて属性として付加。
- 永続的なリンク/ URIは状況により、属性としてあるいは参照項目として追加。
データ保守、手動による変更と更新、さらにRDF抽出の手順は、このプロジェクトのハンドブックの解説を参照してください(2015年12月4日付で配布予定)。
結論
ウィキデータは、歴史が比較的浅いプロジェクトです。創設は2012年であり、技術面でもデータのモデルでも常に開発を重ねてきました。
2015年10月時点では下記の例のような多くの質問や課題が未解決でした。
- シリーズ作品のデータモデル
- 美術品に関する正確で詳しい日付
- 受贈データの読み込み、統計、管理および双方向更新に用いるツール
ウィキデータへの早期参加の利点:
- 大量のデータ寄贈により、上記のウィキデータ・コミュニティの課題は優先順位を改善。
- 実地の経験ならびに初期のデータ寄贈者による議論は未来の開発に影響力を遡及
- 早期に寄贈だれたデータは、ウィキデータのデータモデルの転換において状況の変化に即した更新を行い、ウィキデータ上のすべての情報の処置も同様。
ウィキデータに対するデータ寄贈の SWOT 分析
強み (S) | 弱み (W) |
|
|
機会 (O) | リスク (T) |
|
|
付録: 利用のガイドライン
MoMA
ニューヨーク近代美術館よりクリエイティブ・コモンズ契約のもと、美術品に関する表形式データ (csvファイル) をGitHub: https://github.com/MuseumofModernArt/collection 上に受贈しました。
本件には利用法を解説した以下のREADMEファイルを含みます。https://github.com/MuseumofModernArt/collection/blob/master/README.md
これらのガイドラインを要約すると次のようになります。
- 画像は含まれない
- 研究段階である
- 諸権利は MoMA に帰属すると明示する
- データセットの誤用を防ぐ
テート・ギャラリー
テート・ギャラリーよりクリエイティブ・コモンズ契約のもと、美術品に関する表形式データ (csvファイル) を GitHub: https://github.com/tategallery/collection 上に受贈しました。
本件には利用法を解説した以下のREADMEファイルを含みます。https://github.com/tategallery/collection/blob/master/README.md
これらのガイドラインを要約すると次のようになります。
- 諸権利はテート・ギャラリーに帰属すると明示する
- ダイナミックなメタデータを提供
- メタデータの変更を記述し、変更したメタデータを寄贈先に提供する
- 責任性
クーパー・ヒューイット国立デザイン博物館
スミソニアン・クーパー・ヒューイット国立デザイン博物館よりクリエイティブ・コモンズ契約のもと、美術品に関する表形式データ (csvファイル) を GitHub: https://github.com/cooperhewitt/collection 上に受贈しました。
本件には利用法を解説した以下のREADMEファイルを含みます。https://github.com/cooperhewitt/collection/blob/master/README.md
これらのガイドラインを要約すると次のようになります。
- 有効な諸権利の明示。クーパー・ヒューイット国立デザイン博物館に帰属すると明示する
- ダイナミックなメタデータを提供
- メタデータの変更を記述し、変更したメタデータを寄贈先に提供する
- 責任性
- 他者の誤解を招かず、もしくはメタデータならびにその情報源の誤用を防ぐ
- メタデータの利用は個人の責任で行うよう勧告する
注意事項ならびに参考資料 (文中にリンクがないもの)
- ↑ ウィキメディアのプロジェクト群を総覧するには、次のサイトをご参照ください。https://wikimediafoundation.org/wiki/Our_projects
- ↑ ウィキメディアの利用者のうち、1ヶ月に少なくとも5回編集を行うと「活発」とみなされます。統計の詳細情報はhttps://stats.wikimedia.org/EN/TablesWikipediaEN.htmを参照してください。
- ↑ Google's announcement on deactivating Freebase [Google Freebase の不活性化を発表]: https://plus.google.com/109936836907132434202/posts/bu3z2wVqcQc
- ↑ Dan Cohen の2013年11月付けブログ投稿を参照。http://www.dancohen.org/2013/11/26/cc0-by/
- ↑ Wikidataの編集者に関する統計はhttp://stats.wikimedia.org/wikispecial/EN/TablesWikipediaWIKIDATA.htm をご参照。
- ↑ 「...最も重要なのは、記録が不完全で未完成であっても、博物館データベースへのオンラインアクセスが可能な限り迅速に提供されることです」。出典:http://www.rin.ac.uk/our-work/using-and-accessing-information-resources/discovering-physical-objects-meeting-researchers-