Wikidata:Tools/OpenRefine
OpenRefineはデータを飼いならすためのフリーなツールで、表データをきれいにしたりウィキデータを含む知識ベースと接続したりするのに使うことができます。以前はGoogleが(Google Refineの名の下に)開発していましたが、今ではコミュニティが支援するプロジェクトに移行しています。
このページにはOpenRefineのレシピを集めていて、ウィキデータにデータセットをインポートしたり、ウィキデータから抽出した追加データでデータセットを補完したりするのに役立つでしょう。議論ページを使って気軽にソフトウェアに関する手助けを問いかけて下さい。このツールをエンジョイしたら、{{User loves OpenRefine}}
ユーザーボックスでこの言葉を広めることができます。
OpenRefine currently only supports reconciling items. Lexemes are not supported as of September 2022.
OpenRefineのインストールと実行
OpenRefine can be downloaded as an application. It works on desktop and laptop computers with Windows, Mac and Linux operating systems. It runs a small server on your computer and you then use a web browser to interact with it. It works best with browsers based on Webkit, such as Google Chrome, Chromium, Opera and Microsoft Edge, and is also supported on Firefox.
OpenRefine has a graphical user interface which is available in more than 15 languages.
自分のデスクトップやラップトップコンピューターにOpenRefineをインストールする
OpenRefineの最新の安定版リリースをここから探してダウンロードすることができます。
PAWSでOpenRefineを実行する
Since May 2021, everyone with a registered Wikimedia account can run OpenRefine in PAWS on Wikimedia's Cloud Services. Please note that this is an experimental feature which is not supported by the OpenRefine team itself, and which may break or malfunction. It is however an interesting option for people who can't install software on their local computer.
PAWS is a Wikimedia Cloud tool that provides hosted access to Jupyter notebooks and other tools without needing any local installation.
You can access your own installation of OpenRefine with this link: https://hub-paws.wmcloud.org/hub/user-redirect/openrefine. You'll have to login with your wiki credentials, but don't tick Remember me box: as all files written on PAWS are publicly available, you don't want to let your credentials accessible. It is also possible that you will get an error message; if that is the case, then refresh the page and it should work.
Please contact YuviPanda with questions about OpenRefine via PAWS.
主な機能
ウィキデータ照合
OpenRefineの用語では、照合(reconciliation)とはフリーテキストの表のセルを知識ベースの識別子とリンクするプロセスのことです。OpenRefineは、そこに組み込まれた照合機能によって表データをウィキデータを含む広範なデータベースと照合する、汎用的なツールとなっています。
OpenRefineのウィキには 照合プロセスの詳細なガイドがあります。以下がその主な機能です:
- 照合をウィキデータのクラスに限定。そのウィキデータのクラス配下のサブクラスの項目だけが考慮されます。
- あなたのデータセット内で複数カラムを使用し、ウィキデータ内のプロパティ値と一致させます。これにより照合スコアが洗練され、同名の事物を判定します。
- あなたのデータセットとウィキデータが共有している外部識別子を使って、あなたの項目を照合します。
- あなたのデータセットに外部識別子として提供されているサイトリンクを使います - これらのウィキメディア・ページがウィキデータ項目にリンクされている場合は、自動的に照合されます。
照合機能を使う場合は、次の教材の利用を検討してみてください:
- これらの機能はOwen Stephens のビデオで詳細に解説されています series of screencasts on the topic.
- ArthurPSmith によるWikidataCon 2017でのデモ use with Wikidata。
APIs can be, for instance a search on frlabels with wikidata thanks to this link https://wikidata.reconci.link/fr/api.
データ補完
この機能はOpenRefine 2.8以降で利用可能です。
あなたの表のカラムはいったんウィキデータと照合されたらウィキデータからデータを取り出してあなたのデータセットに別のカラムとして作成することができます。あるプロパティに複数の主張がある場合は、値はOpenRefine内に「レコード」としてグループ化されます: 元の照合済カラムがブランクの場合は追加された行の中にストアされます。そのためOpenRefineの「レコードモード」はあなたの表で後から実行したい変換により適しているはずです。項目のラベル、項目の説明および項目のサイトリンクには、プロパティ Lxx、Dxxおよび Syyyyでアクセスできます。ここでxxは言語コード(en、fr、yue、など)、yyyyはサイトID(enwiki、ptwikisource、など)です。
新しく作ったカラムに対して、それがウィキデータ項目に対応していれば、この機能を再帰的に使うことができます。これによりウィキデータのグラフを選択したプロパティに従って調べることができます。プロパティを参照するやり方は様々な方法(例えば、ランクや情報源でのフィルタリング)で設定することもできます。
ウィキデータ編集
この機能はOpenRefine 3.0以降で利用可能です。
OpenRefineは表データをウィキデータの文に変換する手助けをします。この機能はスキーマ(あなたの表の各行に適用されるウィキデータ編集のテンプレート)を作成することで使えます。スキーマはいちど作成すると、次のことができます:
- ウィキデータ編集のプレビューと手動検査。
- ツールが自動検出した問題の分析と修正。
- 自分のアカウントでログインして変更内容をウィキデータにアップロード。
- 変更内容をQuickStatements v1 形式でエクスポート。
詳細は編集サブページを参照。 入門編のチュートリアルは多数あります。
レシピ
OpenRefineのワークフローは編集履歴のJSON表現をコピーして共有することができます。これはあなたがOpenRefineで行った操作履歴を表しており、別の人が類似のデータセットに対して再利用できます。このセクションではウィキデータを利用する際に役立つレシピを一覧化しています。OpenRefineレシピも参照。
- ウィキデータQ番号の取得。あるカラムでウィキデータに照合する際にこのカラムに基づいてカラムを追加という操作で次のGREL表現を使って、新しいカラムでQ番号を取得できます:
cell.recon.match.id
- より多くの変数。照合されたセル用に、多数の様々な変数にアクセスできます。変数用のリファレンスページを参照。
- あなたのレシピをここで共有しましょう!
OpenRefineを手助けする
OpenRefineにはあなたの手助けが必要です!やるべきことは沢山あります:
- この文書やOpenRefine自身の文書を改善
- Weblateであなたの言語への翻訳を手助け
- OpenRefineの開発に貢献したり、より具体的にはウィキデータ関連機能に参加
- フォーラムなどでユーザー支援に参加
We have a Phabricator project to track activity around OpenRefine within Wikimedia; feel free to tag any related task with it.
Over 2021-22, OpenRefine is being extended with Structured Data on Wikimedia Commons (SDC) support. This project is funded by a Wikimedia Foundation Project Grant.