Wikidata:Скачивание базы данных

This page is a translated version of the page Wikidata:Database download and the translation is 89% complete.
Outdated translations are marked like this.

Викиданные позволяют скопировать имеющиеся данные всем желающим.

Существует несколько методов доступа к получению данных от Викиданных, которые не требуют скачивания всей базы данных.

Дампы

Существует несколько различных типов дампов данных. Обратите внимание, что дампы JSON и RDF считаются «стабильными интерфейсами», в то время как XML-дампы такими не являются. Изменения в форматах данных, используемых стабильными интерфейсами, подчиняются Stable Interface Policy.

<span id="JSON_dumps_(recommended)_">

Дампы в формате JSON (рекомендованный формат)

Дампы в формате JSON, включающие все сущности Викиданных, перечисленные на странице https://dumps.wikimedia.org/wikidatawiki/entities/. Объекты в массиве необязательно находятся в каком-либо определённом порядке, например, Q2 необязательно следует за Q1. Дампы создаются еженедельно.

Рекомендуется использовать именно этот формат. См. документацию о структуре JSON с информацией о представлении сведений из Викиданных.

Каждая сущность (элемент или свойство) занимает в JSON отдельную строку, поэтому файл можно читать построчно, каждую строку можно декодировать как отдельный объект.

Обратите внимание, что файлы используют параллельное сжатие, из-за чего некоторые декомпрессоры не могут надёжно распаковать файлы. Если вы используете Windows, вы можете использовать, например, Bzip2.

You can currently download a fairly recent dump using a torrent. wikidata-20240101-all.json.gz (130.53 GiB) on academictorrents.com (  magnet)

JsonDumpReader — PHP-библиотека для чтения дампов.

Дампы в формате RDF

Классические RDF-дампы в формате Turtle находятся по ссылке https://dumps.wikimedia.org/wikidatawiki/entities/. Отображение описано здесь.

Во-вторых, предоставляются так называемые truthy дампы. Они используют формат nt. Они находятся в том же формате, что и полные дампы, но ограничены прямыми, правдивыми утверждениями. Поэтому они не содержат метаданных, таких как квалификатор и ссылки.

Полные дампы содержат всю информацию о сущностях Викиданных, кроме порядка (утверждений, синонимов), так как в RDF такая информация не указывается. Упрощённые дампы кодируют утверждения без квалификаторов в отдельные RDF-триплеты, опуская источники.

Дампы пространства имён Викиданных Lexeme в форматах Turtle и NTriples представлены там же с окончанием lexemes.

For details on the RDF dump format please see the page RDF Dump Format.

Частичные дампы в формате RDF

WDumper — сторонний инструмент для создания настраиваемых дампов Викиданных в формате RDF. Возможна фильтрация сущностей и утверждений.

Дампы в формате XML

Дампы базы в формате XML можно найти здесь.

Предупреждение: Формат данных JSON, включаемых в дампы XML, может меняться без объявления и быть несовместимым между версиями. Его следует рассматривать как непрозрачные бинарные данные. Настоятельно рекомендуется использовать вместо этого дампы JSON или RDF, использующие канонические представления данных!

Можно скачать и инкрементные дампы (небольшие дампы с изменениями за последние 24 часа), они позволяют не скачивать каждый раз полный дамп базы данных. Эти дампы значительно меньше, чем полные дампы базы данных

Они доступны здесь.

Старые дампы JSON и RDF

Старые дампы в форматах RDF и JSON можно найти в Internet Archive (Q461):

Модель данных

Модель данных описана по ссылке. Она описывает фундаментальные блоки данных проекта.

Схема базы данных

Обзор схемы БД находится здесь. (Это не схема данных Викиданных.)

Лицензия

Копии базы данных можно использовать в личных или коммерческих целях, для создания резервной копии или для использования на локальном компьютере без подключения к интернету. Все структурированные данные из основного пространства имён и пространств имён Property, Lexeme и EntitySchema доступны под лицензией Creative Commons CC0. Текст в остальных пространствах имён доступен под лицензией Creative Commons Attribution/Share-Alike; также могут накладываться дополнительные условия. Объекты мультимедиа и другое содержимое доступны под иными лицензиями, указанными на их страницах описания.

См. также