Help:О данных

This page is a translated version of the page Help:About data and the translation is 98% complete.

Викиданные (Wikidata) — это свободная база знаний, доступная для чтения и редактирования как человеком, так и машиной. Это лишь один из многих вики-проектов, поддерживаемых и сопровождаемых Фондом Викимедиа, ориентированной на свободный контент некоммерческой организацией, вероятно, наиболее известной благодаря Википедии. Для каждого из проектов Фонда Викимедиа есть своё направление — например, Википедия предназначена для энциклопедических материалов, Викисклад хранит изображения и другие медиафайлы, а Викисловарь предоставляет такую лексикологическую информацию о словах, как определения и синонимы. Викиданные предназначены для структурированных данных.

Эта страница предназначена для общего обзора структурированных данных. Если вы уже знакомы со структурированными данными, но хотите узнать больше об определённых аспектах использования Викиданных, о том, как получить доступ к данным в Викиданных, или как внести в Викиданные информацию из своего собственного проекта, — пожалуйста, перейдите к разделу о связанных данных.

Разбираясь в сути Викиданных

Структурированные данные относятся к таким данным, которые были организованы и сохранены определённым образом, зачастую с целью закодировать смысл и сохранить взаимоотношения между различными источниками данных в их наборе.

Но что же такое данные? И почему именно вы, в частности, должны заботиться о структурированных данных?

Определение данных

Большие данные, экспериментальные данные, открытые данные, метаданные -- вы, возможно, сталкивались с некоторыми или даже со всеми этими терминами раньше.

Эти термины в той или иной степени отличается друг от друга, но все они основаны на общем понимании данных, их возможности для описания и улучшения понимания окружающего мира.

Как абстрактное понятие, данные могут считаться предшественником информации, означая, что информация может быть выведена или получена из данных.

Причина в том, что в сухом остатке от данных остаются наборы «значений» неких «предметов», значения могут быть числами (количество или мера), а также утверждениями (описание и сравнение). К примеру, «8848 метров» — это числовое значение высоты Эвереста, а «красный» — это значение цвета автомобиля.

Как уже упоминалось, информация — это не то же самое, что данные, а результат сбора и анализа данных. Число «8848» (данные) бессмысленно, даже если мы знаем, что это высота горы, а если сообщить, что «Эверест — высочайшая гора в мире, её высота 8848 метров» (информация), то мы сообщаем также и о высоте остальных гор. Структурирование данных помогает получать знания. Впоследствии мы вернёмся к этой мысли.

Где находятся данные?

Все данные находятся вокруг нас. Существует много видов источников данных, включая финансовые, биологические, и социальные данные. Даже у этой страницы есть данные! Например, у неё есть общее количество слов, дата её создания, дата последнего просмотра, тема и предмет, число просмотров страницы и количество языков, на которых она доступна.

Тем не менее, когда всё может быть источником данных, данные, которые не записаны и не организованы могут не существовать вовсе. Без структуризации данные становятся бессмысленными и из них невозможно получить полезную информацию.

Структурированием данных называют их категоризацию по некому однозначному и стандартному признаку. Организованные и категоризированные данные мы и подразумеваем под структуризированными данными.

 
В Викиданных имеется форма для ввода данных, относящихся к элементам

Где находится структура?

В сети структура является самой главной. Большинство веб-сайтов создано, используя HTML, язык разметки, который обеспечивает основную структуру веб-страницы.

Языки разметки используются также для маркировки и описания содержимого страницы, чтобы поисковые системы, боты, и приложения, такие как RSS-каналы легко обрабатывали и «понимали» его. Например, теги <title> говорят машине, каким является имя веб-страницы.

Вместо того, чтобы поддерживать структуру и общие элементы данных на веб-страницах, Викиданные хранят структуру той информации, которая содержится в Википедии и других проектах Викимедиа. Технически Викиданные основаны на том же программном обеспечении MediaWiki, на котором работают и прочие вики-сайты Викимедиа, но расширенном с помощью Wikibase — программного обеспечения, предназначенного для управления большими объемами структурированных данных. Эта структура не требует добавления напрямую на страницы Википедии или других сайтов Викимедиа чего-то вроде таблиц или списков, а также не требует от своих пользователей знания языков разметки, схемы данных, нотации и особого синтаксиса — вместо этого данные вводятся и редактируются через простые формы ввода.

Все хранимые данные могут быть использованы для генерации любых видов автоматически формируемых или обновляемых списков, таблиц или иных структурированных страниц на любых сайтах Викимедиа и за их пределами.

Таблица 1
Данные для гор
Гора Свойство Значение
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Структурирование данных

Чтобы понять важность структуры, взгляните на Таблицу №1. В этой таблице мы видим данные для четырёх самых высоких гор. Если бы мы хотели знать особую информацию, такую как высота второй по высоте горы в мире, то нам было бы нужно посмотреть на предоставленные данные и узнать правильное значение. Однако, данные только трёх из этих четырех гор категоризированы как значения высоты, и только у двух из этих трех есть значения в метрах. Мы-то с вами можем догадаться, что свойства высота (height) и вышина (hauteur, по-французски — высота) можно понимать как эквивалентные, и что метры и футы могут равно служить для измерения высоты, а вот машины — как, например, бот или компьютерная программа — не могут.

И для людей, и для машин было бы намного легче обработать информацию и ответить на оригинальный вопрос о второй по высоте горе, если бы все исходные данные были записаны похожим способом, даже когда их представление различается.

Моделирование данных

Собрания структурированных данных, подобные Викиданным, организованы в соответствии с т. н. «моделями данных». Модели данных являются машиночитаемыми, то есть они могут быть поняты компьютером. Несмотря на то, что компьютеры мощны, они пока ещё не так умны как мы, когда дело доходит до простых рассуждений. Например, в приведенном выше примере, машина не может знать, что высота и вышина — это одно и то же, пока ей явно не сказано, что следует понимать в этом случае.

Таблица 2
Данные для гор
Гора Свойство Значение
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Модели данных разнятся в зависимости от нужд по анализу и концептуальной структуре данных, а также технических требований системы. Тем не менее, все модели данных обычно указывают, какие типы данных они принимают и какие возможны отношения между значениями. К примеру, модель данных может требовать, чтобы «высота» и «height» были связаны и означали одно и то же. Или чтобы длина в футах автоматически переводилась в метры. Модель данных Викиданных позволяет добавлять и изменять данные пользователям системы.

Модель данных переводит человекочитаемые сведения в удобный для машинной обработки вид. По-русски можно сказать:

«Эверест — высочайшая гора мира».

В таком же виде сведения хранятся в Википедии и других сайтах Фонда Викимедиа.

На Викиданных это выражается через утверждения, состоящие из пары «ключ-значение» в элементе, в нашем случае элементом выступает Земля:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Кроме того, в Викиданных имеются утверждения о горе Эверест, в том числе то, что это гора:

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

Обратите внимание, что элементы сами могут выступать в качестве значений, и у каждого элемента есть уникальная страница на Викиданных, то есть, все элементы можно связать друг с другом последовательностями утверждений. Так как Викиданные имеют машиночитаемый формат, это позволяет компьютерам обнаруживать и обрабатывать связи между данными. К примеру в таблице 2 мы видим новые данные о горах, об их расположении по континентам, но об их высоте там ничего нет. Если бы данные по континентам были связаны с высотой гор, можно было бы сделать какие-нибудь выводы, например, что высочайшие вершины мира находятся в Азии.

Связывание данных

Кроме того, что Викиданные представляют собой набор структурированных данных, они поддерживают связанные данные. Такие данные имеют связи между собой.

Это означает, что добавленные добровольцами данные можно использовать в других хранилищах данных, базах данных и подобных сущностях по всему Интернету, а также за пределами проектов Викимедиа. К примеру, Викиданные позволяют связи с такими разными хранилищами как Гугл.Книги, Canmore (одна из баз культурного наследия Шотландии), Библиотека Ватикана, OmegaWiki и MusicBrainz.

 
пример простого утверждения, состоящего из одной пары свойство-значение
 
пример более сложного утверждения, состоящего из одной пары свойство-значение, квалификаторов и примечания

Следуя принципам и практикам связанных данных, Викиданные также способны поддерживаться и использоваться другими проектами.

Принципы связанных данных

Викиданные используют уникальные идентификаторы (по другому uniform resource identifiers (URIs)) для всех своих элементов согласно стандартам связывания данных.

Хотя модель данных Викиданных уникальна, её содержимое можно экспортировать в RDF, широкоизвестный формат хранения связанных данных.

В терминах Викиданных утверждение состоит из элемента и пары «свойство-значение». В терминах теории информации элемент можно рассматривать как субъект триплета, свойство — предикат, а значение — объект.

Утверждения Викиданных могут содержать не только это, но также источники и квалификаторы (подробнее см. Help:Statements). Это усложняет представление содержимого Викиданных в человеческих языках и RDF, больше об этих проблемах см. в документе Introducing Wikidata to the Linked Data Web.

Предоставление данных

Если у вас есть наборы данных, которые вы бы хотели внести в Викиданные, пожалуйста, посетите Wikidata:Data donation.

Доступность данных

Данные в Викиданных опубликованы под Creative Commons Public Domain Dedication 1.0, позволяющей бесплатное повторное использование данных. Вы можете копировать, изменять, распространять и демонстрировать данные даже в коммерческих целях, не спрашивая разрешения.

See Data access for details about the different ways to programmatically access Wikidata's data.

См. также

Связанные страницы:

Дополнительная информация и руководства:

  • Форум проекта — место для обсуждения любых аспектов Викиданных
  • Wikidata:Glossary — глоссарий терминов, используемых на этой и других справочных страницах
  • Help:FAQ — часто задаваемые вопросы, которые задаёт и на которые отвечает сообщество Викиданных
  • Help:Contents — справочный портал со ссылками на всю доступную документацию по Викиданным