Довідка:Про дані

This page is a translated version of the page Help:About data and the translation is 98% complete.

Вікідані — безкоштовна база знань, яку можуть використовувати та редагувати люди і машини. Це один із вікі-проектів під власністю Wikimedia Foundation, безкоштовна та неприбуткова організація, напевно, найвідоміша для Вікіпедії. Кожен із проектів Wikimedia Foundation несе якусь ціль: наприклад, Вікіпедія — енциклопедія, Wikimedia Commons створена для збереження зображень та інших медіа-файлів, Вікісловник — словник значень та синонімів. Ціль Вікіданих — структуровані дані.

Ця сторінка призначена для огляду структурованих даних. Якщо Ви уже знайомі з ними, але хочете вивчити більше про специфіку використання Вікіданих, як отримати доступ до них, або як підтримати свій проект — Вам сюди.

Розуміння Вікіданих

Структуровані дані зберігаються та організовуються у означений спосіб, щоби закодувати їх значення та зберегти відношення між різною інформацією у межах однієї бази даних.

Але все ж, що є "даними"? І чому Ви повинні турбуватись про їх структуризацію?

Визначення даних

Великі дані, експерементальні дані, відкриті дані, метадані — ви напевне стикались раніше з деякими з них, навіть з усіма.

Кожен термін означає щось відмінне, але всі з них побудовані на розуміння інформації та її можливості описати і покращити світ навколо нас.

Як абстрактну концепцію, дані можна розглядати як попередник інформації. Це значить, що інформація може бути отримана або розрахована із даних.

Це пояснюється тим, що дані, зведені до суті, - це просто набір "значень" про "речі". Ці значення можуть бути числовими або кількісними, як вимірювання або сума. Вони також можуть бути якісними, як опис або порівняння. Наприклад, ми можемо сказати, що "8 848 м(29 029 футів)" - це значення даних про висоту гори Еверест, а "червоний" - це значення даних про колір автомобіля.

Як вже згадувалося раніше, інформація - це не те саме, що дані, а натомість є продуктом збору та аналізу даних. Наприклад, "8 848"(дані) є числом без сенсу, навіть якщо ми знаємо, що це висота гори. Але якщо ми знаємо стандартні виміри висоти і коли дізнаємося висоту інших гір то можемо сказати, що "гора Еверест - найвища гора у світі висотою 8 848 м"(інформація). Коли дані структуровані, набагато простіше зробити такі висновки, отримувати нові уявлення та знання та встановити факти. До цієї ідеї ми повернемось пізніше.

Де знаходяться дані?

Дані знаходяться повсюди довкола нас. Існує багато різних видів джерел даних: фінансові, біологічні, соціальні. Навіть ця сторінка містить дані! Наприклад, у неї є кількість слів, дата її створення та останнього оновлення, заголовок і опис, а також кількість переглядів, мови на яких доступний зміст сторінки.

Однак, хоча все потенційно може бути джерелом даних, дані, які не записані та не упорядковані, можуть взагалі не існувати. Без базової структури дані виглядають беззмістовними і не дають корисної інформації.

Під упорядкованням (organized) ми розуміємо класифікацію стандартним і однозначним способом. Впорядковані та класифіковані дані - це те, на що ми посилаємось, кажучи про структуровані дані.

 
Для додавання даних до елементів Вікідані використовує введення з використанням форм.

Де знаходиться структура?

В Інтернеті панують структури. Більшість веб-сайтів створюються з використанням мови розмітки HTML, яка забезпечує основне риштування або структуру веб-сторінки.

Мови розмітки також використовуються для позначення та опису вмісту сторінки, щоб пошукові системи, боти та застосунки, такі як RSS-канали, могли легко його обробити та «зрозуміти». Наприклад, теги <title> повідомляють машинам, яку назву має веб-сайт.

Замість підтримки структури та загальних елементів веб-сторінки, Вікідані надають структуру для всієї інформації, що зберігається у Вікіпедії та інших проектах Вікімедіа. Вікідані, як і будь-який інший проект Вікімедіа, засновані на програмному забезпеченні Mediawiki. Воно розширене програмним забезпеченням Wikibase, що керує Вікіданими та призначене для керування великими обсягами структурованих даних. Структура не додається безпосередньо до вмісту Вікіпедії або інших сторінок веб-сайту Вікімедіа, як то у таблицях або списках, а також не вимагає користування мовами розмітки, схемами даних, позначенням об'єктів або іншим спеціальним синтаксисом. Натомість дані додаються та редагуються у Вікіданих за допомогою зручних форм введення.

Усі дані, що зберігаються у Вікіданих, можуть бути використані для створення всіх видів автоматизованих та оновлених списків чи таблиць чи інших структурованих сторінок на будь-якому веб-сайті Вікімедіа чи деінде.

Таблиця 1
Дані для гір
Гора Властивість Значення
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Структурування даних

Для прикладу важливості структури розглянемо таблицю 1. У цій таблиці ми можемо побачити дані про чотири найвищі гори на Землі. Якщо ми хотіли б знати конкретну інформацію, таку як висота другої за висотою гори у світі, ми повинні мати можливість переглянути надані дані та з’ясувати правильне значення. Однак лише три з чотирьох гір мають свої дані класифіковані як значення висоти, і лише дві з цих трьох гір мають значення в метрах. Хоча ми знаємо, що height (англійською) та hauteur (французькою) можна розуміти як однакову властивість, а також знаємо як перетворити метри у фути або навпаки, машина, наприклад як бот або комп'ютерна програма, може цього не зробити.

Людям і машинам було б набагато легше обробити інформацію та відповісти на вихідне запитання про другу по вишині гору, якби всі основні дані записувалися однаковим способом, навіть якщо їх представлення відрізняється.

Моделювання даних

Колекції структурованих даних, такі як Вікідані, організовані відповідно до моделі даних. Моделі даних машино-читабельні, тобто вони можуть бути зрозумілі комп’ютеру. Хоча комп’ютери потужні, вони часто не такі розумні, як ми, коли йдеться про прості міркування. Наприклад, у наведеному вище прикладі машина не зможе знати, що "height" та "hauteur" це та сама властивість, оскільки їм явно про це не сказано.

Таблиця 2
Дані для гір
Гора Властивість Значення
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Моделі даних варіюються залежно від потреб аналізу, області та концептуального каркасу набору даних та технічних вимог системи. Однак у всіх моделях даних зазвичай вказується, який тип даних може підтримуватися системою та які взаємозв'язки між значеннями можна зрозуміти та представити. Наприклад, модель даних може вказати, що height і hauteur відображаються між собою так, щоб обидва терміни представляють одне поняття. Або щоб вимірювання у футах автоматично перетворювались у метри. Модель даних Вікіданих формує спосіб, яким користувачі можуть редагувати та додавати дані до системи. Це також незавершена робота, з часом в модель додаються нові типи даних.

Модель даних також по суті переводить закономірності людської мови в те, що можна обробити машинами. Наприклад, англійською мовою ми можемо сказати:

"Mount Everest is the highest mountain in the world"

Це також необроблений, неструктурований формат вмісту, який зараз є у Вікіпедії та на всіх інших сайтах Вікімедіа.

У Вікіданих це буде представлено як statement, який складається з пари властивість-значення щодо елемента, в даному випадку Землі:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Крім того, Вікідані також містять твердження про елемент для Евересту (вказуючи, що це гора):

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

Зверніть увагу: оскільки інші елементи можуть використовуватися як значення для тверджень, а всі items мають власну унікальну сторінку у Вікіданих, це означає, що всі елементи в системі можуть бути пов’язані між собою через ряд тверджень. Оскільки Wikidata використовує машино-читабельний формат, цей взаємозв'язок даних дозволяє виявляти та обробляти машинами нові зв'язки та з'єднання. Наприклад, у таблиці 2 ми бачимо нові дані для наших гір, цього разу про їх географічне розташування за континентами, але нічого про їх висоту. Якщо припустити, що дані цього континенту були пов'язані з даними про висоту гір, ми почувались би впевненіше, роблячи прогнози або роблячи про це певні висновки, як-от сказати, що Азія є домом для найвищих гір у світі.

Зв'язування даних

Окрім збору структурованих даних, Wikidata також підтримує пов'язані дані. Пов’язані дані стосуються практики публікації структурованих даних, щоб вони могли бути взаємопов’язаними.

Для Вікіданих це означає, що дані, які надають добровольці, також можуть бути пов'язані з іншими наборами даних, базами даних та джерелами даних з усього Інтернету та з різних ініціатив, що не належать до сімейства Вікімедіа. Наприклад, в даний час Wikidata дозволяє взаємозв'язок із наборами даних та базами даних, настільки різноманітними, як Google Books, Canmore (одна з баз даних Historic Environment Scotland), Vatican Library, OmegaWiki та MusicBrainz.

 
приклад простого твердження, що складається з однієї пари властивість-значення
 
приклад більш складного твердження, що складається з однієї пари властивість-значення, кваліфікаторів і примітки

Дотримуючись принципів і практик пов'язаних даних, Вікідані також здатні підтримуватися і використовуватися іншими проектами.

Принципи пов'язаних даних

Wikidata використовує унікальні ідентифікатори, або Уніфікований ідентифікатор ресурсів (URIs), для всіх елементів відповідно до стандартів зв’язування даних.

Хоча Wikidata використовує унікальну модель даних, її вміст можна експортувати у RDF, широко використовуваний і стандартний формат для пов’язаних даних. У термінах Вікіданих твердження складається з елемента та пари властивість-значення. Для тих, хто знайомий із поняттями пов'язаними даних, елемент можна розглядати як предметну частину триплету; властивість представляє предикат триплету; а значення використовується для вираження об’єкта триплету.

Однак твердження Вікіданих можуть також містити елементи за межами суб'єкта-предиката-об'єкта (subject-predicate-object), такі як посилання та кваліфікатори (для отримання додаткової інформації див.Help:Statements). Це ускладнює повне представлення вмісту Вікіданих мовою RDF - більше інформації про ці проблеми можна знайти в документі "Introducing Wikidata to the Linked Data Web".

Надання даних

Якщо у вас є набори даних, які ви хотіли б внести до Вікіданих, див. Wikidata:Data donation.

Доступність даних

Дані у Вікіданих публікуються в Creative Commons Public Domain Dedication 1.0, що дозволяє безкоштовно використовувати дані повторно. Ви можете копіювати, змінювати, розповсюджувати та виконувати дані, навіть у комерційних цілях, все без запиту дозволу.

See Data access for details about the different ways to programmatically access Wikidata's data.

Див. також

Пов'язані сторінки:

Детальніше дивіться тут:

  • Чат проекту для обговорення будь-яких аспектів Вікіданих
  • Wikidata:Glossary, глосарій термінів, що використовуються на цій та інших сторінках довідки
  • Help:FAQ, часті запитання, які ставить і на які відповідає спільнота Вікіданих
  • Help:Contents, портал довідки, що містить усю доступну документацію для Вікіданих