Bantuan:Mengenai data

This page is a translated version of the page Help:About data and the translation is 100% complete.

Wikidata ialah pangkalan data pengetahuan bebas yang dapat dibaca dan disunting baik oleh manusia mahupun enjin. Wikidata ialah salah satu dari banyak projek Wiki yang diinangkan dan dipelihara oleh Yayasan Wikimedia, sebuah pertubuhan untung berkonten bebas yang terkenal dengan projek Wikipedia. Setiap projek di Yayasan Wikimedia mempunyai tumpuan masing-masing, contohnya Wikipedia dengan kandungan ensiklopedisnya, Wikimedia Commons yang menyokong gambar dan pelbagai fail media, dan Wiktionary yang menyedikan maklumat leksikal tentang kata seperti penjabaran dan sinonimnya. Wikidata sendiri menumpukan pada data berstruktur.

Halaman ini bertujuan sebagai gambaran keseluruhan data terstruktur. Sekiranya anda sudah terbiasa dengan data terstruktur, tetapi ingin mengetahui lebih lanjut mengenai penggunaannya khusus di Wikidata, bagaimana mengakses data di Wikidatha, atau bagaimana menyumbang data projek anda sendiri ke Wikidata , sila melompat ke bahagian $#Linking-data_data mengenai data yang dihubungkan.

Memahami Wikidata

Data terstruktur merujuk kepada data yang telah dianjurkan dan disimpan dengan cara yang ditentukan, sering dengan niat untuk mengkod makna dan mengekalkan hubungan antara titik data yang berbeza dalam satu set data.

Tetapi apa data, bagaimanapun? Dan mengapa anda perlu peduli dengan data terstruktur khususnya?

Mentakrifkan data

Big data, data eksperimen, data terbuka, metadata - anda mungkin pernah menemui beberapa atau semua istilah ini sebelum ini.

Setiap istilah bermakna sesuatu yang sedikit berbeza tetapi semua dibina atas pemahaman bersama data dan potensi untuk menggambarkan dan meningkatkan pemahaman kita tentang dunia di sekeliling kita.

Sebagai konsep abstrak, data boleh dianggap sebagai pendahulu kepada maklumat, yang bermaksud bahawa maklumat boleh difahami atau diperoleh dari data.

Ini kerana data apabila dibakar ke intinya adalah hanya satu set "nilai" mengenai "hal-hal". Nilai-nilai ini boleh berbilang atau kuantitatif seperti pengukuran atau jumlah. Mereka juga boleh bersifat kualitatif, seperti uraian atau perbandingan. Sebagai contoh, kita boleh mengatakan bahawa "8,848 m (29,029 kaki) " adalah nilai data mengenai ketinggian Gunung Everest dan "merah" adalah nilai data tentang warna kereta.

Seperti yang telah disebutkan sebelumnya, maklumat tidak sama dengan data namun ia ialah hasil koleksi dan analisis data. Contohnya, 8.848 (data) ialah angka yang tidak mempunyai makna tertentu untuk dirinya sendiri walaupun kita mengetahui bahawa ia merupakan tinggi sebuah gunung; kita hanya dapat mengatakan bahawa Gunung Everest merupakan gunung tertinggi di dunia pada 8.848 m (maklumat) jika kita mengetahui pengukuran piawai ketinggian dan ketika kita mengetahui tinggi gunung-gunung lain. Ia menjadi lebih mudah untuk membuat sebuah kesimpulan sedemikian rupa, menambah wawasan dan pengetahuan, dan membina fakta-fakta ketika data tersebut disusun—kita akan kembali ke gagasan ini nanti.

Dimanakah data?

Data terdapat di sekeliling kita. Terdapat beberapa jenis sumber data, termasuk data kewangan, biologi, dan sosial. Malah halaman ini mempunyai data di dalamnya! Contohnya, ia mempunyai jumlah keseluruhan kata, tanggal pembuatan dan tanggal perubahan, sebuah topik dan tema, sejumlah angka berapa kali halaman tersebut telah ditampilkan, dan bahasa-bahasa di mana kandungan tersebut tersedia.

Namun, ketika semuanya menjadi sumber data yang berpotensi, data yang tidak terekam dan tersusun dapat juga tidak terdapat sama sekali. Tanpa struktur yang mendasarinya, data akan persembahan tanpa erti dan tidak dapat menjadi maklumat yang berguna.

Dengan terancang, kita bermaksud dikategorikan dengan cara standard dan tidak jelas. Data yang teratur dan dikategorikan adalah apa yang kita maksud apabila kita katakan data terstruktur.

 
Wikidata mempunyai input berasaskan borang untuk menambah data ke item

Dimanakah struktur?

Di web, struktur ialah raja. Sebahagian besar tapak-tapak web dibuat dengan HTML, sebuah bahasa markah yang membekalkan fondasi dasar, atau struktur, dari sebuah halaman web.

Bahasa markah juga digunakan untuk menandai dan mendeskripsikan isi halaman sehingga enjin pencari, bot, dan aplikasi seperti umpan RSS dapat memproses dan "memahaminya" dengan mudah. Contohnya, tag <title> memberitahu nama sebuah tapak web kepada enjin-enjin.

Berbanding menyokong struktur dan elemen umum dari sebuah halaman web, Wikidata membekalkan struktur untuk seluruh pengetahuan yang tersimpan di Wikipedia dan di projek-projek Wikimedia lain. Wikidata didasarkan pada perisian MediaWiki seperti Wiki lainnya, diperkaya dengan Wikibase, perisian yang menghidupi Wikidata dan dirancang untuk menguruskan data berstruktur yang bilangannya sangat besar. Struktur tidak langsung ditambahkan dalam isi Wikipedia atau halaman tapak Wikimedia lain, seperti dalam senarai atau jadual, dan tidak pula memerlukan pengetahuan tertentu mengenai bahasa markah, skim data, notasi objek, atau sintaksis khusus lainnya dari pengguna Wikidata; namun, data ditambahkan dan disunting ke Wikidata melalui borang masukan yang mesra pengguna.

Seluruh data tersimpan di wikidata dapat digunakan untuk menghasilkan senarai atau jadual atau halaman struktur lainnya secara automatik dan teranyar dalam tapak Wikimedia atau dalam tapak mana-mana.

Jadual 1
Data untuk Gunung
Gunung Sifat Nilai
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Data berstruktur

Contoh pentingnya struktur, mari kita lihat Jadual 1. Dalam jadual tersebut kita dapat melihat data empat gunung tertinggi. Jika kita ingin mengetahui bahagian tertentu dari maklumat, seperti tinggi dari gunung tertinggi kedua di dunia, kita perlu dapat melihat pada data yang tersedia dan mencari nilai yang benar. Namun, hanya tiga dari empat gunung tertinggi tersebut mempunyai data yang dikelompokkan sebagai nilai tinggi, dan hanya dua dari tiga gunung tersebut mempunyai nilai dalam satuan meter. Semasa kita mengetahui bahawa tinggi dan hauteur (bahasa Perancis untuk tinggi) dapat dipahami sebagai nilai yang sama, manakala meter dan kaki dapat bertindak sebagai ukuran tinggi bagi kedua-duanya, sebuah enjin seperti bot atau program komputer tidak dapat melakukannya.

Hal ini dapat memudahkan untuk manusia dan enjin untuk memproses maklumat dan jawaban dari soalan tentang gunung tertinggi kedua ketika seluruh data pokok direkam dengan cara yang sama malah jika penyajiannya berbeza.

Data model

Koleksi dari data berstruktur, seperti Wikidata, disusun berdasarkan model data. Model data dapat dibaca oleh enjin, artinya data itu dapat dipahami oleh komputer. Komputer itu canggih, namun kadang-kadang ia tidak secerdas kita ketika menemui penalaran sederhana. Dalam contoh di atas, sebuah enjin mungkin sahaja tidak dapat menentukan tinggi dan hauteur mempunyai makna yang sama, kecuali ia diberitahukan dengan cara tertentu.

Jadual 2
Data untuk Gunung
Gunung Sifat Nilai
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Model data berbeza-beza berdasarkan keperluan analisis, liputan dan kerangka konseptual dari rangkaian data, dan syarat teknikal dari sebuah sistem. Namun, seluruh model data umumnya akan menentukan jenis data ada yang dapat didukung oleh sebuah sistem dan ada hubungan antara nilai dapat dipahami dan diwakilkan. Sebagai contoh, sebuah model data dapat menentukan bahawa tinggi dan hauteur dipetakan kepada masing-masing sehingga istilah tersebut dapat mewakili satu konsep, atau ukurannya dalam satuan kaki dapat diubah secara automatik ke dalam satuan meter. Model data Wikidata membentuk cara bahawa data dapat disunting dan ditambah ke dalam sistem oleh pengguna. Hal ini juga dalam pengerjaan, dengan jenis data baru akan ditambahkan ke model dari masa ke masa.

Model data pada asasnya menerjemahkan corak bahasa semulajadi manusia ke bentuk sesuatu yang dapat diolah oleh enjin. Contohnya, dalam bahasa inggris kita dapat mengatakan:

Gunung Everest ialah gunung tertinggi di dunia

Ini merupakan format baku dan belum berstruktur dari sebuah kandungan dalam Wikipedia dan seluruh tapak Wikimedia lainnya.

Pada Wikidata, ini dapat diwakili oleh sebuah kenyataan, yang terdiri atas satu pasang nilai-atribut tentang sebuah butir, dalam hal ini Bumi:

Earth (Q2) (butir)highest point (P610) (atribut)Mount Everest (Q513) (nilai)

Selain itu, Wikidata juga memegang kenyataan mengenai butir untuk Gunung Everest (menunjukkan hal itu ialah sebuah gunung):

Mount Everest (Q513) (butir)instance of (P31) (atribut)mountain (Q8502) (nilai)

Perhatikan bahawa kerana butir lain dapat digunakan sebagai nilai dari kenyataan, dan seluruh butir mempunyai halaman khusus di Wikidata, ini bermaksud seluruh butir dalam sistem dapat saling dihubungkan melalui serangkaian kenyataan. Kerana Wikidata menggunakan format yang dapat dibaca oleh enjin, penautan data membenarkan hubungan baru dan hubungan untuk diteemukan dan diproses oleh enjin. Contohnya, dalam Jadual 2 kita melihat data baru untuk gunung kita, kali ini mengenai lokasi geografi berdasarkan benua, tanpa maklumat mengenai ketinggiannya. Dengan berasumsi bahawa data benua ini ditautkan ke data tinggi gunung tersebut, kita lebih yakin membuat ramalan atau membuat kesimpulan mengenai hal itu, seperti berkata bahawa Asia merupakan rumahnya bagi gunung tertinggi di dunia.

Data berpaut

Selain menjadi koleksi data berstruktur, Wikidata juga menyokong data terhubung. Data terhubung merujuk kepada praktik penerbitan data berstruktur sehingga ia dapat dihubungkan.

Bagi Wikidata ini bermaksud bahawa sukarelawan yang menyumbangkan data dapat menghubungkan data-data tersebut ke pangkalan data lainnya, dan sumber data dari web dan usaha berbeza-beza di luar keluarga Wikimedia. Contohnya, Wikidata baru-baru ini membenarkan adanya hubungan dengan rangkaian data dan pangkalan data pelbagai seperti Google Books, Canmore (salah satu pangkalan data Persekitaran Bersejarah Skotlandia), Vatican Library, OmegaWiki, dan MusicBrainz.

 
contoh pernyataan mudah yang terdiri daripada satu pasangan nilai harta
 
contoh pernyataan yang lebih rumit yang terdiri daripada satu pasangan nilai harta, kualifikator, dan rujukan

Dengan mengikuti prinsip dan amalan data yang berkaitan, Wikidata juga dapat menyokong dan digunakan oleh projek lain.

Prinsip data berpaut

Wikidata menggunakan pengenal unik, atau w:Uniform_resource_identifier (bubuhan seragam pengenal sumber) , untuk semua itemnya w:Linked_data#Principles khias per standard data yang dihubungkan.

Walaupun Wikidata menggunakan model data yang unik, kandungannya boleh dieksport dalam w:Resource_Description_Framework untuk RDF, format yang digunakan secara meluas dan standard untuk data yang dikaitkan. Dalam istilah Wikidata, satu kenyataan terdiri daripada item dan pasangan nilai harta. Bagi mereka yang biasa dengan konsep data yang berkaitan, satu item boleh dilihat sebagai bahagian subjek tiga; sifat mewakili predicate tiga; dan nilai digunakan untuk menyatakan objek tiga.

Walau bagaimanapun, pernyataan Wikidata juga boleh mengandungi unsur di luar subjek-predikate-objek, seperti rujukan dan kualifikator (untuk maklumat lanjut, lihat Template:Llpʋ:Pertolongan:Pertanda). Ini menjadikannya rumit untuk mewakili kandungan Wikidata sepenuhnya menggunakan bahasa RDF - maklumat lanjut mengenai cabaran ini boleh didapati dalam dokumen "[$ 1 Memperkenalkan Wikidata ke Web Data Terkait]".

Menyumbangkan data

Jika anda mempunyai set data yang ingin anda sumbangkan ke Wikidata, sila lihat Wikidata:Data donation.

Mencapai data

Data dalam Wikidata diterbitkan di bawah [$ 1 Dedikasi Domain Awam Creative Commons 1.0], yang membolehkan penggunaan semula data secara percuma. Anda boleh menyalin, memodifikasi, mendistribusikan dan melaksanakan data, walaupun untuk tujuan komersial, semua tanpa meminta kebenaran.

Lihat Special:MyLanguage/Wikidata:Data access untuk akses Data untuk butiran mengenai pelbagai cara untuk mengakses data Wikidata secara berprogram.

Lihat juga

Untuk laman berkaitan, sila lihat:

Untuk maklumat dan panduan tambahan, sila lihat:

  • Project chat, for discussing all and any aspects of Wikidata
  • Wikidata:Glossary, the glossary of terms used in this and other Help pages
  • Help:FAQ, frequently asked questions asked and answered by the Wikidata community
  • Help:Contents, the Help portal featuring all the documentation available for Wikidata