Yardım:Veri hakkında

This page is a translated version of the page Help:About data and the translation is 67% complete.
Outdated translations are marked like this.

Vikiveri hem makineler hem de insanlar tarafından okunup değiştirilebilen özgür bir bilgi tabanıdır. Muhtemelen en çok bilineni Vikipedi olan, Vikimedya Vakfı tarafından barındırılan ve sürdürülen viki-tabanlı birçok projeden bir tanesidir. Her Vikimedya Vakfı projesinin kendi odağı vardır—örneğin, Vikipedi ansiklopedik içerikler içindir, Wikipedia Commons resim ve diğer görsel dosyaları destekler ve Vikisözlük kelimlerle ilgili tanımı ve eşanlamlıları gibi anlamsal bilgiler sağlar. Vikiverinin odak noktası yapılandırılmış veridir.

Bu sayfa yapılandırılmış verinin gözden geçirilmesi amaçlıdır. Yapılandırılmış veriye aşinaysanız, ama yine de Vikiveri özelinde kullanımında daha fazla bilgi edinmek, Vikiverideki verilere nasıl erişeceğinizi veya kendi projenizin verilerini Vikiveri'ye nasıl katabileceğinizi öğrenmek istiyorsanız, lütfen veri bağlantılama bölümüne devam edin.

Vikiveri'yi Anlamak

Yapılandırılmış veri,çoğunlukla anlamı kodlamak ve farklı veri kümlerindeki veri noktalarının bağlantılarını korumak amacıyla tanımlanmış bir biçimde organize edilip depolanan veriyi ifade eder.

Ama yine de veri nedir? Ve neden özellikle yapılandırılmış verilerle ilgilenmelisiniz?

Veriyi tanımlamak

Büyük veriler, deneysel veriler, açık veriler, meta veriler — daha önce bu terimlerin bazılarıyla veya hatta tümüyle karşılaşmış olabilirsiniz.

Her terim biraz farklı bir şey ifade eder, ancak hepsi ortak bir veri anlayışı ve etrafımızdaki dünya hakkındaki anlayışımızı açıklama ve geliştirme potansiyeli üzerine inşa edilmiştir.

Soyut bir kavram olarak, veriler bilginin öncüsü olarak düşünülebilir, yani bilgiler verilerden çıkarılabilir veya verilerden türetilebilir.

Bunun nedeni, özüne kaynatıldığında verilerin basitçe şeyler hakkında bir dizi değer olmasıdır. Bu değerler, bir ölçüm veya miktar gibi sayısal veya nicel olabilir. Ayrıca açıklama veya karşılaştırma gibi nitel olabilirler. Örneğin, "8,848m (29,029 ft)" Everest Dağı'nın yüksekliği hakkında bir veri değeri ve "kırmızı" bir otomobilin rengi hakkında bir veri değeri diyebiliriz.

Daha önce de belirtildiği gibi, bilgi verilerle aynı değildir, bunun yerine verilerin toplanması ve analizinin bir ürünüdür. Örneğin, 8,848 (veri), bir dağın yüksekliği olduğunu bilsek bile, kendi başına bir şekilde anlamsız bir sayıdır; sadece standart yükseklik ölçümlerinin farkında olduğumuzda ve diğer dağların yüksekliğini bildiğimizde 'Everest Dağı'nın 8,848m'de dünyanın en yüksek dağıdır diyebiliriz. Veriler yapılandırıldığında bu tür çıkarımlar yapmak, yeni görüşler ve bilgiler edinmek ve gerçekler oluşturmak çok daha kolay hale gelir - bu fikre daha sonra geri döneceğiz.

Veri nerede?

Veriler her yerdedir. Finansal, biyolojik ve sosyal veriler de dahil olmak üzere birçok veri kaynağı vardır. Bu sayfada bile veriler var! Örneğin, toplam kelime sayısı, oluşturulduğu ve en son gözden geçirildiği tarihler, bir konu ve konu, bir dizi sayfa görüntüleme ve içeriğin kullanılabildiği diller vardır.

Bununla birlikte, her şey potansiyel olarak bir veri kaynağı olsa da, kaydedilmemiş ve düzenlenmemiş veriler de mevcut olmayabilir. Altta yatan bir yapı olmadan, veriler anlamsız görünür ve yararlı bilgiler veremez.

Organize etmekle kastediyoruz, standart ve açık bir şekilde kategorize ediyoruz. Düzenlenmiş ve kategorize edilmiş veriler, yapısal veriler dediğimizde kastettiğimizdir.

 
Vikiveri, öğelere veri eklemek için form tabanlı girdi içerir

Yapı nerede?

Web üzerinde yapı hüküm sürüyor. Çoğu web sitesi, bir web sayfasının temel iskele veya yapısını sağlayan bir biçimlendirme dili olan HTML kullanılarak oluşturulur.

İşaretleme dilleri, sayfa içeriklerini etiketlemek ve tanımlamak için de kullanılır; böylece arama motorları, botlar ve RSS yayınları gibi uygulamalar bunu kolayca işleyebilir ve "anlayabilir". Örneğin, <title> etiketleri, makinelere bir web sitesinin adının ne olduğunu söyler.

Bir web sayfasının yapısını ve ortak öğelerini desteklemek yerine, Vikiveri Vikipedi'de ve diğer Wikimedia projelerinde saklanan tüm bilgiler için yapı sağlar. Vikiveri, güç sağlayan ve büyük miktarlarda yapılandırılmış veriyi yönetmek için tasarlanmış bir yazılım olan Wikibase tarafından genişletilen diğer herhangi bir Wikimedia projesinde olduğu gibi Mediawiki yazılımına dayanmaktadır. Yapı, tablolarda veya listelerde olduğu gibi Vikipedi'nin veya diğer Wikimedia site sayfalarının içeriğine doğrudan eklenmez veya ne biçimlendirme dilleri, veri şemaları, nesne gösterimi veya Vikiveri kullanıcıları için gereken diğer özel sözdizimi hakkında bilgi yoktur; bunun yerine veriler kullanıcı dostu giriş formları aracılığıyla Vikiveri'ye eklenir ve düzenlenir.

Vikiveri'de depolanan tüm veriler, herhangi bir Wikimedia sitesinde veya başka bir yerde her türlü otomatik ve güncel liste veya tablo veya diğer yapılandırılmış sayfalar oluşturmak için kullanılabilir.

Tablo 1
Dağlar için veriler
Dağ Özellik Değer
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Verileri yapılandırma

Yapının önemi ile ilgili bir örnek için Tablo 1'e bakalım. Bu tabloda Dünyadaki en yüksek dört dağın verilerini görebiliriz. Dünyanın ikinci en yüksek dağının yüksekliği gibi belirli bir bilgi parçasını bilmek istiyorsak, sağlanan verilere bakabilmeli ve doğru değeri bulabilmeliyiz. Ancak, dört dağdan sadece üçünün verileri yükseklik değeri olarak sınıflandırılmıştır ve bu üç dağın sadece ikisinin metre cinsinden değerleri vardır. Her ne kadar yükseklik ve hauteur'un (yükseklik için Fransızca) birbirine eşit olduğu anlaşılabilir ve metreyi ayaklara veya tam tersine nasıl dönüştürebileceğimizi bilsek de, bot veya bilgisayar programı gibi bir makine olmayabilir.

Sunum farklı olsa bile, temeldeki tüm veriler benzer şekilde kaydedildiğinde hem insanlar hem de makineler için bilgiyi işlemek ve en yüksek ikinci dağ hakkındaki orijinal soruyu cevaplamak çok daha kolay olacaktır.

Veri modelleme

Wikidata gibi yapılandırılmış veri koleksiyonları bir veri modeline göre düzenlenmiştir. Veri modelleri makine tarafından okunabilir, yani bir bilgisayar tarafından anlaşılabilir. Bilgisayarlar güçlü olsa da, basit akıl yürütme söz konusu olduğunda genellikle bizim kadar akıllı değildirler. Örneğin, yukarıdaki örnekte, bir makine durumun bir şekilde açıkça söylenmediği sürece, yükseklik ve hauteurun aynı olduğunu bilemez.

Tablo 2
Dağlar için veriler
Dağ Özellik Değer
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Data models vary based on the analysis needs, scope and conceptual framework of the dataset, and the technical requirements of a system. However, all data models typically will specify what kind of data can be supported by a system and what relationships between values can be understood and represented. For example, a data model could specify that height and hauteur be mapped to each other so that both terms represent one concept, or that measurements in feet be automatically converted into metres. The Wikidata data model shapes the way that data can be edited and added to the system by users. It is also a work in progress, with new data types being added to the model over time.

The data model also essentially translates human natural language patterns into something that can be processed by machines. For example, in English we might say:

"Mount Everest is the highest mountain in the world"

This is also the raw, unstructured format of content currently on Wikipedia and all other Wikimedia sites.

On Wikidata, this would be represented by a statement, which consists of a property-value pair about an item, in this case Earth:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Additionally, Wikidata would also hold a statement about the item for Mount Everest (indicating it is a mountain):

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

Note that because other items can be used as the values for statements, and all items have their own unique page on Wikidata, this means that all items in the system can be linked together through a series of statements. Because Wikidata uses a machine-readable format, this interlinking of data allows new relationships and connections to be discovered and processed by machines. For example, in Table 2 we see new data for our mountains, this time about their geographical location by continent but nothing about their heights. Assuming this continent data was linked to the mountain height data, we would feel more confident making predictions or drawing certain conclusions about it, like saying that Asia is home to the world's highest mountains.

Verileri bağlamak

Besides being a collection of structured data, Wikidata also supports linked data. Linked data refers to the practice of publishing structured data so that it can be interlinked.

For Wikidata this means that volunteer-contributed data can also be linked to other datasets, databases, and data sources from all around the web and from diverse initiatives outside of the Wikimedia family. For example, Wikidata currently allows interlinking with datasets and databases as diverse as Google Books, Canmore (one of the Historic Environment Scotland databases), the Vatican Library, OmegaWiki, and MusicBrainz.

 
example of a simple statement consisting of one property-value pair
 
example of a more complicated statement consisting of one property-value pair, qualifiers, and a reference

By following linked data principles and practices, Wikidata is also able to support and be used by other projects.

Linked data principles

Wikidata uses unique identifiers, or uniform resource identifiers (URIs), for all its items as per linked data standards.

While Wikidata uses a unique data model, its content can be exported in RDF, a widely used and standard format for linked data. In Wikidata terms, a statement is composed of an item and a property-value pair. For those familiar with linked data concepts, an item can be viewed as the subject part of a triplet; the property represents a triplet's predicate; and a value is used to express the object of a triplet.

However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".

Contributing data

If you have datasets you would like to contribute to Wikidata, please see Wikidata:Data donation.

Accessing data

The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.

See Data access for details about the different ways to programmatically access Wikidata's data.

Ayrıca bakınız

İlgili sayfalar için bkz:

Daha fazla bilgi ve kılavuz için bkz:

  • Project chat, for discussing all and any aspects of Wikidata
  • Wikidata:Glossary, the glossary of terms used in this and other Help pages
  • Help:FAQ, frequently asked questions asked and answered by the Wikidata community
  • Help:Contents, the Help portal featuring all the documentation available for Wikidata