This page is a translated version of the page Help:About data and the translation is 98% complete.

维基数据是一个人和机器都可以阅读和编辑的免费知识基地。和其他维基项目一样,这个项目是由维基媒体基金会建立和维护的。维基媒体基金会是一个非盈利组织,其旗下最为有代表性的项目就是维基百科。每一个维基媒体基金会的项目都有各自的主打方向——比如说维基百科以百科全书内容为主,维基共享资源为其它项目提供图片和其他媒体文件方面的支持,而维基字典提供像单词的释义和同义词等词库信息。维基数据的重心就是结构化数据

这篇文章对结构化数据进行了概述。如果您对结构化数据有所了解,但希望进一步学习维基数据的具体使用方法,如何获取维基数据上的数据;或者如何将您自己的项目数据贡献给维基数据,请前往连接数据章节了解详情。

了解维基数据

结构化数据指的是被整理并且按照特定方式储存的数据,通常意在对含义进行编码,同时留存数据库中不同的数据点之间的关联。

那究竟什么是数据呢?结构化数据与我们有何相干呢?

定义数据

大数据、实验数据、开放数据、元数据——你刚才可能联想到了这些概念的其中一个甚至所有的。

每一个概念可能略有不同,但总体而言它们都是建立在我们对数据及其描述和增进我们对所处的世界的理解的潜能的一种共识之上。

数据作为一个抽象化的概念可以被理解为一种先导信息,亦指能够从数据中剖析出来的信息。

这是因为归根结底数据的根本只是关于“万物”的一系列“值”。这些值可以是数字化的或者是像度量衡或者总量这样的定量的。它们也可以是定性的,诸如描述或者对比。例如,我们可以说“8848米(29029英尺)”是珠峰高度的数据值,而“红色”是一辆车的颜色的数据值。

如同前文所提,信息与数据不尽相同,而是数据集合分析后的产物。比如说,“8848”(数据)是一组本身无意义的数字,就算我们知道这是指一座山的高度;我们只能在知道标准的量纲以及其他山峰的高度,才能够说“珠穆拉玛峰高8848米,为全球最高峰。”(信息)。当数据被结构化后就变得十分容易得出结论,发现新的观点和知识,陈列论据。——我们稍后回到这个观点。

数据在哪?

数据就在我们身边。数据的来源多种多样,包含财经、生物、社会数据。就连本页也包含信息,它有总字数统计、创建日期和最近修改时间、所属的话题、页面浏览次数、本页面可用的语言。

尽管如此,几乎所有的事物都可能做来数据源,但是就当做它们不存在一般,并没有被记录和整理。除去深层的结构,数据显得毫无意义,也不能提供有用的信息。

通过整理,有标准的不宜混淆的将其分类。被整理分类后的数据才能被我们称为结构化数据。

 
维基数据是通过表单给对象添加数据的。

什么是结构化?

在网络上,结构就是王道。大多数网站使用HTML制作。这是一种专注网页的,能够提供基本的结构组成的注释性语言。

注释性语言同样用来标记注释页面内容以便搜索引擎、机器人和像“RSS摘要”这样的应用程序处理、“理解”页面。比如说,<title> 标签告诉机器网站的名称是什么。

与支持网页的结构与共同元素相反,维基数据为存储在维基百科和其他维基媒体项目的所有信息提供结构。维基数据基于MediaWiki软件,就像其他维基媒体项目一样,由Wikibase扩展,该软件使维基数据运作并用于处理大量的结构化数据。数据不是像表格或者列表那样直接加入在维基百科或其他维基媒体项目的内容,或者由维基数据用户申请的任何标记语言、数据模式、对象符号或者其他的特定语法,相反,数据是通过对用户友好的输入表格来加入与编辑的。

存储在维基数据上的所有数据都可以用于在任何维基媒体站点或其他地方生成各种自动的、最新的列表或表或其他结构化页面。

表1
山的数据
属性
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

结构化数据

比如,结构的重要性,让我们看看表1。在这个表格,我们可以看到地球上四座最高山的数据。如果我们想要了解每一个特定的数据,比如世界第二高峰的高度,我们可以查看提供的数据并找到正确的值。但是,四座山中只有三座山的数据被归类为高度值,而这三座山中只有两座山的数据以米为单位。虽然我们知道高度和hauteur(法语表示高度)可以理解为彼此同义,也知道如何将米转换为英尺,反之亦然,但机器(如机器人或计算机程序)可能不会。

对人和计算机的智慧来说,处理消息,回答第2个最高的山最初的问题,当时所有的底层的数据是记录在一个相似的方法中虽然样式差,那当然要容易得多。

数据建模

像维基数据这样的结构化数据集,是根据一个数据模型组织起来的。数据模型是机器可读的,也就是说它们可被计算机理解。虽然计算机是强大的,但在简单推理上,它们常没我们聪明。例如,在上面这个示例中,机器无法知道height和hauteur是一个意思,除非我们明确告诉它们这一点。

表2
山的数据
山峰 属性
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

数据模型根据分析需求、数据集的范围和概念框架以及系统的技术要求而有所不同。然而,所有的数据模型通常都会规定系统可以支持什么样的数据,以及可以理解和表示数值之间的关系。例如,一个数据模型可以规定高度(height)高度(hauteur)可以相互映射,从而使这两个术语代表一个概念,或者规定以英尺为单位的测量值可以自动转换为米。维基数据模型塑造了用户可以编辑和添加到系统中的数据的方式。这也是一项正在进行的工作,随着时间的推移,新的数据类型将被添加到模型中。

数据模型本质上也是将人类的自然语言模式翻译成可以被机器处理的东西。例如,在英语中我们可能会说。

“珠穆朗玛峰是世界上最高的山”

这也是目前维基百科和所有其他维基媒体网站的原始、非结构化的内容格式。

在维基数据,它应当被与项目相关的描述值对statement描述,例如地球:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

另外地,维基数据也有关于数据项的陈述,例如珠穆朗玛峰(说明它是坐山)

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

请注意,由于其他项目可以作为声明的值,而且所有项目在维基数据上都有自己独特的页面,这意味着系统中的所有项目都可以通过一系列的声明链接在一起。因为维基数据使用的是机器可读的格式,这种数据的相互链接可以让机器发现并处理新的关系和联系。例如,在表2中,我们看到了关于我们的山脉的新数据,这次是关于它们在各大洲的地理位置,但没有关于它们的高度。假设这些大陆数据链接到了山峰高度数据,我们就会更有信心做出预测或得出某些结论,比如说亚洲是世界上最高山峰的所在地。

连接数据

除了是一个结构化数据的集合,维基数据还支持链接数据。链接数据指的是发布结构化数据的做法,这样就可以将其相互链接起来。

对维基数据来说,这意味着志愿者提供的数据也可以与网络上的其他数据集、数据库和数据源以及维基媒体大家庭以外的各种倡议相连接。例如,维基数据目前允许与不同的数据集和数据库相互链接,如谷歌图书坎莫尔(苏格兰历史环境数据库之一)、梵蒂冈图书馆OmegaWikiMusicBrainz

 
一个由属性值对组成的简单语句的示例
 
一个由属性值对、限定符和引用组成的更复杂语句的示例

通过被链接的数据理论和实践,维基数据也可以被其他项目支持和使用

连接数据原则

维基数据为其所有的数据项按照链接数据标准使用唯一的标识符或者统一资源标识符 (URIs)

虽然维基数据使用独特的数据模型,但其内容可以用RDF导出,这是一种广泛使用的链接数据的标准格式。 在维基数据的术语中,一个声明是由一个项目和一个属性-价值对组成。对于那些熟悉链接数据概念的人来说,一个项目可以被看作是一个三元组的主语部分;属性代表一个三元组的谓语;而一个值则用来表达一个三元组的对象。

然而,维基数据的声明也可能包含主题-断言-对象之外的元素,比如引用和限定词(更多信息,见Help:Statements)。这使得使用RDF语言来完全表示维基数据的内容变得很复杂--关于这些挑战的更多信息可以在文档“将维基数据引入关联数据网络”中找到。

贡献数据

如果您有想要捐献给维基数据的数据集,请见Wikidata:Data donation

访问数据

维基数据中的数据以知识共享公有领域宣告1.0发布,意味着对数据任何自由的使用。您可以复制、修改、再分发这些数据,包括商业化再利用,而不需要任何授权。

See Data access for details about the different ways to programmatically access Wikidata's data.

参见

相关页面参见:

额外的信息和指引参见: