Ajuda:Sobre dados

This page is a translated version of the page Help:About data and the translation is 86% complete.
Outdated translations are marked like this.

O Wikidata é uma base de conhecimento livre que pode ser lida e editada tanto por humanos quanto por máquinas. É apenas um dos muitos projetos baseados em wiki, hospedados e mantidos pela Wikimedia Foundation, uma organização de conteúdo livre, sem fins lucrativos, que é provavelmente mais conhecida pela Wikipédia. Cada projeto da Wikimedia Foundation tem o seu próprio foco - por exemplo, a Wikipédia é para conteúdo enciclopédico, o Wikimedia Commons abriga imagens e outros arquivos de mídia e o Wikcionário fornece informações lexicais sobre palavras, como definições e sinonímia. O foco do Wikidata são os dados estruturados.

O intuito desta página é ser um resumo de dados estruturados. Se você já está familiarizado com dados estruturados, mas quer aprender mais sobre seu uso específico no Wikidata, como acessar os dados no Wikidata, ou como contribuir com os dados de seu próprio projeto para o Wikidata, por favor pule para a seção sobre vinculação de dados.

Entendendo o Wikidata

Dados estruturados referem-se a dados que foram organizados e são armazenados de uma maneira bem definida, com a intenção de codificar seu significado e preservar as relações entre diferentes elementos dentro de um conjunto de dados.

Mas afinal, o que são dados? E por que você deveria se importar particularmente com dados estruturados?

Definindo dados

Grandes conjuntos de dados ou big data, dados experimentais, dados abertos, metadados - você pode ter encontrado alguns ou mesmo todos esses termos antes.

Cada termo significa algo um pouco diferente, mas todos foram construídos com base em um entendimento comum sobre dados e seu potencial uso para descrever e melhorar nosso conhecimento sobre o mundo ao nosso redor.

Como conceito abstrato, dados podem ser considerados como precursores da informação, o que significa que a informação pode ser deduzida ou derivada de dados.

Isto porque dados, quando reduzidos à sua essência, são simplesmente um conjunto de valores sobre coisas. Estes valores podem ser numéricos ou quantitativos como uma medida ou quantidade. Eles também podem ser qualitativos, como uma descrição ou uma comparação. Por exemplo, podemos dizer que "8,848 m (29,029 ft)" é um valor de dado sobre a altura do Monte Everest e que "vermelho" é um valor de dado sobre a cor de um carro.

Como mencionado anteriormente, informação não é o mesmo que dados, mas sim um produto da coleta e análise de dados. Por exemplo, 8,848 (dado) é um número sem significado por si só, ainda que saibamos que é a altura de uma montanha; somente podemos dizer que o Monte Everest é a montanha mais alta do mundo, com 8,848m (informação) se tivermos conhecimento das medidas padrão de altura e se soubermos a altura de outras montanhas. Fica muito mais fácil fazer tais deduções, adquirir novas visões e conhecimentos e estabelecer fatos quando os dados estão estruturados - retornaremos a essa ideia mais tarde.

Onde estão os dados?

Dados estão ao nosso redor. Existem muitos tipos de fontes de dados, incluindo dados financeiros, biológicos e sociais. Até esta página tem dados! Ela tem, por exemplo, um total de palavras, datas em que foi criada e revisada pela última vez, um tópico e assunto, um número de visualizações de página e de idiomas em que o conteúdo está disponível.

Entretanto, ainda que tudo seja potencialmente uma fonte de dados, se estes dados não forem gravados e organizados, seria o mesmo que se não existissem. Sem uma estrutura de apoio, dados parecem sem sentido e falham em fornecer informações úteis.

Por organizados, queremos dizer categorizados de forma padronizada e inequívoca. Referimo-nos aos dados organizados e categorizados quando falamos em dados estruturados.

 
Wikidata oferece entrada de dados baseada em formulários para adicionar dados a itens

Onde está a estrutura?

Na web, a estrutura reina. A maioria dos sites são criados usando HTML, uma linguagem de marcação que fornece a estrutura básica de uma página web.

Linguagens de marcação são também usadas para etiquetar e descrever conteúdo de página, para que mecanismos de busca, bots e aplicativos como feeds RSS possam facilmente processá-lo e "entendê-lo". Por exemplo, etiquetas <title> dizem às máquinas qual é o nome de um site.

Em vez de ser base para a estrutura e elementos comuns de uma página web, o Wikidata oferece estrutura para todo o conhecimento armazenado na Wikipédia e em outros projetos da Wikimedia. Wikidata é baseado no software Mediawiki assim como qualquer outro projeto da Wikimedia, extendido por Wikibase, o software que faz funcionar o Wikidata e é desenhado para gerenciar grandes quantidades de dados estruturados. A estrutura não é adicionada diretamente ao conteúdo da Wikipédia ou a outras páginas de sites da Wikimedia, como em tabelas ou listas, nem requer qualquer conhecimento sobre linguagens de marcação, esquemas de dados, notação de objetos, ou outras sintaxes especiais necessárias para usuários do Wikidata; em vez disso, dados são adicionados e editados no Wikidata através de formulários de entrada fáceis de usar.

Podemos usar todos os dados armazenados no Wikidata para gerar todo tipo de tabela ou lista automatizadas e atualizadas, ou até páginas estruturadas, em sites Wikimedia ou outros lugares da rede.

Tabela 1
Dados para montanhas
Montanha Propriedade Valor
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Estruturando dados

Para exemplificar a importância da estrutura, vamos dar uma olhada na Tabela 1. Nesta tabela nós podemos ver dados para as quatro montanhas mais altas do mundo. Nós conseguimos olhar os dados e entender o valor correto. Contudo, somente três das quatro montanhas têm seus dados categorizados como um valor de altura, e somente duas das três têm valores em metros. Enquanto nós sabemos que altura e hauteur (altura em francês) podem ser entendidos como equivalentes, e que metros e pés podem ambos servir como medida de altura, uma máquina, tal como um robô ou um programa de computador, talvez não consiga.

Seria muito mais fácil (tanto para humanos quanto para máquinas)responder à questão original sobre a segunda montanha mais alta quando todos os dados básicos estão registrados de modo semelhante.

Modelando dados

Coleções de dados estruturados, como o Wikidata, são organizados de acordo com um modelo de dados. Modelos de dados são legíveis por máquinas, o que significa que podem ser entendidos por um computador. Enquanto computadores são poderosos, eles frequentemente não são tão espertos quanto nós quando se trata de raciocínio simples. Por exemplo , no exemplo acima, uma máquina não seria capaz de saber que a altura e hauteur são a mesma coisa, a menos que fosse explicitamente declarado de algum modo que este era o caso.

Tabela 2
Dados para montanhas
Montanha Propriedade Valor
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

O modelo de dados utilizado varia com a necessidade do usuário, os conjuntos de dados em questão e os requerimentos técnicos do sistema. Contudo, todos os modelos de dados tipicamente especificam os tipos de dados suportados pelo sistema e quais as relações entre valores que podem ser compreendidas e representadas. Por exemplo, um modelo de dados poderia especificar que "altura" e "hauteur" podem ser mapeadas uma à outra e que medidas em "pés" poderiam ser automaticamente convertidas em "metros". O modelo de dados da Wikidata molda como os dados podem ser editados e inseridos no sistema por usuários. É um trabalho em progresso, com novos tipos de dados sendo adicionados ao modelo ao longo do tempo.

O modelo de dados também, essencialmente, traduz padrões de linguagem natural humana em algo que possa ser processado por máquinas. Por exemplo, em português, diríamos: "O monte Everest é a montanha mais alta do mundo". Esse também o formato cru, não estruturado de conteúdo atualmente na Wikipédia e outrops dites do projeto Wikimedia (como o Wikicionário, ou o Commons)

No Wikidata, isso seria representado por uma declaração, que consiste em um par propriedade-valor sobre um item, no caso, a terra:

Earth (Q2) (item)highest point (P610) (property)Mount Everest (Q513) (value)

Adicionalmente, a Wikidata também possui uma declaração no item do Monte Everest(indicando que é uma montanha):

Mount Everest (Q513) (item)instance of (P31) (property)mountain (Q8502) (value)

Como items pode ser usados como valores em declarações e todos os itens possuem suas próprias páginas, isso significa que todos os itens nos sistema podem ser conectados por declarações. Como o Wikidata usa um formato de dados legível por máquinas, essa interconexão dos dados permite a descoberta de novas relações por computadores. Por exemplo, na Tabela 2, nós podemos observar novos dados para nossas montanhas, mas essa vez sobre a localização geográfica por continente. Assumindo que esses dados sobre os continentes estivessem "ligados" aos dados de altura, poderíamos fazer previsões com mais confiança, ou até tirar conclusões como "A Ásia é o lar das mais altas montanhas do planeta.

Conectando dados

Além de ser uma coleção de dados estruturados, a Wikidata também suporta dados conectados. O termo "dados conecetados" se refere à prática de publicar dados estruturados de forma interoperável, fazendo que os dados dialoguem.

Para a Wikidata, isso siginifica que dados contribuidos por voluntários podem também ser conectados a outros conjuntos, bases e fontes de dados de toda web, assim como de diversas iniciativas além da família Wikimídia. Por exemplo, Wikidata permite a interligação com bases de dados como Google Books, Canmore (uma base de dados ambiental da Escócia), a biblioteca do Vaticano , OmegaWiki, e MusicBrainz.

 
exemplo de uma declaração simples de um par propriedade-valor
 
exemplo de uma declaração mais complexa, consistindo de um par propriedade-valor, qualificadores e uma referência.

Ao seguir os princípios e práticas de dados vinculados, Wikidata também é capaz de apoiar e ser utilizado por outros projetos.

Princípios dos dados vinculados

Wikidata uses unique identifiers, or uniform resource identifiers (URIs), for all its items as per linked data standards.

While Wikidata uses a unique data model, its content can be exported in RDF, a widely used and standard format for linked data. In Wikidata terms, a statement is composed of an item and a property-value pair. For those familiar with linked data concepts, an item can be viewed as the subject part of a triplet; the property represents a triplet's predicate; and a value is used to express the object of a triplet.

However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".

Contribuindo com dados

Se você tiver conjuntos de dados que você gostaria de contribuir para Wikidata, por favor, adicione seu projeto para wikidata:Data collaborators.

Acessando dados

Os dados publicados no Wikidata estão sob a licensa Creative Commons Public Domain Dedication 1.0, possibilitando o reuso gratuito dos dados. Você pode copiar, modificar e distribuir os dados até para fins comerciais, tudo sem pedir permissão.

See Data access for details about the different ways to programmatically access Wikidata's data.

Veja também

Para páginas relacionadas, veja:

Para informações adicionais e orientações, veja:

  • Project chat, for discussing all and any aspects of Wikidata
  • Wikidata:Glossary, the glossary of terms used in this and other Help pages
  • Help:FAQ, frequently asked questions asked and answered by the Wikidata community
  • Help:Contents, the Help portal featuring all the documentation available for Wikidata