Help:Acerca dos datos

This page is a translated version of the page Help:About data and the translation is 100% complete.

Wikidata é unha base de coñecementos libre que pode ser lida e editada tanto por seres humanos como por máquinas. É só un dos moitos proxectos baseados en wiki aloxados e mantidos pola Fundación Wikimedia, unha organización sen ánimo de lucro de contido libre probablemente máis coñecida pola Wikipedia. Cada un dos proxectos da Fundación Wikimedia ten o seu propio obxectivo. Por exemplo, Wikipedia é para contido enciclopédico, Wikimedia Commons contén imaxes e outros ficheiros multimedia, e o Wikcionario proporciona información léxica sobre palabras, particularmente definicións e sinónimos. O enfoque de Wikidata son os datos estruturados.

Esta páxina pretende ser unha visión xeral dos datos estruturados. Se xa está familiarizado cos datos estruturados, pero desexa aprender máis acerca do seu uso específico en Wikidata, como acceder ós datos en Wikidata, ou como contribuír cos datos do seu propio proxecto a Wikidata, consulte a sección acerca da ligazón de datos.

Entendendo Wikidata

Datos estruturados refírese a datos que foron organizados e que son almacenados dunha maneira definida, a miúdo coa intención de codificar o significado e preservar as relacións entre os diferentes puntos de datos dentro dun conxunto de datos.

Pero, que son datos? E por que deben importarnos en particular os datos estruturados?

Definición de datos

Big data, datos experimentais, datos abertos, metadatos... seguramente xa te atopaches con algúns destes termos antes, ou quizais incluso con todos eles.

Cada termo ten un matiz diferente no significado, mais todos están construídos na procura dun entendemento común dos datos e en base ao seu potencial para describir e mellorar a nosa compresión do mundo que nos rodea.

En tanto que concepto abstracto, o dato pode ser concibido como precursor da información, entendendo que a información pode ser inferida ou derivada desde dato.

Isto é porque os datos reducidos á súa esencia son sinxelamente un conxunto de valores sobre cousas. Estes valores poden ser numéricos ou cuantitativos como unha medida ou unha cantidade. Tamén poden ser cualitativos, como unha descrición ou unha comparación. Por exemplo, podemos dicir que «8 848 m» é un valor de dato sobre a altura do monte Everest e que «vermello» é un valor de dato sobre a cor dun coche.

Como se mencionou anteriormente, a información non é o mesmo ca un dato senón que é un produto da colección e análise de datos. Por exemplo, 8 848 (dato) é un número sen moito sentido por si mesmo aínda que saibamos que é a altura dunha montaña; só podemos dicir que o monte Everest é a montaña máis alta do mundo con 8 848 m (información) se somos conscientes das medidas estándares de altura e unha vez que sabemos a altura doutras montañas. Cando os datos están estruturados devén moito máis fácil facer tales inferencias, aparecen novas ideas e coñecementos, e establécense feitos. Volveremos a esta idea máis tarde.

Onde están os datos?

Os datos están a noso arredor. Hai moitos tipos de fontes de datos, incluído datos financieiros, biolóxicos e sociais. Incluso esta páxina ten datos! Por exemplo, ten un número total de palabras, as datas nas que foi creada e revisada por última vez, un tema, un número de visualizacións de páxina e de idiomas nos que o contido está dispoñible.

Porén, se ben todo ten o potencial de ser unha fonte de datos, cando os datos non están rexistrados e organizados e case como se non existisen. Sen unha estrutura de base, os datos non parecen ter sentido e non serven para dar información útil.

Con organizados referímonos a clasificados seguindo un padrón estándar e inambiguo. Os datos así organizados e clasificados é ao que nos referimos cando falamos de datos estruturados.

 
Wikipedia ofrece formularios para engadir datos a elementos

Onde está a estrutura?

Na web, a estrutura reina. A maior parte dos sitios web foron creados utilizando HTML, unha linguaxe de marcado que proporciona os andamios, ou a estrutura, dunha páxina web.

As linguaxes de marcado tamén se utilizan para o etiquetado e a descrición de contidos da páxina para que os motores de busca, bots e aplicacións como RSS podan procesala facilmente e «entenderla». Por exemplo, as etiquetas <title> din ás máquinas cal é o nome dunha páxina web.

En lugar de apoiar a estrutura e os elementos comúns dunha páxina web, Wikidata ofrece estrutura para todo a información almacenado en Wikipedia e nos demais proxectos de Wikimedia. Faino mediante o uso de Wikibase, o software que actúa como motor de Wikidata e está deseñado para manexar grandes cantidades de datos estruturados. Non se engade directamente estrutura ao contido de Wikipeda ou outras páxinas de sitios Wikimedia, como táboas ou listas, nin cómpre que os usuarios teñan coñecemento de linguaxes de marcado, esquemas de datos, notación de obxectos nin outras sintaxes; en lugar disto, engádense e edítanse os datos en Wikidata a través de formularios fáciles de usar.

Pódense utilizar todos os datos almacenados en Wikidata para xerar todo tipo de listas, táboas e páxinas estruturadas automatizadas e actualizadas en calquera sitio en Wikimedia ou externo a esta.

Táboa 1
Datos para Montañas
Montaña Propiedade Valor
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

Estruturando datos

Como exemplo da importancia da estrutura, ollemos á táboa 1. Nesta táboa podemos ver datos das catro montañas máis altas na Terra. Se quixésemos saber algún dato particular, como a altura da segunda montaña máis alta do mundo, deberíamos ser capaces de mirar os datos provistos e atopar o valor correcto. Porén, só tres das catro montañas teñen o seu dato clasificado como un valor de altura, e só dúas destas tres montañas teñen valores en metros. Se ben unha persoa sabe que altura e hauteur (altura en francés) se poden considerar equivalentes, e a conversión entre metros e pés, una máquina, como un bot ou un programa informático, pode non sabelo.

Sería moito máis fácil para humanos e máquinas procesar a información e responder a pregunta orixinal sobre a segunda montaña máis alta se todos os datos tiveran sido gravados dun xeito similar, incluso se difire a súa presentación.

Modelando datos

As coleccións de datos estruturados, como Wikidata, organízanse de acordo a un modelo de datos. Os modelos de datos son lexibles por máquinas, o que significa que poden ser entendidos por un computador. Se ben os computadores teñen unha gran potencia, a miúdo non son tan capaces como nós de razoamentos simples. No exemplo de arriba, unha máquina non sería capaz de saber que altura e hauteur son o mesmo a menos que foran explicitamente instruídas.

Táboa 2
Datos para Montañas
Montaña Propiedade Valor
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

Os modelos de datos varían en función das necesidades de análise, a especificidade, e o marco conceptual do conxunto de datos, e tamén dos requisitos técnicos do sistema. Porén, un modelo de datos tipicamente especifica que tipos de datos acepta un sistema e que relacións entre valores poden ser comprendidas e representadas. Por exemplo, un modelo de datos pode especifica que altura e hauteur corresponden una á outra xa que ambos termos representan un mesmo concepto, ou que as medicións en pés serán automaticamente convertidas a metros. O modelo de datos de Wikidata determina o xeito no que os usuarios poden editar e engadir datos. Este é un traballo en progreso, pois co tempo vanse engadindo novos tipos de datos.

Pódese tamén dicir que, esencialmente, o modelo de datos traduce os padróns da linguaxe natural a algo que poda ser procesado en máquinas. Un exemplo destes padróns é a oración en galego:

«O monte Everest é a montaña máis alta do mundo».

Este tamén e o formato de contido desestruturado e sen procesar usado en Wikipedia e todos os demais sitios Wikimedia.

En Wikidata, isto representaríase cunha declaración, que consiste nun par propiedade-valor acerca dun elemento; neste caso, a Terra:

Earth (Q2) (elemento)highest point (P610) (propiedade)Mount Everest (Q513) (valor)

En adición, Wikidata tamén contería unha declaración sobre o elemento para o monte Everest (indicando que é unha montaña):

Mount Everest (Q513) (elemento)instance of (P31) (propiedade)mountain (Q8502) (valor)

Poden usarse outros elementos como valores para as declaracións, e todos os elementos posúen as súas propias páxinas; en consecuencia, todos os elementos no sistema poden ser conectados mediante declaracións. Xa que Wikidata utiliza un formato de datos lexible por máquinas, esta interconexión dos datos permite o descubrimento computerizado de novas relacións e conexións. Por exemplo, na táboa 2 pódense observar datos diferentes para as nosas montañas; concretamente, acerca da súa situación xeográfica por continente. Supoñamos agora que estes datos por continente fosen ligados cos datos da altura das montañas; entón poderiamos facer predicións e sacar conclusións con maior confianza, como «Asia é onde se atopan as montañas máis altas do planeta».

Ligando datos

Wikidata non é só unha colección de datos estruturados, senón que permite tamén os datos ligados. Este termo refírese a práctica de publicar datos estruturados para que podan ser ligados entre si.

Para Wikidata isto supón que os datos que achegan as persoas voluntarias poden tamén estar ligados a outros conxuntos de datos, bases de datos, e fontes de datos de toda a web e de diversas iniciativas fóra da familia Wikimedia. Por exemplo, actualmente Wikidata permite ligar con bases e conxuntos de datos tan diversos como Google Books, Canmore (unha das bases de datos de Contorna Histórica de Escocia), a biblioteca do Vaticano, OmegaWiki, e MusicBrainz.

 
exemplo dunha declaración simple consistente nun par propiedade-valor
 
exemplo dunha declaración máis complexa, consistente nun par propiedade-valor, cualificativos, e unha referencia

Seguindo os principios e as prácticas dos datos ligados, Wikidata pode tamén apoiar a outros proxectos e ser usada por eles.

Princípios dos dados ligados

Wikidata utiliza identificadores únicos, ou URIs para todos os seus elementos seguindo os estándares para os datos ligados (pt).

Aínda que Wikidata utiliza un modelo de datos único, o seu contido pode exportarse a RDF (pt), un formato ampliamente utilizado e estándar para datos ligados. En termos propios a Wikidata, unha declaración vén composta por un elemento e un par propiedade-valor. Os usuarios afeitos a tratar con conceptos de datos ligados poden ver un elemento como o suxeito dun triplete; a propiedade representa o predicado do triplete; e o valor expresa o obxecto do triplete.

Por outra banda, as declaracións en Wikidata poden tamén conter elementos fóra do esquema suxeito-predicado-obxecto, tales como referencias e cualificativos (para máis información, véxase Help:Statements). Isto fai complicado representar a totalidade do contido de Wikidata usando a linguaxe RDF. Pode atoparse máis información sobre estes desafíos no documento Introducing Wikidata to the Linked Data Web (en inglés).

Aportar datos

Se tes conxuntos de datos que che gustaría aportar a Wikidata, por favor, consulta Wikidata:Dataset Imports.

Acceder aos datos

Os datos en Wikidata están publicados baixo a licenza Creative Commons Dedicación de Dominio Público 1.0, que permite a súa libre reutilización. Es libre de copiar, modificar, distribuír e utilizar os datos, incluso con fins comerciais, sen necesidade de pedir permiso.

Consulte Acceso aos datos para obter detalles sobre as diferentes formas de acceder programaticamente aos datos de Wikidata.

Véxase tamén

Para páxinas relacionadas, véxase:

Para obter orientación adicional e axuda, consulta:

  • Project chat, for discussing all and any aspects of Wikidata
  • Wikidata:Glossary, the glossary of terms used in this and other Help pages
  • Help:FAQ, frequently asked questions asked and answered by the Wikidata community
  • Help:Contents, the Help portal featuring all the documentation available for Wikidata