Help:Acerca de los datos
Wikidata es una base de conocimiento libre que puede ser leída y editada tanto por humanos como por máquinas. Es solo uno de muchos proyectos basados en wiki que aloja y mantiene la Fundación Wikimedia, una organización sin fines de lucro de contenido libre probablemente más conocida por Wikipedia. Cada uno de los proyectos de la Fundación Wikimedia tiene su propio enfoque; por ejemplo, Wikipedia es para contenido de enciclopedia, Wikimedia Commons admite imágenes y otros archivos multimedia, y Wikcionario proporciona información léxica sobre palabras como definiciones y sinónimos. El enfoque de Wikidata es datos estructurados.
Esta página pretende ser una visión de conjunto de los datos estructurados. Si ya está familiarizado con los datos estructurados, pero desea aprender más acerca de su uso específico en Wikidata, cómo acceder a los datos en Wikidata, o cómo contribuir con datos de su propio proyecto a Wikidata, por favor, salta a la sección sobre datos vinculados.
Entendiendo Wikidata
Los datos estructurados se refieren a los datos que se han organizado y se almacenan de forma definida, a menudo con la intención de codificar el significado y preservar las relaciones entre los diferentes puntos de datos dentro de un conjunto de datos.
Pero, ¿qué son los datos? ¿Y por qué debería preocuparse por los datos estructurados en particular?
Definiendo datos
"Big data", datos experimentales, datos abiertos, metadatos; es posible que haya encontrado algunos o incluso todos estos términos anteriormente.
Cada uno de estos términos tiene un significado algo diferente, pero todos están construidos en una comprensión común de los datos y su potencial para la descripción y la mejora de nuestra comprensión del mundo que nos rodea.
Como concepto abstracto, los datos pueden ser considerados como un precursor de la información, lo que significa que la información puede deducirse o deriva de los datos.
Esto se debe a que, reducidos a su esencia, los datos no son más que un conjunto de valores acerca de cosas. Éstos datos pueden ser numéricos o cuantitativos, como una medida o una cantidad. También pueden ser cualitativos, como una descripción o una comparación. Por ejemplo, podemos decir que "8848 m (29 029 pies)" es un dato sobre la altura del Monte Everest y que "rojo" es un dato sobre el color de un coche.
Como se mencionó anteriormente, la información no es lo mismo que los datos sino que es un producto de la recolección y análisis de datos. Por ejemplo, 8848 (dato) es un número sin mucho sentido por sí mismo, aunque sepamos que es la altura de una montaña; sólo podemos decir que el Everest es la montaña más alta del mundo con 8848 m (información), si somos conscientes de las medidas estándar de altura y una vez conozcamos la altura de otras montañas. Es mucho más fácil hacer tales conclusiones, obtener nuevas ideas y conocimientos, y establecer los hechos cuando los datos están estructurados. Volveremos a esta idea más adelante.
¿Dónde están los datos?
Los datos están por todas partes. Hay muchos tipos de fuentes de datos, incluyendo datos financieros, biológicos y sociales. ¡Incluso esta página tiene datos! Por ejemplo, tiene un número total de palabras, las fechas en que fue creada y revisada por última vez, un tema, un número de visualizaciones, y los idiomas en los el contenido está disponible.
Sin embargo, aunque todo es potencialmente una fuente de datos, aquellos que no están registrados y organizados es casi como si no existieran. Sin una estructura subyacente, los datos no tienen sentido y no proporcionan ninguna información útil.
Al decir organizados, nos referimos a categorizados de una manera estándar y sin ambigüedades. Los datos así organizados y categorizados es a lo que nos referimos cuando decimos "datos estructurados".
¿Dónde está la estructura?
En la web, la estructura reina. La mayoría de los sitios web se crean utilizando HTML, un lenguaje de marcado que proporciona el andamiaje básico o estructura de una página web.
Los lenguajes de marcado también se utilizan para el etiquetado y la descripción de contenidos de la página para que los motores de búsqueda, bots, y aplicaciones como RSS puedan procesarla fácilmente y "entenderla". Por ejemplo, las etiquetas <title>
dicen a las máquinas cuál es el nombre de la página web.
En lugar de apoyar la estructura y los elementos comunes de una página web, Wikidata ofrece la estructura para toda la información almacenada en Wikipedia y en los otros proyectos de Wikimedia. Lo hace mediante el uso de Wikibase, el software motor de Wikidata, que está diseñado para poder manejar grandes cantidades de datos estructurados. La estructura no se añade directamente al contenido de Wikipedia u otras páginas de sitios Wikimedia, ni requiere ningún conocimiento de lenguajes de marcas, esquemas de datos, notación de objetos ni ninguna otra sintaxis especial por parte de los usuarios de Wikidata; en cambio, los datos se añaden y editan en Wikidata a través de formularios de fácil uso.
Todos los datos almacenados en Wikidata se pueden utilizar para generar todo tipo de listas, tablas y páginas estructuradas automatizadas y actualizadas en cualquier sitio en Wikimedia o externo a esta.
Datos de Montañas | ||
---|---|---|
Montaña | Propiedad | Valor |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
Datos estructurados
Como ejemplo de la importancia de la estructura, echemos un vistazo a la Tabla 1. En esta tabla podemos ver los datos de las cuatro montañas más altas en la Tierra. Si queríamos saber un dato particular, como por ejemplo la altura de la segunda montaña más alta del mundo, debemos ser capaces de mirar a los datos proporcionados y averiguar el valor correcto. Sin embargo, sólo tres de las cuatro montañas tienen sus datos catalogados como un valor de altura, y sólo dos de las tres montañas tienen los valores en metros. Si bien una persona sabe que height (altura en inglés) y hauteur (altura en francés) pueden entenderse como iguales entre sí, y como convertir metros a pies o viceversa, una máquina, como un bot o un programa de ordenador, puede no entenderlo.
Es mucho más fácil, tanto para los seres humanos como para las máquinas, procesar la información y responder a la pregunta original sobre la segunda montaña más alta si todos los datos subyacentes están registrados de forma similar, incluso aunque difiera su presentación.
Modelando datos
Las colecciones de datos estructurados, como Wikidata, se organizan de acuerdo a un modelo de datos. Los modelos de datos pueden ser entendidos por una computadora. Mientras que las computadoras tienen una gran potencia, a menudo no son tan inteligentes como nosotros cuando se trata de un razonamiento simple. Por ejemplo, en el ejemplo anterior, una máquina no sería capaz de saber que altura y hauteur es lo mismo, a menos que se les dijera explícitamente que es el caso.
-
item: La Tierra
-
property: punto más alto
-
value: Everest
Datos de Montañas | ||
---|---|---|
Montaña | Propiedad | Valor |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
Los modelos de datos varían en función de las necesidades de análisis, el alcance y el marco conceptual del conjunto de datos, y los requisitos técnicos de un sistema. Sin embargo, todos los modelos de datos normalmente especifican qué tipo de datos soporta un sistema y qué relaciones entre valores pueden ser entendidas y representadas. Por ejemplo, un modelo de datos podría especificar que altura y hauteur pueden reenviarse la una a la otra de manera que ambos términos representan un único concepto, o que las medidas en pies se convertirán automáticamente en metros. El modelo de datos Wikidata conforma la manera en la que los usuarios pueden añadir y editar datos en el sistema. También es un trabajo en curso, con nuevos tipos de datos siendo agregados al modelo con el tiempo.
Los modelos de datos esencialmente también traducen patrones de lenguaje natural humano a algo que puede ser procesado por máquinas. Por ejemplo, en español podríamos decir:
- "El Everest es la montaña más alta del mundo"
Éste es también el formato de contenido bruto, no estructurado, utilizado actualmente en la Wikipedia y todos los otros sitios de Wikimedia.
En Wikidata, ésto se presentaría mediante una declaración, que consiste en un par propiedad-valor acerca de un elemento, en este caso, la Tierra:
Earth (Q2) (elemento) → highest point (P610) (propiedad) → Mount Everest (Q513) (valor)
Además, Wikidata propondría esta declaración acerca del elemento Everest (indicando que se trata de una montaña):
Mount Everest (Q513) (elemento) → instance of (P31) (propiedad) → mountain (Q8502) (valor)
Hay que tener en cuenta que debido a que otros elementos pueden ser utilizados como valores para declaraciones, y que todas las declaraciones tienen su propia página única en Wikidata, significa que todos los elementos del sistema pueden ser unidos entre sí a través de una serie de declaraciones. Debido a que Wikidata utiliza un formato legible por máquina, esta interconexión de datos permite a las máquinas descubrir y procesar nuevas relaciones y conexiones. Por ejemplo, en la Tabla 2 vemos nuevos datos para nuestras montañas, esta vez acerca de su ubicación geográfica por continente, pero nada acerca de sus alturas. Suponiendo que estos datos continente fueron vinculados a los datos de altura de la montaña, podríamos hacer predicciones o sacar conclusiones al respecto con mayor seguridad, como por ejemplo, decir que Asia es el hogar de las montañas más altas del mundo.
Datos vinculados
Además de ser una colección estructurada de datos, Wikidata también admite datos vinculados. Datos vinculados se refiere a la práctica de publicar los datos estructurados de manera que puedan ser interconectados.
Para Wikidata esto significa que los datos que aportan los voluntarios también pueden estar enlazados a otros conjuntos de datos, bases de datos, y fuentes de datos de toda la web y de diversidad iniciativas externas a la familia Wikimedia. Por ejemplo, actualmente Wikidata permite conectar con conjuntos de datos y bases de datos tan diversas como Google Books, Canmore (una de las bases de datos de Historic Environment Scotland), la biblioteca del Vaticano, OmegaWiki, y MusicBrainz.
Siguiendo los principios y prácticas de datos vinculados, Wikidata también es capaz de apoyar y ser usada por otros proyectos.
Principios de datos vinculados
Wikidata utiliza identificadores únicos, o uniform resource identifiers (URI), para todos sus elementos según los estándares de los datos vinculados.
Aunque Wikidata utiliza un modelo de datos único, su contenido puede ser exportado en RDF, un formato ampliamente utilizado y estándar para datos enlazados. En términos Wikidata, una declaración se compone de un elemento y un par propiedad-valor. Para aquellos familiarizados con los conceptos de datos enlazados, un elemento puede ser visto como el sujeto de un triplete; la propiedad representa el predicado del triplete; y el valor se utiliza para expresar el objeto del triplete.
Sin embargo, las declaraciones de Wikidata pueden contener elementos más allá del sujeto-objeto-predicado, tales como referencias y calificadores (para más información, véase Help:Statements). Esto hace más complicado la representación del contenido Wikidata usando el lenguaje RDF; se puede encontrar más información sobre estos desafíos en el documento "Introducing Wikidata to the Linked Data Web".
Aportando datos
Si tiene datos que le gustaría aportar a Wikidata, por favor consulte Wikidata:Data donation.
Accediendo a los datos
Los datos en Wikidata son publicados bajo la licencia Creative Commons Dedicación de Dominio Público 1.0, permitiendo su libre reutilización. Puedes copiar, modificar, distribuir y mejorar los datos, incluso con fines comerciales, sin la necesidad de pedir permiso.
Consulte Acceso a datos para obtener detalles sobre las diferentes formas de acceder mediante programación a los datos de Wikidata.
Véase también
Para páginas relacionadas, consulte:
Para obtener orientación adicional y ayuda, consulte:
- Café, para discutir todo o algún aspecto de Wikidata.
- Wikidata:Glossary, el glosario de términos usados en esta y otras páginas de ayuda
- Help:FAQ, preguntas frecuentes contestadas por la comunidad de Wikidata
- Help:Contents, el portal de ayuda con toda la documentación disponible de Wikidata