सहायता:डेटा के बारे में

This page is a translated version of the page Help:About data and the translation is 98% complete.

विकिडेटा एक मुक्त ज्ञान दस्तावेज़ है जिसे मनुष्य और मशीन दोनों पढ़ सकते हैं। यह मुक्त-सामग्री गैर-लाभ संगठन विकिमीडिया संस्थान द्वारा होस्ट और संचालित किए जाने वाले कई विकि परियोजनाओं में से एक है। इस संगठन को सबसे ज़्यादा विकिपीडिया की वजह से पहचाना जाता है। विकिमीडिया संस्थान के सभी परियोजनाओं का अपना विषय है—जैसे विकिपीडिया ज्ञानकोषीय सामग्री के बारे में है, विकिमीडिया कॉमन्स पर चित्र और दूसरे मीडिया फाइलें पाई जाती हैं, और विकिकोष परिभाषाओं और समानार्थी शब्दों के बारे में लेक्सिकल जानकारी प्रदान करते हैं। विकिडेटा का विषय है संरचित डेटा

यह पृष्ठ संरचित डेटा का एक अवलोकन होगा। अगर आप संरचित डेटा के बारे में पहले से ही कुछ जानते हैं मगर विकिडेटा पर इसके उपयोग के बारे में जानना चाहते हैं, और साथ में सीखना चाहते हैं कि विकिडेटा पर इस डेटा का उपयोग कैसे किया जा सकता है या फिर आप विकिडेटा पर अपने परियोजना के डेटा से योगदान कैसे कर सकते हैं, कृपया डेटा लिंक करने के सेक्शन पर चले जाएँ।

विकिडेटा को समझना

संरचित डेटा का मतलब है डेटा जिसे व्यवस्थित करके एक विशिष्ट तरीके से रखा जाता है, और इसका विषय अक्सर विषय एनकोड करना तथा किसी डेटासेट के अंदर अलग-अलग डेटा विंदुओं के बीच के संबंध को बनाए रखना।

मगर डेटा असल में है क्या? और हमें सिर्फ संरचित डेटा के बारे में कद्र क्यों है?

डेटा की परिभाषा

बड़ी डेटा, परीक्षणित डेटा, मुक्त डेटा, मेटाडेटा—आप पहले कहीं-न-कहीं इनमें किसी एक या फिर सभी शब्दों से तो अनुकूल हुए होंगे।

हर शब्द का अर्थ ज़रा-सा अलग है मगर ये सभी, डेटा तथा हमारे विश्व को हमसे अनुकूल कराने के इसकी क्षमता के अर्थ पर ही आधारित हैं।

एक विशिष्ट परिभाषा पर जाए तो, डेटा को जानकारी का पिता कहा जा सकता है, यानी कि जानकारी डेटा से पाई या निकाली जा सकती है।

ऐसा इसलिए है क्योंकि जब मूल अर्थ की बात हो, डेटा बस 'चीज़' की कोई एक 'वैल्यू' है। ये वैल्यू संख्या या शब्द हो सकते हैं जैसे कि नाप या मात्रा। ये विशेषणीय भी हो सकते हैं जैसे कि कोई विवरण या तुलना। उदाहरणस्वरूप, हम कह सकते हैं कि "8,848 मीटर (29,029 फुट)" एवरेस्ट पर्वत की ऊँचाई का एक डेटा वैल्यू है, और "लाल" किसी गाड़ी के रंग का डेटा वैल्यू है।

जैसा पहले बताया गया था, जानकारी और डेटा समान नहीं हैं; जानकारी असल में डेटा के संग्रह और विश्लेषण का अंजाम होता है। उदाहरणस्वरूप, '8,848' (डेटा) अपने आप में एक व्यर्थ संख्या है चाहे हमें पता भी लग जाए कि यह एवरेस्ट पर्वत की ऊँचाई है; हम "एवरेस्ट पर्वत की ऊँचाई 8.848 मीटर है और यह दुनिया का सबसे ऊँचा पर्वत है" (जानकारी) तभी कह सकते हैं जब हमें ऊँचाई का मानक नाप और दूसरे पर्वतों की ऊँचाई पता हो। जब डेटा संरचित हो, इस तरह के वाक्य बनाना, जानकारी और आँकड़ें प्राप्त करना, और तथ्य स्थापित करना बहुत आसान हो जाता है—हम इस बारे में बाद में बात करेंगे।

डेटा कहाँ है?

डेटा हर तरफ है। डेटा के कई स्रोत हैं, जैसे वित्तीय, जैविक, और सामाजिक डेटा। इस पृष्ठ पर भी डेटा है! उदाहरणस्वरूप, इस पर शब्दों की कुल संख्या है, तारीख हैं कि इसे कब बनाया गया था और इसपर आखिरी संपादन कब हुई थी, एक विषय है, दृश्यों की एक संख्या है और भाषाओं की संख्या भी है जिनमें यह उपलब्ध है।

हालाँकि सब कुछ ही डेटा का स्रोत है, वह डेटा शायद मौजूद है नहीं है जिसे ठीक से रिकॉर्ड और व्यवस्थित नहीं किया गया है। किसी संरचना के बिना डेटा व्यर्थ है और जानकारी प्रदान नहीं कर पाता।

संरचित से हमारा मतलब है एक विशिष्ट तरीके से वर्गीकृत। संरचित डेटा का मतलब है संगठित और वर्गीकृत डेटा।

 
विकिडेटा के आयटमों पर डेटा जोड़ने के लिए फॉर्म से इनपुट दिया जा सकता है।

संरचना कहाँ है?

वेब पर संरचना ही सब कुछ है। ज़्यादातर वेबसाइट HTML से बनाए जाते हैं, एक मार्कअप भाषा जो वेब पृष्ठ को एक बुनियादी मचान प्रदान करता है।

मार्कअप भाषाओं का इस्तेमाल पृष्ठ के सामग्री को टैग करने और उनपर विवरण जोड़ने के लिए भी किया जाता है ताकि खोज इंजन, बॉट और RSS फीड जैसे एप्लीकेशन इसे आसानी से पढ़ सके और "समझ" सके। उदाहरणस्वरूप, <title> मशीनों को बताता है कि वेबसाइट का नाम क्या है।

किसी वेब पृष्ठ के साधारण संरचना को समर्थित करने की जगह विकिडेटा विकिपीडिया और दूसरे विकिमीडिया परियोजनाओं पर रखे सभी जानकारी के लिए संरचना प्रदान करता है। विकिडेटा दूसरे विकिमीडिया परियोजनाओं की तरह मीडियाविकि सॉफ्टवेयर पर आधारित है जिसे Wikibase द्वारा बढ़ाया गया है। यह वही सॉफ्टवेयर है जो विकिडेटा को चलाता है और इसे अधिक मात्रा में संरचित डेटा का प्रबंधन करने के लिए बनाया गया है। संरचना सीधे टेबल या सूची के रूप में विकिपीडिया या दूसरे विकिमीडिया साइटों के पृष्ठों पर नहीं जोड़ा जाता है, और विकिडेटा संपादकों को किसी मार्कअप भाषा, डेटा स्केमा, वस्तु नोटेशन, या विशेष सिनटैक्स को सीखने की आवश्यकता नहीं; बल्कि डेटा को विकिडेटा पर एक सदस्य-अनुकूल इनपुट फॉर्म के ज़रिए जोड़ा और संपादित किया जाता है।

विकिडेटा पर रखे सभी डेटा की मदद से कई तरह के स्वचालित अद्यतन होने वाली सूचियाँ या टेबल, या विकिमीडिया साइटों पर तथा बाहर, संरचित पृष्ठ बनाए जा सकते हैं।

टेबल 1
पर्वतों के लिए डेटा
पर्वत गुणधर्म वैल्यू
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

डेटा की संरचना

सरंचना के एक उदाहरण के तौर पर चलिए टेबल 1 को देखते हैं। इस टेबल पर हमें धरती के चार सबसे ऊँचे पर्वतों के बारे में डेटा प्राप्त होती है। अगर हम किसी विशिष्ट डेटा को जानना चाहे, जैसे दुनिया का दूसरा सबसे ऊँचा पर्वत, हम दिए गए डेटा को देखकर सही वैल्यू पता लगा सकते हैं। मगर चारों में से सिर्फ तीन पर्वतों के वैल्यू ही ऊँचाई हैं, और सिर्फ दो की ऊँचाई मीटर में है। जहाँ हमें यह पता है कि ऊँचाई और 'hauteur' (फ्रांसिसी में 'ऊँचाई') के अर्थ समान है और मीटर से फीट या उल्टा कैसे बदला जा सकता है, किसी बॉट या कंप्यूटर प्रोग्राम जैसे मशीन को यह बात पता न भी हो सकता है।

अगर डेटा को एक ही तरीके से सजाकर रखा जाए तब मनुष्य और मशीन, दोनों के लिए जानकारी को समझकर सवाल का जवाब देने में आसानी होगी, चाहे डेटा को दिखाया किसी भी तरह से जाए।

डेटा को मॉडल करना

विकिडेटा जैसे संरचित डेटा के संग्रहों को एक डेटा मॉडल के अनुसार संगठित किया जाता है। डेटा मॉडल मशीन द्वारा पढ़े जा सकते हैं यानी कि कंप्यूटर इन्हें समझ सकते हैं। जहाँ कंप्यूटर काफी ताक़तवर होते हैं, वे साधारण विचारों के मामले में इतने समझदार नहीं। उदाहरणस्वरूप, एक मशीन को यह नहीं पता होगा कि 'ऊँचाई' और 'hauteur' का अर्थ अलग है अगर उन्हें यह साफ़-साफ़ बताया न जाए कि यह सच है।

टेबल 2
पर्वतों के लिए डेटा
पर्वत गुणधर्म वैल्यू
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia
 

डेटा मॉडल विश्लेषण की आवश्यकता, डेटासेट के लक्ष्य और परिकाल्पनिक फ्रेमवर्क तथा सिस्टम के तकनीकी आवश्यकताओं के अनुसार बदलता है। मगर सभी डेटा मॉडल आम तौर पर निश्चित कर देते हैं कि उनके सिस्टम में किस तरह की डेटा समर्थित हैं और वैल्यूओं के बीच किस तरह के संबंध को कंप्यूटर समझ और दिखा सकता है। उदाहरणस्वरूप, डेटा मॉडल यह निश्चित कर सकता है कि 'ऊँचाई' और 'hauteur' को एक बना दिया जा सकता है क्योंकि दोनों का अर्थ समान है, या फिर यह कि फुट के नापों को अपने आप मीटर में बदल दिया जाए। विरिडेटा का डेटा मॉडल उस तरीके को गढ़ता है जिससे सिस्टम में सदस्य डेटा संपादित कर सकते हैं और जोड़ सकते हैं। इसपर काम अब भी चल रहा है और समय के साथ-साथ मॉडल पर नए डेटाटाइप जोड़े जाते हैं।

डेटा मॉडल मनुष्य के साधारण भाषा प्रक्रिया को किसी ऐसी चीज़ में बदल देता है जिसे मशीन समझ पाए। उदाहरणस्वरूप हम हिन्दी में कहते हैं:

"एवरेस्ट पर्वत दुनिया का सबसे ऊँचा पर्वत है"

यह सामग्री का असंरचित प्रारूप है जिसका उपयोग विकिपीडिया और सभी दूसरे विकिमीडिया साइटों पर किया जाता है।

विकिडेटा पर इसे एक बयान के रूप में दिखाया जाएगा जिसमें एक आयटम पर गुणधर्म-वैल्यू की जोड़ी है। पृथ्वी के मामले में:

Earth (Q2) (आयटम)highest point (P610) (गुणधर्म)Mount Everest (Q513) (वैल्यू)

साथ ही विकिडेटा पर एवरेस्ट पर्वत के बारे में एक बयान भी होगा (जो बताता हो कि यह एक पर्वत है):

Mount Everest (Q513) (आयटम)instance of (P31) (गुणधर्म)mountain (Q8502) (वैल्यू)

ध्यान रखें कि क्योंकि दूसरे आयटमों को बयानों के वैल्यूओं के रूप में जोड़ा जा सकता है और सभी आयटमों के पास विकिडेटा पर अपना एक पृष्ठ है, इसका मतलब यह है कि सिस्टम के सभी पृष्ठों को बयानों की एक श्रृंखला की मदद से जोड़ा जा सकता है। क्योंकि विकिडेटा का प्रारूप मशीन द्वारा पढ़ा जा सकता है, इस तरह के जुड़ाव से मशीन नए-नए संबंध और आयटम खोज सकता है। उदाहरणस्वरूप टेबल 2 में हमें पर्वतों के लिए नया डेटा दिखा, लेकिन डेटा सिर्फ उनके भौगोलिक स्थान के बारे में है न कि ऊँचाई। मान लेते हैं कि महाद्वीप पर्वत की ऊँचाई के डेटा से जुड़ा हुआ है, हम और भी आत्मविश्वास के साथ इस निष्कर्ष पर आ सकते हैं कि एशिया में विश्व के सबसे ऊँचे पर्वत मौजूद हैं।

डेटा लिंक करना

संरचित डेटा का एक संग्रह होने के साथ-साथ विकिडेटा पर लिंक कई गई डेटा भी समर्थित है। लिंक कई गई डेटा का मतलब है संरचित डेटा को इस तरह से प्रकाशित करना ताकि इससे और इसपर कड़ियाँ बनाई जा सके।

विकिडेटा पर इसका मतलब है कि स्वयंसेवकों द्वारा जोड़े गए डेटा की कड़ी दूसरे डेटासेट्स, डेटाबेसों और डेटा स्रोतों और विकिमीडिया संस्थान के बाहर भी पूरे वेब पर जोड़ी जा सकती है। उदाहरणस्वरूप, विकिडेटा को इस समय Google Books, Canmore (ऐसिहासिक पर्यावरण स्कॉटलैंड डेटाबेसों में से एक), Vatican Library, OmegaWiki, और MusicBrainz जैसे विभिन्न डेटासेट्स और डेटाबेसों के साथ इंटरलिंक किया जा सकता है।

 
एक गुणधर्म-वैल्यू जोड़ी वाला एक साधारण बयान
 
गुणधर्म-वैल्यू जोड़ी के साथ क्वालीफायर, और एक सन्दर्भ वाले एक कठिन बयान का उदाहरण

लिंक किए गए डेटा के सिद्धांतों और प्रथाओं का पालन करके विकिडेटा को दूसरे परियोजनाओं से भी समर्थन प्राप्त होता है।

लिंक किए डेटा के सिद्धांत

विकिडेटा के पास अपने सभी आयटमों के लिए लिंक किए गए डेटा के मानक के अनुसार समान संसाधन पहचानकर्ताएँ (URIs)

जहाँ विकिडेटा के पास अपना एक डेटा मॉडल है, इसकी सामग्री को RDF प्रारूप में निर्यात किया जा सकता है, जो कि लिंक किए गए डेटा के लिए एक प्रसिद्ध और मानक प्रारूप है। विकिडेटा के शब्दों में एक बयान में एक आयटम और एक गुणधर्म-वैल्यू जोड़ी मौजूद है। जो लिंक किए गए डेटा के बारे में कुछ जानते हैं, वो पहचानेंगे कि एक आयटम को एक त्रिक के उद्देश्य के रूप में देखा जा सकता है; गुणधर्म त्रिक का विधेय है; और वैल्यू को विशेष्य के रूप में।

मगर विकिडेटा के बयानों में उद्देश्य-विधेय-विशेष्य के अलावा भी कुछ हिस्से हो सकते हैं जैसे स्रोत और क्वालिफायर (अधिक जानकारी के लिए Help:Statements देखें)। इससे विकिडेटा की सामग्री को पूरी तरह से RDF की भाषा में दिखाना मुश्किल हो जाता है—इन समस्याओं के बारे में अधिक जानकारी "Introducing Wikidata to the Linked Data Web" नामक दरख़्वास्त पर पाई जा सकती है।

डेटा से योगदान करना

अगर आपके पास ऐसे डेटासेट हैं जिन्हें आप विकिडेटा पर जोड़ना चाहेंगे, कृपया Wikidata:Data donation देखें।

डेटा का उपयोग करना

विकिडेटा पर डेटा को क्रिएटिव कॉमन्स सार्वजिक डोमेन समर्पण 1.0 के अंतर्गत प्रकाशित किया जाता है जिससे डेटा का मुक्त रूप से पुनरुपयोग किया जा सकता है। आप बिना किसी से अनुमति लिए डेटा की प्रतिलिपि बना सकते हैं, उसे बाँट सकते हैं और उसका उपयोग कर सकते हैं, चाहे वह वाणिज्यिक प्रयोजनों के लिए ही क्यों न हो।

See Data access for details about the different ways to programmatically access Wikidata's data.

ये भी देखें

संबंधित पृष्ठों के लिए देखें:

अतिरिक्त जानकारी और मार्गदर्शन के लिए, देखें:

  • परियोजना चैट, विकिडेटा के हर पहलू के बारे में चर्चा के लिए
  • Wikidata:Glossary, इस और दूसरे सहायता पृष्ठों पर प्रयुक्त शब्दों की शब्दावली
  • Help:FAQ, विकिडेटा समुदाय द्वारा अक्सर पूछे जाने वाले और सुलझाए जाने वाले प्रश्न
  • Help:Contents, विकिडेटा के बारे में उपलब्ध पूरे प्रलेख को सूचीबद्ध करने वाला एक सहायता प्रवेशद्वार