Wikidata:MOOC/Course outline/Initiation au web sémantique/nl

This page is a translated version of the page Wikidata:MOOC/Course outline/Initiation au web sémantique and the translation is 100% complete.

Vereisten

Om te weten wat data is, en om tijdens zijn leven een paar websites te hebben bezocht.

Geschatte tijd

Ongeveer 25 minuten.

Na deze cursus weet u

  • Definieer web 3.0 of semantisch web
  • Definieer en herken het RDF-formaat
  • Herken de basisprincipes van data delen.
  • Wat zijn de 5 sterren van Linked Open Data.
  • Wat is een ontologie?

Videoscript

  • Totaal duur: 3 - 5 min
  • Moet gaan over: semantische webdefinitie of web 3.0 / ontologieën / een inleiding tot RDF-formaat (zonder in te gaan op overbodige technische details)
Semantisch web videoscript
Sequentie Inhoud Effecten Audio Tijd
Herintroductie De camera op uw gezicht, uw dynamiek Ondertiteling Fr. Hallo iedereen, ik ben Florian. Voor deze nieuwe introductie in de concepten die Wikidata mogelijk maken, stel ik het semantische web voor. 15 sec
Definitie semantische web Gezicht naar camera + Beeld-in-beeld en hooglichten Franse ondertiteling. Spinnenweb Blauwdruk [SP1] Alleen al aan de hand van de naam kunt u raden wat het is. U kent het woord web voor internet. In het Engels is het een woord dat verwijst naar een spinnenweb [afbeelding achtergrond spinnenweb]. Als we naar een spinnenweb kijken, zien we dat het bestaat uit draden die met elkaar verbonden zijn [einde afbeelding spinnenweb]. Het semantische web wordt gebruikt om gegevens aan elkaar te koppelen. Het is als een enorm web, dat al deze gegevens met elkaar zou verbinden. En waarom "semantisch"? Want het gaat erom verder te gaan dan het verbinden van data. Het semantische web gaat over het begrijpen van deze linked data, het begrijpelijk maken van deze data, zowel voor machines als voor mensen zoals u en ik. 50 sec ~
Definitie van ontologieën Video screenshot + stilstaande beelden Ondertiteling Fr. Er zijn verschillende manieren om gegevens of ontologieën te ordenen. Een ontologie is een menselijke manier om dingen te classificeren. U heeft allemaal een beroep gedaan op ontologieën in uw leven. Jazeker! Bijvoorbeeld om [afbeeldingenbibliotheek] uw boekenkast op te ruimen, [afbeelding kledingkast] uw kledingkast of [afbeelding computerbureaublad] uw bestanden op uw computerbureau. Deze opbergsystemen volgen niet allemaal dezelfde ontologie, u bergt een kledingkast niet op zoals u een boekenkast opruimt. Bij het semantische web volgen de gelinkte data allemaal dezelfde ontologie: het RDF [Inlay RDF logo] formaat. 45 sec
Snelle definitie RDF-formaat ? Ondertiteling Fr. Het RDF-formaat volgt regels, een beetje zoals de grammaticaregels van het Frans. Eenvoudiger. Het is als een zin, met een onderwerp, een werkwoord en een aanvulling [Grammaticazin afbeelding insluiten]. In RDF-formaat gaan we het hebben over onderwerp, predicaat en object [vervang onderwerp, werkwoord en aanvulling door onderwerp, predicaat en object]. Het onderwerp is de gegevens die worden beschreven. Het predicaat is als het label in een Excel-spreadsheetkolom [Een Excel-tabelkolom insluiten], een eigenschap van wat we beschrijven. En het object is de waarde die aan het predicaat is gekoppeld. Het is een beetje abstract. Als ik de kleur van een olifant wil beschrijven [afbeelding olifant insluiten] in RDF-formaat, is mijn onderwerp de olifant [classificeer de olifant onder het onderwerplabel], mijn predicaat is kleur en mijn object is grijs. Bijna alles kan worden beschreven in dit RDF-formaat. Van de kleur van mijn haar tot de veronderstelde massa van de verste planeet die in het universum bekend is 1 min

Wat is het semantische web?

Zie https://fr.wikipedia.org/wiki/Web_s%C3%A9mantique

Het semantische web of het "Web 3.0", zijn hetzelfde concept. Het gebruik van het semantische web om op internet te communiceren lijkt een beetje op het vergemakkelijken van de communicatie tussen een groep mensen door een taal te gebruiken die zowel elk lid van die groep in staat stelt te begrijpen wat anderen zeggen, als elk lid om de informatie die door anderen wordt verzonden opnieuw te gebruiken.

Deze uitbreiding van het web is gestandaardiseerd door het World Wide Web Consortium (of W3C), dat het gebruik van gestandaardiseerde dataformaten en uitwisselingsprotocollen op het web aanmoedigt, gebaseerd op het zogenaamde Resource Description Framework (kortweg RDF). Dit model van het semantische web maakt het mogelijk om gegevens te delen en te hergebruiken tussen meerdere applicaties en gebruikersgroepen, door ervoor te zorgen dat al deze gebruikersgroepen hun gegevens op dezelfde manier structureren.

U kent waarschijnlijk al de betekenis van het woord "web" (genoemd naar een "spinnenweb" als we dit woord vertalen), om pagina's aan te duiden die op internet zijn gekoppeld door hun hypertekstlinks (zoals: https://fr.wikipedia.org/wiki/World_Wide_Web).

 
Een web om alles met elkaar te verbinden...

Het woord "semantiek" verwijst naar de studie van de betekenis en betekenis van tekens. Het semantisch web is dus een standaard die het mogelijk maakt om betekenis te geven aan de informatie die op het internet aan elkaar gekoppeld is.

Het begrip "semantisch web" is een uitvinding van Tim Berners-Lee, vooral bekend als de belangrijkste uitvinder van het web. Hij is ook de belangrijkste supervisor van de ontwikkeling van semantische webtechnologieën. Het idee is om het web zo te organiseren dat de directe en indirecte verwerking van gegevens door machines mogelijk is en er nieuwe kennis uit kan worden gehaald. Om dit te doen, moeten we de informatie op het internet structureren, om het toegankelijker te maken voor deze machines, maar ook voor mensen. Pagina's die zijn gestructureerd volgens de goede kwaliteitsnormen van het semantische web zullen bijvoorbeeld toegankelijker zijn voor blinden die deze webpagina's bezoeken met hun spraaksynthese (met andere woorden, via een "robot" die deze pagina's aan hen voorleest).

U heeft waarschijnlijk websites bezocht die informatie proberen te begrijpen en toegankelijker te maken. Misschien heeft u zelfs de logo's "W3C" en "RDF" onderaan deze webpagina's gezien:

 
Logo W3C
 
Logo RDF

Deze logo's geven respectievelijk webpagina's aan die voldoen aan de W3C-normen en webpagina's die het RDF-formaat gebruiken. Het werkingsprincipe van het semantische web is gebaseerd op het respecteren van dit RDF-formaat.

Het RDF-formaat en zijn tripels: als een zin

Het semantische web bestaat dankzij RDF-tripels. Dit IT-concept lijkt misschien ingewikkeld. In feite werkt het op dezelfde manier als grammaticaregels. U herinnert zich dat u hoorde over onderwerpen, werkwoorden, aanvullingen op direct of indirect object, in ieder geval tijdens uw kindertijd, toch? Gelukkig gaan we u niet lastigvallen met grammatica!

In RDF-formaat moet het, om informatie te structureren, in drieën worden verdeeld. Dit wordt een tripel (triplet) genoemd (of geordende associatie van drie elementen). Dit RDF-tripel organiseert onze informatie door deze te scheiden in onderwerp, predicaat en object.

  • het "onderwerp" vertegenwoordigt de te beschrijven bron;
  • Het "predicaat" vertegenwoordigt een type eigenschap dat van toepassing is op die bron;
  • Het "object" vertegenwoordigt de waarde van de eigenschap (van het predicaat)
 
Hoe zit het met roze olifanten?

Om bijvoorbeeld de grijze kleur van een olifant in het RDF-formaat te beschrijven, structureren we ons RDF-formaat als volgt in onderwerp-predicaat-object:

  • Onderwerp: olifant
  • Predicaat : kleur
  • Object : grijs

In Wikidata is de structuur voor dit tripel als volgt:

  • Item (Q7378): olifant
  • Eigenschap (P462): kleur
  • Waarde (Q42519): grijs

Deze structuur wordt hier ter indicatie aangehaald, omdat u later en in detail zult zien hoe data in Wikidata is opgebouwd. De namen die worden gebruikt om deze tripelverandering te beschrijven, maar alles is gebaseerd op het principe van RDF-structurering. De gebruikte terminologie is van weinig belang zolang het principe van het RDF-tripel hetzelfde blijft.

Bronnen om te beschrijven Olifant Kleur Grijs
RDF-terminologie Onderwerp Predicaat Object
Terminologie Wikidata Item Eigenschap Waarde
Unieke identifiers van bronnen die in Wikidata moeten worden beschreven Q7378 P462 Q42519

... dit alles komt overeen met het structureren van de informatie in de zin "Een olifant (onderwerp/item) wordt gekenmerkt door een grijze kleur (predicaat/eigenschap) (object/waarde)". Deze informatie wordt leesbaar en begrijpelijk voor machines die een grote hoeveelheid gegevens verwerken, en niet alleen voor een mens om te lezen!


Hier is nog een voorbeeld: hoe drukt u het feit uit dat een boek papier als materiaal heeft, in RDF-formaat?

Om van deze bewering een RDF-tripel te maken, moeten we uitzoeken wat het onderwerp is, waar het predicaat is (in Wikidata "eigenschap" genoemd) en waar het object (of "waarde") zich bevindt. Het onderwerp hier is het boek, want het is het boek dat geschreven wordt. Het predicaat/eigenschap is het materiaal waaruit het bestaat. Het object/de waarde van het onroerend goed is... papier.

Nog een laatste voorbeeld? Hoe zou u de zinsnede "een museum kan collecties bewaren" structureren? Hier is het onderwerp het museum, aangezien het museum wordt beschreven aan de hand van zijn rol van conservering (predicaat / eigenschap) van collecties (object / waarde). We zouden ook een tripel kunnen construeren door het subject en het object/de waarde om te keren, door te zeggen: "Collecties (subject) kunnen worden bewaard (predicaat/eigenschap) in een museum (object/waarde)".

Ten slotte zijn RDF-tripels niet van elkaar geïsoleerd. Hetzelfde onderwerp kan meerdere tripels genereren, wat een "boog" of "vertakking" structuur geeft

 
RDF-tripels in diagram

RDF-tripels maken het mogelijk om webpagina's beter aan elkaar te koppelen.

Wat zijn de 5 sterren van gelinkte open data?

Om de mate van integratie van een webpagina met gegevens in het semantische web te meten, creëerde Tim Berners-Lee in 2001 een meetinstrument, de 5 sterren van "Linked Open Data". Ze worden nu gebruikt als referentie voor het werken aan open data. Deze sterren meten:

  • de toegankelijkheid van de gegevens
  • hun technisch gebruiksgemak
 

Deze maatstaf varieert van 1 ster (als de informatie gewoon online beschikbaar is) tot 5 sterren (als de informatie volledig is geïntegreerd in het web van gegevens). Deze gegevens moeten onder een vrije licentie worden gepubliceerd, zodat er gemakkelijk koppelingen tussen kunnen worden gemaakt. Op het hoogste niveau (4 en 5 sterren) is elk van deze links gebaseerd op het RDF-beschrijvingsmodel, met onderwerp-predicaat-object.

Voorbeeldenǃ

  • 1*: 'Open licentie (OL)

De eerste ster wordt automatisch toegekend aan open data, aan alle inhoud die beschikbaar is onder een open licentie, ongeacht de kwaliteit van die data en ongeacht de toegankelijkheid ervan. Om ons voorbeeld te nemen met het korte verhaal Het paard van Leo Tolstoj, dit zeer lelijke afbeeldingsbestand, gekrabbeld op de map van een schooljongen:

 

... zou een ster waard zijn, ook al maakt de presentatie ervan het erg moeilijk om het te hergebruiken. Het is gepubliceerd onder een open licentie (creative commons 4.0-licentie), zoals hier bepaald, in de metadata. Dit bestand zou totaal onleesbaar zijn voor een machine. Dit maakt het net zo ontoegankelijk voor mensen met een visuele beperking, die het via spraaksynthese zouden proberen te lezen.

  • 2*: Open en herbruikbare data

Als de gegevens zijn gestructureerd in een formaat dat breed herbruikbaar, machinaal leesbaar en begrijpelijk is voor een mens, wordt de tweede ster toegekend. Deze herbruikbare indeling kan een eigen indeling zijn of een gesloten indeling, zoals een Excel- (.xls) of Numbers-bestand (.numbers).

  • 3*: Open en herbruikbare gegevens, gepubliceerd in een niet-merkgebonden formaat

Als de gegevens worden gepubliceerd in een niet-merkgebonden formaat, bijvoorbeeld een CSV-formaat (.csv),   de derde ster wordt bereikt! Vanuit het perspectief van de persoon die de gegevens publiceert, lijkt het verschil tussen de tweede en derde ster misschien klein. Dit verschil is merkbaar aan de kant van de gebruikers van de gegevens: de overgang van een propriëtair publicatieformaat naar een vrij formaat stelt iedereen in staat om de op deze manier gepubliceerde gegevens te hergebruiken of te manipuleren.

  • 4* Open, herbruikbaar, gepubliceerd in een niet-merkgebonden formaat, gestructureerd in RDF-formaat en geïdentificeerd door url

De vierde ster komt wanneer de gegevens zijn gestructureerd in RDF  -formaat en toegankelijk zijn via url's. Hierdoor kunnen gebruikers met behulp van die url naar een specifieke gegevenspagina verwijzen.

  • 5* Open, herbruikbaar, gepubliceerd in een niet-merkgebonden formaat, gestructureerd in RDF-formaat, geïdentificeerd door url's en gekoppeld aan andere gegevens

Wanneer de gegevens op de pagina gestructureerd in RDF-formaat, en geïdentificeerd door een url, worden gekoppeld aan andere gegevenspagina's die deze aanvullen en context toevoegen, dan hebben we onze vijf sterren!

 
Voorbeeld van een cloud van linked data: elke cirkel staat voor een pagina met data die voldoet aan de vijf sterren van Linked Open Data.

Wikidata voldoet aan de vijfsterren maatstaf van linked open data

Wikidata-gegevenspagina's zijn herbruikbaar, gepubliceerd in een niet-propriëtair formaat (in dit geval onder een CC0-licentie), gestructureerd in RDF-formaat, geïdentificeerd door url's, en ten slotte zijn ze gekoppeld aan andere gegevenspagina's, buiten Wikidata.

Ontologie: hoe projecten beheren die een gemeenschap hebben

We hebben al gezien dat het beheer van gegevens in databases beperkingen/constraints met zich meebrengt. In een klassieke database worden deze beperkingen door het systeem zelf gecreëerd en als het ware "door de computer" opgelost. De manier waarop gegevens in Wikidata worden georganiseerd en geclassificeerd kan een kwestie zijn van deze beperkingen, maar ook van ontologie.

Ontologie is de menselijke organisatie van data. In de informatica is een ontologie een "gestructureerde reeks termen en concepten die de betekenis van een informatieveld vertegenwoordigen". Het is mogelijk om een ontologie in de wereld van data te definiëren als het "equivalent van wat grammatica is voor taal". Er zijn twee belangrijke verschillen tussen een beperking en een ontologie:

  • Ontologieën worden gedefinieerd door mensen, in plaats van door computersystemen
  • Beperkingen hebben een directe invloed op de kwaliteit van de gegevens en moeten worden gerespecteerd, terwijl een ontologie niet noodzakelijkerwijs wordt gedefinieerd als goed of slecht van aard, maar als goed of slecht in termen van de consistentie van de gehele gegevensclassificatie.

Net zoals u zeker al aan dataclassificatie hebt gedaan zonder een beroep te doen op een database, is het zeer waarschijnlijk dat u tijdens uw leven al een ontologie hebt gebruikt! Heeft u ooit een herbarium gemaakt (https://fr.wikipedia.org/wiki/Herbier)? Het organiseren van uw eigen database van planten, beslissen met welke plant u een herbarium begint, en vervolgens hoe u deze planten classificeert (per soort, per kleur, per plaats van plukken...), al deze taken maken deel uit van een ontologie.

Classificatie van planten op geografische basis

Geen van deze twee classificaties is inherent "goed" of "slecht", ze zijn gewoon het resultaat van verschillende keuzes, elk met zijn voor- en nadelen.

Classificatie van planten op basis van soorten

Als u thuis een boekenkast heeft en de opslag ervan heeft georganiseerd, is deze taak ook een ontologie: u kunt uw boeken classificeren op grootte, op naam van de auteur, op thema, op uitgeverij en collectie, of op omslagkleur... Misschien heeft iemand die niet weet hoe hij uw boekenkast moet opbergen per ongeluk een boek op de "verkeerde" plaats geplaatst, denkend dat hij het juiste doet? Misschien gebruikt deze persoon niet dezelfde ontologie als u, of begreep hij niet wat uw ontologie is.

Zelfs het eenvoudig opruimen van een kast of kast brengt ontologieën in de praktijk. Organiseert u uw kleding op gelijkenis (bijvoorbeeld het maken van een stapel T-shirts) of op complete outfits (bijvoorbeeld het ophangen van een set T-shirts, broeken en bijpassende gekleurde sokken)?

In Wikidata en in databases wordt de ontologie gedefinieerd door de gemeenschap van bijdragers, na het voorstellen en zoeken naar een consensus over hoe gegevens te classificeren.

Samenvatting van de woordenschat

  • RDF-formaat: een grafiekmodel dat bedoeld is om webbronnen en hun metadata formeel te beschrijven, zodat dergelijke beschrijvingen automatisch kunnen worden verwerkt.
  • RDF tripel: basisgrammatica van het RDF-formaat, gestructureerd in de vorm "onderwerp - predicaat - object"
  • Linked Open data: integratie van een webpagina met gegevens in het semantisch web, dankzij structurering in RDF-formaat en links tussen pagina's
  • Ontologie: een gestructureerd geheel van termen en concepten die de betekenis van een informatieveld vertegenwoordigen

Samenvatting van de cursus

We zagen:

  • Dat het semantische web een standaard is om betekenis te geven aan informatie die op internet met elkaar verbonden is
  • Die naleving van deze norm wordt mogelijk gemaakt dankzij RDF tripels gestructureerd in de vorm onderwerp-predicaat-object, waarmee de eigenschappen van een bepaald subject kunnen worden beschreven door er een waarde aan te koppelen.
  • Dat de 5 sterren van Linked Open Data het mogelijk maken om de mate van integratie in het semantische web van een webpagina met gegevens te evalueren, variërend van een eerste niveau zodra er gebruik wordt gemaakt van een vrije licentie, tot een vijfde niveau voor een webpagina gestructureerd in RDF-formaat en volledig geïntegreerd in het web van gegevens dankzij links naar andere webpagina's.
  • Dat de organisatie van gegevens gebaseerd kan zijn op systeembeperkingen, maar ook op een ontologie die door mensen is bepaald

Vrije evaluatie

5 minuten, onbeperkt aantal pogingen