Wikidata:Tools/OpenRefine/Editing/Schema alignment/nl

This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Schema alignment and the translation is 100% complete.
Voorbeeld van een eenvoudig schema.

In OpenRefine is een schema een sjabloon van Wikidata-bewerkingen die wordt toegepast op elke rij in het project. Deze pagina beschrijft hoe elk deel van dit sjabloon werkt en hoe het bewerkingen genereert afhankelijk van de inhoud van de tabellencellen. Dit is bedoeld als een referentiehandboek: zie de deze tutorial als u gewoon wilt beginnen met bewerken.

Items

Een item in het schema vertegenwoordigt een reeks wijzigingen op een bepaald Wikidata-item, gegenereerd door een enkele rij. Dit item kan wijzigingen bevatten in voorwaarden (labels, beschrijvingen en aliassen) of verklaringen.

Het is mogelijk om verschillende items aan te passen voor elke rij van uw tabel: voeg gewoon meerdere items toe in uw schema. Elk item heeft een onderwerp, dat ofwel handmatig kan worden ingevoerd (als het item waarop de bewerkingen moeten worden gedaan, voor alle rijen hetzelfde is), ofwel kan elke verenigde kolom in dit veld worden afgevoerd. In dit geval zullen de bewerkingen afhangen van de reconciliatiestatus van elke cel:

  • Indien de cel overeenkomt met een item, worden er wijzigingen aan dat item gedaan;
  • Als de cel wordt gemarkeerd als overeenkomend met een nieuw item, wordt er een nieuw item voor gemaakt. Zie deze pagina voor meer details over hoe dit werkt;
  • Indien de cel reconciliatie kandidaten heeft, maar geen van hen komt overeen, wordt de bewerking overgeslagen (zelfs als er slechts één kandidaat met een hoge reconciliatie score is);
  • Als de cel niet gereconcileerd is of leeg, wordt de bewerking overgeslagen.

Maak u geen zorgen over de volgorde van items in het schema of de volgorde van uw rijen, want OpenRefine herschikt uw bewerkingen om hun upload te optimaliseren. Als uw project in meerdere rijen bewerkingen aanbrengt op hetzelfde item, worden deze bewerkingen samengevoegd en in één bewerking uitgevoerd. Zie deze pagina

Voorwaarden (Terms)

Terms zijn de taal-specifieke teksten die u bovenop Wikidata-items vindt: labels, beschrijvingen en aliassen. OpenRefine laat u deze termen bewerken via het Wikidata-schema.

Talen

Elke term behoort tot een bepaalde taal. Wikidata ondersteunt honderden talen die worden aangegeven met taalcodes. Voor elke term die u aan een item wilt toevoegen, moet u de taal voor deze term specificeren. Er zijn twee gevallen:

  • Of de taal is constant in uw dataset: u weet dat alle namen in een bepaalde kolom in dezelfde taal worden gespeld. In dit geval, typ de naam van de taal in de invoer en selecteer de taal in het drop-down veld in de dialoog. Hierdoor wordt de juiste taalcode in de invoer geplaatst.
  • Of de taal varieert over uw gegevens. In dit geval moet u een kolom van Wikimedia-taalcodes verstrekken die de taal voor elke term aangeeft die u wilt toevoegen. Plaats deze kolom naar het taalveld. Indien in deze kolom ongeldige taalcodes zijn vermeld, worden de overeenkomstige termen genegeerd. OpenRefine zal alle verouderde taalcodes stilletjes vertalen naar hun voorkeurswaarden.

Labels

Dit komt omdat Wikidata-items maximaal één label per taal kunnen hebben, dus u moet kiezen of u een bestaande label moet overschrijven (voorkeursgedrag vóór 3.2) of alleen uw label moet invoeren als er geen zodanig label in de gegeven taal is (voorkeur gedrag vanaf 3.2). Wanneer de inhoud van de cel die het label bevat leeg is, wordt niets veranderd (het is dus niet mogelijk om het label te verwijderen).

Beschrijvingen

Beschrijvingen werken net als labels: er is maximaal één beschrijving per taal en OpenRefine kan bestaande beschrijvingen overschrijven of onveranderd laten. Ook is het niet mogelijk om beschrijvingen te verwijderen.

Aliassen

Een alias wordt aan de lijst van bestaande aliassen in de gegeven taal toegevoegd. Bij het toevoegen van een alias in een taal waar nog geen label is toegevoegd, wordt de alias automatisch gepromoveerd naar het label voor deze taal. Het is niet mogelijk een alias te verwijderen of een bestaande alias te overschrijven.

Verklaringen

U kunt verklaringen toevoegen in het schema: dit zal nieuwe verklaringen op de overeenkomstige items genereren. Deze verklaringen zullen worden samengevoegd met alle bestaande verklaringen over het werkelijke Wikidata-item en het samenvoegingsproces dat afhankelijk is van het uploadmedium Het is naar verwachting in de nabije toekomst er meer controle over de fusiestrategie kan worden gegeven.

Hoofdwaarden

Verklaringen kunnen hoofdwaarden, "no value" of "some value" als waarden hebben. Verklaringen met "no value" of "some value" kunnen worden ingevoegd met behulp van de speciale trefwoorden #NOVALUE# en #SOMEVALUE#, die worden gebruikt in plaats van de waarde (rechtstreeks in het schema of via een kolom). Dit wordt ondersteund sinds OpenRefine 3.7.

De belangrijkste waarde van een verklaring is een gegevenswaarde waarvan het type afhangt van de eigenschap die voor de verklaring wordt gebruikt. Als de hoofdwaarde niet kan worden geëvalueerd (bijvoorbeeld omdat een van de cellen waarop het afhankelijk is leeg is), dan wordt de hele verklaring overgeslagen.

Zie het gedeelte datawaarden voor meer details over hoe elk type datawaarde moet worden gespecificeerd en wanneer deze worden overgeslagen.

Kwalificaties

Aan elke verklaring kunnen kwalificaties worden toegevoegd. Wanneer de waarden worden overgeslagen, wordt alleen de kwalificatieverwijdering weggegooid: de rest van de verklaring wordt nog toegevoegd.

Referenties

Aan elke verklaring kunnen (en moeten) referenties worden toegevoegd. Als de waarden binnen de referentie worden overgeslagen, wordt het overeenkomstige deel van de referentie weggegooid, maar wordt de referentie nog steeds toegevoegd (tenzij de referentie leeg wordt).

Rangen

Alle verklaringen worden ingesteld op Normaal. Het is nu niet mogelijk een andere rang in te stellen.

Datawaarden

Datawaarden zijn de gegevens die u als doelstelling van een verklaring (of kwalificatie, of een deel van een referentie) kunt vinden. Elke eigenschap bepaalt een bepaald type datawaarde. In elk geval gebruikt OpenRefine een specifiek proces om de inhoud van de cel te vertalen naar een datawaarde van het juiste type. In dit gedeelte wordt het proces voor alle datatypen uitgelegd.

Items

De items worden op dezelfde manier geëvalueerd als de onderwerpen van de items in het schema. Ze kunnen direct worden ingevoerd met behulp van de automatisch aangegeven service, of elke kolom die is samengesteld met Wikidata kan worden gebruikt. Zie het eerste items gedeelte om te zien hoe ze worden geëvalueerd.

Strings en externe identifiers

Gewone strings en externe identificaties kunnen rechtstreeks worden ingevoerd als constanten (als ze niet veranderen) of met behulp van een kolom. Als een verzamelde kolom wordt gebruikt voor een stringwaarde, is het de waarde van de cel die zal worden gebruikt, niet de naam van het verzamelde item (dat is wat OpenRefine weergeeft). Waarden worden overgeslagen wanneer de kolom leeg of nul is.

Eentalige teksten

Eentalige teksten bestaan uit twee delen:

  • de taal: zie Talen voor de structuur;

Een eentalige tekst wordt overgeslagen wanneer een van de delen ervan wordt overgeslagen (dat wil zeggen als de taal of de tekst ongeldig is).

Datums

Datums worden geanalyseerd uit de celinhoud (of uit elke constante die in het schema wordt aangegeven) en de nauwkeurigheid van de datum wordt afgeleid van het formaat. Hier zijn de geldige formaten:

  • YYYYM, zoals 2001M (millennium precisie)
  • YYYYC, zoals 1901C (eeuw precisie)
  • YYYYD, zoals 1981D (decennia precisie)
  • YYYY, zoals 1984 (jaar precisie)
  • YYYY-MM, zoals 2019-03 (maand precisie)
  • YYYY-MM-DD, zoals 1897-08-14 (dag precisie)

Alle waarden die niet overeenkomen met een van deze formaten worden genegeerd. Alle datums worden weergegeven in UTC, de Gregoriaanse kalender.

In OpenRefine 3.3 zijn de volgende nieuwe formaten geïntroduceerd:

  • TODAY geeft de datum van vandaag met dag precisie terug. Dit wordt geëvalueerd bij het uitvoeren van de bewerkingen (of het exporteren naar QuickStatements);

In OpenRefine 3.5 is het volgende nieuwe formaat ingevoerd:

Hoeveelheden

Hoeveelheden bestaan uit twee delen: de hoeveelheid en de eenheid.

  • het getal is verplicht en moet een string zijn, zoals 18.229,1020. De nauwkeurigheid die wordt weergegeven zal worden gerespecteerd (hetzelfde aantal nullen achter zal worden weergegeven in Wikidata). Bij verstek worden geen bovenste en onderste grenzen ingesteld. Om deze te definiëren, moet men de technische notatie gebruiken, zoals 3.45E+3, die zal worden geïnterpreteerd als 3.3,450±5. Zoals gewoonlijk kan het getal worden aangegeven als constante of als kolomvariabele. In het laatste geval moeten de waarden in de kolom strings zijn.
  • de eenheid is optioneel. Het is een item, dus het kan worden verstrekt met de automatisch aangegeven dialoog of als een samengestelde kolom. Het is belangrijk te merken dat indien een verenigde kolom wordt gebruikt, alle niet-verenigbare cellen de volledige kwantitatieve waarde zullen weggooien. Een sjabloon voor een kwantitatieve waarde is dus ofwel altijd een eenheid minder, ofwel altijd één eenheid.

Geografische coördinaten

Geografische coördinaten worden als strings met de volgende formaten gespecificeerd, waarbij alle componenten in graden een floating point nummer zijn:

  • breedtegraad, lengtegraad (latitude,longitude) voor een standaard precisie van tien micrograden (bijvoorbeeld: 49.265278,4.028 611 kan worden gebruikt om de positie van Reims (Q41876) aan te geven).
  • breedtegraad, lengtegraad, precisie</code (latitude,longitude,precision) bij het specificeren van een expliciete precisie (bijvoorbeeld: 49.265278,4.028611,0.1 kan worden gebruikt om de positie van Reims (Q41876) binnen een tiende van een graad aan te geven).

Alle geografische coördinaten staan op Earth (Q2).

Als uw coördinaten in een ander formaat zijn, zoals 49° 15′ 55″ N, 4° 1′ 43″ E, moet u ze eerst omzetten naar het decimale formaat.

Media op Commons

Media op Wikimedia Commons worden als strings behandeld, waarvan de waarden precies overeenkomen met de bestandsnamen op Commons. Deze waarden worden tijdens schema-evaluaties niet gecontroleerd: als ze verkeerd zijn, zal het uploaden van de verklaringen mislukken.

Getabelleerde gegevens en Geoshapes moeten als voorvoegsel de Data: namespace hebben. Dit wordt aangegeven door de placeholder in het veld dat verschijnt bij het bouwen van het schema.

Eigenschappen

De eigenschappen zijn altijd constanten: nu is er geen manier om een kolom met eigenschappen te koppelen. Ze moeten worden geselecteerd met de automatisch dialoog met suggesties.

Overige datatypes

URL's, wiskundige uitdrukkingen en andere tekstdatatypen worden ondersteund en behandeld als strings. Op het moment van schrijven worden alle door Wikidata ondersteunde datatypen ondersteund door OpenRefine.

Het is vanaf mei 2024 niet mogelijk om sitelinks toe te voegen, te wijzigen of te verwijderen.[1]

Referenties

  1. Onderwerp "Adding also sitelinks to Wikidata while reconciling" op Github.