ETL: RÚIAN ulice a exact match (P2888) edit

Zdravím. Nevím, jestli se ETL diskutuje/řeší někde centralizovaně, tak to zkusím tady: tohle mi nepřijde úplně ideální. Jednak samotná myšlenka vkládání exact match (P2888) je IMHO poněkud diskutabilní. To bychom tam asi mohli zduplikovat všechny externí identifikátory (nebo zcela přinejmenším všechny ty, co definují URI). A v tomto konkrétním případě to dokonce ani není pravda: Q11836932 popisuje celou stezku, [1] je jen část v Nelahozevsi, [2] je jen část v Kralupech, tedy se nejedná o přesnou shodu (ostatně, tranzitivně by bylo zjevné, že jsou shodné i oba RÚIAN elementy :-) ). --Mormegil (talk) 17:07, 28 November 2019 (UTC)Reply

@Mormegil: Zdravím. Odpovím postupně na jednotlivé části komentáře. Obecně jsem jednoznačně pro ty externí identifikátory, které definují URI, do dat explicitně dávat. Bez toho to URI vidí pouze lidští čtenáři a nejsou strojově použitelná v Query service pro integraci různých zdrojů dat. Otázka je, zda pro to použít exact match (P2888) - zde bych ale řekl, že ano. Tím, že se řekne, že je věc něčím externě identifikovaná přeci říkám, že to je přesně ona. U Q11836932 souhlasím s tím, že výsledek není úplně ideální. Nicméně ta neideální situace tam byla již dříve, pouze se více zviditelnila explicitním linkováním na URI RÚIAN. Otázka totiž je, zda vůbec měla mít stezka, která neodpovídá ulici v RÚIAN, mít 2 externí RÚIAN identifikátory, byť upřesněny kvalifikátorem. Čistší by bylo, kdyby stezka odkazovala (třeba i s těmi kvalifikátory) na ty 2 ulice v různých obcích, které už RÚIAN ulicím odpovídají 1:1. Vztah by byl zachován a jednoznačná identifikace také. Jakub Klímek (talk) 18:34, 28 November 2019 (UTC)Reply
@Jakub Klímek: Asi už je to dávno vyřešeno a věnujete se již něčemu úplně jinému, přesto ještě komentuji. Čistě datově vzato, pokud jedna ulice pod stejným názvem prochází více obcemi, nebo každá strana ulice patří k jiné obci, pak bychom ideálně asi měli mít tři položky: jednu pro celou ulici, a jednu pro část ulice v každé obci zvlášť (protože ty položky zastupují vždy jen část ulice). Ty obce se rozhodly lidem situaci zjednodušit a názvy "na švu" koordinovat, my s RÚIAN si to ovšem zase zpátky zkomplikujeme. V případě ulic to vypadá ještě docela přijatelně, rozsekat je na úseky nebo strany, ale v případě např. mostů (a ty docela často tvoří hranici, resp. jsou přepůleny hranicí) by mi to asi připadalo už praštěné, mosty už mnohem víc vnímáme jako jeden integrální celek, ať po něm vede sebevíc hranic, takže tam by asi stejně bylo nutné toto řešení ve stylu Dvořákovy stezky - tedy více identifikátorů a třeba i více názvů příslušejících k jednomu mostu zastoupenému jednou položkou. Pokud Praha pojmenovala část Pražského okruhu jen na svém území, jistě tím neměla na mysli, že ten neúplný pražský úsek je okruhem, tedy jako pojmenování samotného pražského úseku to ani nedává logický smysl - to pojmenování předpokládá, že ten okruh je jeden integrální celek s jedním názvem, i když Praha si odpovídá za označení jen na svém úseku. I v jiných typech případů, kdy se jeden objekt tříští do více položek (např. Stromovka jako "uliční název", Stromovka jako park, Stromovka jako kulturní památka, Stromovka jako přírodní památka, přitom jde stále o jeden a tentýž park), může se to někomu zdát jako přesnější (protože datem vzniku "přírodní památky" se tu nemyslí datum vzniku té přírodní entity, ale datum vzniku imaginárního institutu jeho ochrany, tedy té virtuální prázdné administrativní skořápky, a také přesné vymezení či rozloha se mohou pro jednotlivé "významy" nějak lišit), ale pak to docela rozbíjí mezijazykové a meziprojektové odkazy, protože s těmi vlastnostmi jako "část čeho" nebo "údajně totéž co" většina reálných nástrojů a rozhraní neumí příliš sofistikovaně ani efektivně pracovat.
Jiný, lehce související problém, který jsem si nyní vybavil, je, že RÚIAN převzal do nadpisu položek slovo "ulice", aniž by reflektoval, že to slovo je legislativní zkratkou pro ulici nebo jiné veřejné prostranství, což pak zbrklé interprety dat vede k tomu, že parky, náměstí, ostrovy, mosty, ba i celé menší čtvrtě či osady prohlašují za "ulice". K tomuto omylu přispívá i to, že tato pojmenovaná prostranství nelze v RÚIAN vyznačit polygonem jako plochy, což pak svádí k dojmu, že název obec určila jen těm několika čarám v mapě, například jednotlivým cestičkám či jizdním pásům či jejich síti, nikoliv celému prostranství. Pokud u mostů či parků máme uvedeno "instance of ulice", bije to do očí. Pokud jsme chtěli mít ve Wikidatech jednotné označení pro "uliční" názvy převzaté z RÚIAN, možná jsme si pro to měli vytvořit nějakou speciální položku např. "pojmenovaná ulice či veřejné prostranství" nebo "ulice v RÚIAN", a teprve druhotně se pokoušet nějakým algoritmem určovat, o jaký typ prostranství ve skutečnosti jde (např. adjektivní či genitivní názvy bez dodatečného údaje o typu prostranství asi budou většinou opravdu ulice) - ideální by samozřejmě bylo, kdyby údaj o typu prostranství byl do RÚIAN zadáván jako samostatný parametr vedle názvu, pro případ, že názvu nelze spolehlivě algoritmicky odvodit, a tím by zároveň taky bylo možné taxativně vymezit, co vše lze vůbec tímto procesem a touto formou pojmenovávat (Plzeň se pokoušela touto formou dokonce přejmenovat Berounku na Mži, to jí nakonec neprošlo). Na některé tyto problémy už jsem upozorňoval i provozovatele RÚIAN, ten by nějakému řešení byl snad i nakloněn, nicméně spousty problémů ohledně územní orientace váznou na pasivitě a nedovtipnosti ministerstva vnitra, které prakticky na žádné problémy ani podněty konstruktivně nereaguje. Například i popis, kde má být ulice tabulí označena, sedí jen na ty lineární ulice, zatímco na jiná veřejná prostranství (park, ostrov, kulaté náměstí) je obtížně aplikovatelný. Ale s tím nepružným a nedokonalým legislativním rámcem se asi musíte i vy potýkat dnes a denně. To, že v Dubé si do kolonky "orientační číslo" vyplnili zřejmě stará čísla popisná před přečíslováním, taky nikdo z MV ani z ČÚZK neřeší, protože zákon a prováděcí vyhlášky jim nedávají možnost obce usměrňovat. (Nás na Wikidatech se ovšem týká spíše to, že způsob zadávání adres do Wikidat je natolik chaotický a nelogický, že z nich dodnes neumíme ucelenou adresu ve standardním českém formátu kloudně vytáhnout. Čísla orientační se zadávají tu jako samostatná vlastnost, tu jako qualifier k ulici. Čísla popisná zpravidla jako samostatná vlastnost, ovšem při jejich zadávání nic nehlídá, aby je bylo možno spárovat s příslušnou částí obce. Pokud už ty údaje někdo spáruje (jeden z nich uvede jako qualifier k druhému), žádné výstupy s tím stejně nepočítají a neumějí pracovat. Atd. --ŠJů (talk) 08:12, 10 August 2021 (UTC)Reply
Je to poněkud dávno a máte pravdu, že už řešíme jiné věci, nicméně děkuji za obsáhlé vyjádření k problému. Nedá se než souhlasit s tím, že celá doména je složitější než pouze RÚIAN. Zasloužila by pořádnou analýzu a namodelování, například pomocí Sémantického slovníku pojmů, a řádné ontologické mapování pojmů z RÚIAN i z Wikidat, a dál zřejmě řádnou validaci Wikidata položek pomocí ShEx, aby synchronizace dat v doméně šla řádně automatizovat. Bohužel (opravdu mě to mrzí) nemám kapacitu se tomu věnovat, není to malý úkol. Jakub Klímek (talk) 14:08, 12 October 2021 (UTC)Reply