Utajovať alebo publikovať svoje štrukturované dáta?

Štrukturované dáta sa používajú na ich vliepanie do webstránok a ako také nie sú utajovanými informáciami. To, čo býva predmetom utajenia je skôr to ich štrukturovanie a poskytovanie takejto formy verejne. Prečo to môže byť vynikajúca možnosť propagácie samého seba a kedy nie?


Z pohľadu konkurenčného boja môžu byť napr. štrukturované dáta (cenník, zoznam ponúkaného tovaru) cenným zdrojom pre analýzu skladby položiek, cien, ich vývoja práve pre konkurenciu. Takže taký eshop má zrejme záujem chrániť takéto dáta pred únikom. Toto celkom chápem.
Rovnako môžu prevádzkovatelia rôznych, inak verejne prístupných, informačných stránok mať názor, že ich dáta neposkytnú v rámci „rozhrania“ aj v štrukturovanej forme napríklad kvôli umiestnenej AdSense. Tu sa už dá diskutovať, či utajenie má zmysel alebo by to možno providerovi pomohlo v sebapropagácii svojich služieb. Príkladom takýchto dát je napr. kalendár podujatí nejakého výstaviska.
Pekný príklad blbej situácie je napr. poskytovanie TV programov. Keby samotné televízie premýšľali, tak by mali naskočiť na vlnu poskytovania svojich TV programov v XML formáte (XMLTV). Prečo by to mali urobiť? Pretože práve to im môže pomôcť k tomu, čo ich zaujíma – sledovanosť. Stačilo by publikovať na svojom webe súbor so štrukturovaným TV programom a nechať ho voľne k dispozicii. Každá TV, ktorá to urobí tým otvorí cestu k zaradeniu do rôznych počítačových programov, ktoré dokážu daný formát spracovať. Tým sa samozrejme informácie o ich atraktívnom programe dostane ešte ďalej a ešte pohodlnejšie. Nehovoriac o tom, že touto cestou si neodrežú nikoho ale naopak – rozšíria informácie o sebe ešte lepšie ako najlepšie spracovanou kampaňou.
Podivné mi napr. je, že verejné služby neposkytujú informácie štrukturovane: Dopravný podnik neposkytuje cestovné poriadky, medzimestské autobusové linky a vlakové poriadky nie sú takto poskytované, Obchodný register, naozaj štrukturovaný zoznam PSČ.
Naopak pekný príklad je NBS, ktorá už naozaj dlho poskytuje rôzne čísla aj v štrukturovanej forme.
Prečo napr. nemá nejaký katalóg webstránok API: pošlem po URL dotaz a naspäť sa mi vrátia nejaké dáta. Čojaviem výsledok hľadania. Kľudne nech je to len prvých päť výsledkov. Môže sa to hodiť ľuďom ak by chceli do svojej stránky zabudovať nejaké kontextovo orientované „boxy“. Podobne eshopy – idea, že si blogger do stránky zabuduje kontextový box, ktorý zobrazí podobné položky k tomu, o čom píše je pozitívna vec pre obe strany.
Dnes je už normálne aby web mal RSS kanál a tým naskočil na vlak poskytovania štrukturovaných textových (spravodajských) informácii ale na súbežnej koľaji ide aj náklaďák s dátami. Koniec koncov, ak mi vadí možnosť zneužitia, tak obmedzím rozsah položiek na mnou akceptovaný, vymedzím si podmienky použitia atď. Podľa mňa to treba skúsiť aspoň ako metódu šírenia informácii nad rámec vlastného webu.
* Štruktúra hromadne vyrábaného CMS je bezpečnostné riziko
* Web2.0, API a PHP, díl první

Written by rony

6 komentárov

Pavel Novotný

Strukturovaná data jsou velký byznys. Například na českých jízdních řádech se vydělává hned několikrát, když jejich zpracování „sponzoruje“ stát prostřednictvím Ministerstva dopravy (a dříve také Ministerstva informatiky), dále se v nich zobrazují velekvanta reklamy (která překáží a znemožňuje jejich slušné použití) a navrch je ještě portál iDnes využívá jednak ke zvýšení svého „podílu“ v statistikách návštěvnosti a zároveň jako kanál, který jim na stránky přivádí další a další čtenáře. Takže poskytnout tato data veřejně, aby je mohl někdo využít třeba pro mnohem kvalitnější službu nebo pro integraci do svých služeb, nelze očekávat. Snad kdyby stát tato data poskytl v zájmu svých občanů – to ale nelze v České republive očekávat, že?

rony

[1] ano, toto je proste znamy postup, kedy sa na tom istom niekolkokrat po sebe nabaluje :-)
ale napr. u eshopu by naklady na vyvoj primitivneho rozhrania vyvazili mozny benefit – ak to je hotove a publikovane az vtedy zistim, ci sa to u ludi chytilo alebo nie. Ak to hotove nemam, tazko mozem uvazovat nad tym, ci je to zbytocnost :-)
takze ak mam k dispozicii data, mal by som zvazit aj moznost ich distribuovat. Najma ak mam predpoklad, ze to moze byt zaujimave a zaroven v tom budem mat nejaku vyhodu, ci konkurencnu alebo len vo forme prestize ci uznania. Ak to totiz zacne robit niekto iny, tak to uznanie dostane on ;-)

Pavel Novotný

Co se týče e-shopů, ty už XML pro export dat běžně mívají. Využívá toho celá řada služeb, především všelijaké ty vyhledávače a srovnávače – v ČR třeba Jyxo, Centrum nebo Seznam.

Piki

V prípade B2C eShopu považujem poskytnutie surového xml ako chybu. Aj keď… Pokiaľ je človek lídrom v inováciách a nápadoch, tak by to mohlo byť možno aj prospešné. Ak ide o B2B tak mám pozitívne skúsenosti s tým, že je to prospešné a výnosné pre obe strany. A okrem iného, nikde nie je napísané, že xml musí byť len a len zadarmo.
Naopak, ak sa zameriame na štátnu správu, tak tam by som dokonca zákonom/vyhláškou, podobne ako sa rieši prístupnosť prikázal, aby dáta poskytovali vo forme, a to je dôležité, *verejného* XML a výhľadovo aby každý mal nejaké to API. (Problém a závisť na IDOS je práve v tom, že zdrojové dáta sú poskytované exkluzívne + miešanie štátnych a súkromných investícii, čo nie sú problémy XML, ale politika)
Áno, vznikne otázka „súkromná firma sa nabalí“ na interpretácii verejných dát. Hm, pozrite sa koľko mašupov je postavených nad Googlovskými mapami. Keby bolo len zlomok mašupov nad verejnými dátami, získali by sme skutočné „služby s pridanou hodnotou“. A za pridanú hodnotu im tie prímy z reklamy doprajem.

Pavel Novotný

2 Piki: Problém s IDOSem není v tom, že by mu někdo záviděl úspěch. Problém je v tom, že:
1. Stát (zákon) vyžaduje na dopravcích, aby na vlastní náklady dodávali státu data, která jsou označována za veřejně prospěšná (tedy náležející všem „členům“ státu).
2. Stát financuje soukromou firmu, která tato data pro něj zpracovává to by se dalo pochopit).
3. Stát poskytuje výhradní přístup (jiné) soukromé firmě na tato data (a to už je prostě sviňárna).
Jinými slovy jde o státem garantovaný monopol, který okrádá celou skupinu podnikatelů a soukromé firmě poskytuje exkluzivní data, na kterých si tato firma v klidu staví obrovský byznys.
Kdyby stát sbíral data a poskytoval je všem, aby je mohli využívat ve svých aplikacích nebo mashupech a podobně (a klidně třeba za určitý příspěvek na provoz systému), bylo by to OK.

Comments are closed.