Čo na internete je ale vyhľadávače nevidia
V poslednej dobe ma zaujala nie veľmi objavná myšlienka ale vrátilo ma to z rozbehnutého rýchlika „všetko rieš cez vyhľadávače“ do trošku menej nadšenej reality.
Vyhľadávače ako Google sa totiž môžu snažiť koľko chcú ale nenaindexujú úplne všetko. Dokonca ani obsah, ktorý je živému človeku pomerne jednoducho a nekomplikovane dostupný, tak práve ten vyhľadávače nenájdu, nech sa snažíte zadávať akékoľvek výrazy.
Týka sa to najmä rôznych databázových systémov, kde tie „skryté“ dáta sa zobrazujú trošku viac komplikovaným systémom ako púhym kliknutím na odkaz. Napríklad úplne postačí ak vaša stránka nejaké dáta zobrazí až po zadaní nejakých informácií vo formulároch. Typicky je to napríklad vyhľadávač PSČ na webe Slovenskej pošty, či obsah iného vyhľadávača – typicky Google robot asi nenaindexuje výsledky vyhľadávania iného fulltextového vyhľadávača aj keď pokusy parazitovať na tom existujú (často v Google máte medzi výsledkami aj odkaz na iný vyhľadávač, ktorý má šikovne podstrčený výraz, ktorý ste zadali pri googlovaní).
Takže je to nejaký problém? No môj nie. Možno je to skôr obchodný problém. Ak si vo svojom eshope niekde odrežete cestu napr. ku svojim dobrým popisom produktu, ktoré sa zobrazia až nejakým javascriptovým „tlačítkom“ či sa vaše produkty zobrazia komplikovaným „vyhľadávacím formulárom“, tak všetky tieto dáta Googlu „zakážete“. Rovnako je to aj u spomínaného príkladu Slovenskej pošty. Ak do Google zadáte „PSČ ulica mesto“, tak vo výsledkoch naozaj nebude informácia o tom, že je to k dispozícii na ich stránkach. Len preto, že vyhľadávač PSČ je riešený iba ako formulár.
Keď už vyťahujem „samozrejmosti“, tak napríklad netreba zabúdať, že informácie uložené na internete sú vo vzťahu k len nedávnej minulosti vlastne nehorázne nové. Stačí si spomenúť, že pred 15-20 rokmi sa na internet nič moc neukladalo a celý obraz vtedajšej prítomnosti internet nemohol zaznamenávať. To isté platí aj o tom, že už z princípu sa kvantum ďalších informácii na internet ani teraz nezaznamenáva. Na toto pamätajte keď si budete myslieť, že na internete je všetko. Nie je, a ani z toho veľmi veľkú časť nemôžete ani teoreticky nájsť.
Cielom autorov onych skrytych databazovych systemov by malo byt ich spristupnenie indexovaniu vyhladavacmi. Vacsinou je to velmi jednoducho riesitelne cez generovanu mapu stranok, v tomto pripade mapu odkazov na databazove polozky (to plati aj pre OR SR a podobne).
data schovane za formularmi su sice „neviditelne“ pre vyhladavace, ale samozrejme existuju web data extraction frameworky, ktore simuluju aktivity uzivatelov na ziskanie dat z hidden/deep webu
[1] nemusia ten ciel vobec poznat, naviac by museli viac programovat, ci dokonca to ani nevedia spravit, lebo pouzili nejaky instantny system, kde to je doslova nemozne dorobit. a mozno je to aj prirodzena selekcia – ak to nevies spravit, zrejme by si aj tak iba preplnil vyhladavac nezmyslami (renundantnymi datami)
[2] ano, to som nenaznacil ale aj o tom je samozrejme vediet. otazka je, ci su taketo vyhladavace vobec prakticky pouzivane resp. obsiahlejsie vyuzivane.
Kto vie, ze ma „skryte“ data mozno vytvori k svojim datam nejake API a kto chce, moze si nezavisle na nom urobit vytahovanie dat. Ak su to data, ktore chcem poskytovat ale nechcem to robit sam, tak necham cestu inym.
Neviem sa rozhodnut, ci je dobre alebo zle, ze znacna cast dat na internetovych vyhladavacoch nie je.
Co ale prizvukujem je fakt, ze internet zacal v realnom case odrazat nasu historiu iba do svojho vzniku a to je kratky cas…
[3] ak prakticky znamena komercne, tak ano. ak masovo, tak nie ;-)
web data extraction frameworky – to je sporne – pri napr. nejakych operaciach musis vkladat do tych systemov nezmyselne udaje, aby si sa dostal dalej. cize zaplavujes system niekoho nezmyslami. to nie je cesta.
[5] prosim nejaky priklad, nech jeden nerozprava o A a druhy o B
no, predpokladame, ze to chces pouzit na extrakciu dat zo stranok, ktore su pristupne len cez formular. v tomto pripade, ale vystavuje formularovy system riziku zadania nejakych udajov do formulara – casto musis zadat aj nieco manualne, aby si sa dostal dalej.
predstav si, ze chces pustit extraction framework na nejaky system, ktory ma rezervacie alebo podobny typ akcie – v tomto pripade pustat robota na nieco, co chce od teba udaje – predpokladam, ze web framework spravi len to, ze tie udaje si vymysli – vymysli si meno, atd. a vykona nejaku akciu, ktora ma nasledky rozne.
ak je ale cielom ziskat pristup ku stranke, ktora je az za formularom, inak sa k nej nedokazes dostat…. cize tam je to riziko odosielanie blbosti cez fomular.
ak je cielom cisto prejst nejaky formular typu ORSR, tam problem nevidim.
To, co popisujes v clanku je iba jedna z prekazok, ktore je potrebne riesit pri aplikacii SEO. Je to rovnaka prekazka ako napr. flash ci javascriptove menu a pod. Proste veci, cez ktore crawler vyhladavaca nepreleze pri indexovani na dalsiu stranku.
[8] to samozrejme k skrytemu webu patri. samozrejme prípad „skrytia“ databázy za formulár odtieni spoľahlivo kopec informácii. Chcel som uviesť príklad slovenskej pošty práve preto, že na ne sa až tak veľmi nemyslí.
myslim si ze, je skoda nespomenut GET a POST pri formularoch. Ak je formular rieseny cez GET, tak ho google a ine vyhladavace urcite skorej zaindexuju ako cez POST. Myslim si – dalsia vec – google sa dostava k takymto URL cez toolbar, cize user co ma google toolbar, zada napriklad do ORSR ICO, a google sa dozvie o takomto odkaze, ktory neskor zaindexuje (aspon by mal…)