elitaPoznate zaujimave weblogy?

Zostavuje sa slovenska bloggerska elita pre rok 2008

Minuly rok Vas zaujala, co nove bude teraz?

18. máj 2007 10.10 WEB

Čo na internete je ale vyhľadávače nevidia

V poslednej dobe ma zaujala nie veľmi objavná myšlienka ale vrátilo ma to z rozbehnutého rýchlika "všetko rieš cez vyhľadávače" do trošku menej nadšenej reality.

Vyhľadávače ako Google sa totiž môžu snažiť koľko chcú ale nenaindexujú úplne všetko. Dokonca ani obsah, ktorý je živému človeku pomerne jednoducho a nekomplikovane dostupný, tak práve ten vyhľadávače nenájdu, nech sa snažíte zadávať akékoľvek výrazy.

Týka sa to najmä rôznych databázových systémov, kde tie "skryté" dáta sa zobrazujú trošku viac komplikovaným systémom ako púhym kliknutím na odkaz. Napríklad úplne postačí ak vaša stránka nejaké dáta zobrazí až po zadaní nejakých informácií vo formulároch. Typicky je to napríklad vyhľadávač PSČ na webe Slovenskej pošty, či obsah iného vyhľadávača - typicky Google robot asi nenaindexuje výsledky vyhľadávania iného fulltextového vyhľadávača aj keď pokusy parazitovať na tom existujú (často v Google máte medzi výsledkami aj odkaz na iný vyhľadávač, ktorý má šikovne podstrčený výraz, ktorý ste zadali pri googlovaní).

Takže je to nejaký problém? No môj nie. Možno je to skôr obchodný problém. Ak si vo svojom eshope niekde odrežete cestu napr. ku svojim dobrým popisom produktu, ktoré sa zobrazia až nejakým javascriptovým "tlačítkom" či sa vaše produkty zobrazia komplikovaným "vyhľadávacím formulárom", tak všetky tieto dáta Googlu "zakážete". Rovnako je to aj u spomínaného príkladu Slovenskej pošty. Ak do Google zadáte "PSČ ulica mesto", tak vo výsledkoch naozaj nebude informácia o tom, že je to k dispozícii na ich stránkach. Len preto, že vyhľadávač PSČ je riešený iba ako formulár.

Keď už vyťahujem "samozrejmosti", tak napríklad netreba zabúdať, že informácie uložené na internete sú vo vzťahu k len nedávnej minulosti vlastne nehorázne nové. Stačí si spomenúť, že pred 15-20 rokmi sa na internet nič moc neukladalo a celý obraz vtedajšej prítomnosti internet nemohol zaznamenávať. To isté platí aj o tom, že už z princípu sa kvantum ďalších informácii na internet ani teraz nezaznamenáva. Na toto pamätajte keď si budete myslieť, že na internete je všetko. Nie je, a ani z toho veľmi veľkú časť nemôžete ani teoreticky nájsť.


Pokiaľ sa ti zdá, že tento článok by sa hodil do výberu zaujímavých stránok, tak ho sme.sk pošli do vybrali.sme.sk

Komentáre k obsahu príspevku:

Chcete napísať nesúhlasný komentár? Prosím, zvážte nasledovné: je šanca, aby niekto zmenil Váš názor alebo chcete iba trvať na svojom? V prvom prípade sú Vaše slová vítané.

Chcete urážať? Nepíšte sem urážky a invektívy. Každý, kto na týchto stránkach publikuje je automaticky (doplňte vhodný výraz). Takže už to všetci vopred vieme, čo si myslíte a preto sa neopakujte.

  1. [1] dusoft, 18. máj 2007 12.03

    Cielom autorov onych skrytych databazovych systemov by malo byt ich spristupnenie indexovaniu vyhladavacmi. Vacsinou je to velmi jednoducho riesitelne cez generovanu mapu stranok, v tomto pripade mapu odkazov na databazove polozky (to plati aj pre OR SR a podobne).

  2. [2] burdo, 18. máj 2007 12.30

    data schovane za formularmi su sice "neviditelne" pre vyhladavace, ale samozrejme existuju web data extraction frameworky, ktore simuluju aktivity uzivatelov na ziskanie dat z hidden/deep webu

  3. [3] rony, 18. máj 2007 12.51

    [1] nemusia ten ciel vobec poznat, naviac by museli viac programovat, ci dokonca to ani nevedia spravit, lebo pouzili nejaky instantny system, kde to je doslova nemozne dorobit. a mozno je to aj prirodzena selekcia - ak to nevies spravit, zrejme by si aj tak iba preplnil vyhladavac nezmyslami (renundantnymi datami)

    [2] ano, to som nenaznacil ale aj o tom je samozrejme vediet. otazka je, ci su taketo vyhladavace vobec prakticky pouzivane resp. obsiahlejsie vyuzivane.

    Kto vie, ze ma "skryte" data mozno vytvori k svojim datam nejake API a kto chce, moze si nezavisle na nom urobit vytahovanie dat. Ak su to data, ktore chcem poskytovat ale nechcem to robit sam, tak necham cestu inym.

    Neviem sa rozhodnut, ci je dobre alebo zle, ze znacna cast dat na internetovych vyhladavacoch nie je.

    Co ale prizvukujem je fakt, ze internet zacal v realnom case odrazat nasu historiu iba do svojho vzniku a to je kratky cas...

  4. [4] burdo, 18. máj 2007 13.35

    [3] ak prakticky znamena komercne, tak ano. ak masovo, tak nie ;-)

  5. [5] dusoft, 18. máj 2007 15.25

    web data extraction frameworky - to je sporne - pri napr. nejakych operaciach musis vkladat do tych systemov nezmyselne udaje, aby si sa dostal dalej. cize zaplavujes system niekoho nezmyslami. to nie je cesta.

  6. [6] burdo, 18. máj 2007 15.54

    [5] prosim nejaky priklad, nech jeden nerozprava o A a druhy o B

  7. [7] dusoft, 18. máj 2007 18.13

    no, predpokladame, ze to chces pouzit na extrakciu dat zo stranok, ktore su pristupne len cez formular. v tomto pripade, ale vystavuje formularovy system riziku zadania nejakych udajov do formulara - casto musis zadat aj nieco manualne, aby si sa dostal dalej.

    predstav si, ze chces pustit extraction framework na nejaky system, ktory ma rezervacie alebo podobny typ akcie - v tomto pripade pustat robota na nieco, co chce od teba udaje - predpokladam, ze web framework spravi len to, ze tie udaje si vymysli - vymysli si meno, atd. a vykona nejaku akciu, ktora ma nasledky rozne.

    ak je ale cielom ziskat pristup ku stranke, ktora je az za formularom, inak sa k nej nedokazes dostat.... cize tam je to riziko odosielanie blbosti cez fomular.

    ak je cielom cisto prejst nejaky formular typu ORSR, tam problem nevidim.

  8. [8] Gabriel, 21. máj 2007 00.12

    To, co popisujes v clanku je iba jedna z prekazok, ktore je potrebne riesit pri aplikacii SEO. Je to rovnaka prekazka ako napr. flash ci javascriptove menu a pod. Proste veci, cez ktore crawler vyhladavaca nepreleze pri indexovani na dalsiu stranku.

  9. [9] rony, 21. máj 2007 08.47

    [8] to samozrejme k skrytemu webu patri. samozrejme prípad "skrytia" databázy za formulár odtieni spoľahlivo kopec informácii. Chcel som uviesť príklad slovenskej pošty práve preto, že na ne sa až tak veľmi nemyslí.

  10. [10] 2ge, 11. jún 2007 13.21

    myslim si ze, je skoda nespomenut GET a POST pri formularoch. Ak je formular rieseny cez GET, tak ho google a ine vyhladavace urcite skorej zaindexuju ako cez POST. Myslim si - dalsia vec - google sa dostava k takymto URL cez toolbar, cize user co ma google toolbar, zada napriklad do ORSR ICO, a google sa dozvie o takomto odkaze, ktory neskor zaindexuje (aspon by mal...)

  11. A tvoj názor?






Podmienky pre Váš komentár: Tlačidlo na odoslanie stlačte 1x, v texte nenadávajte, nevkladajte linky za účelom SEO, nepropagujte, Váš text musí mať zmysel, neporušujete vlastnícke práva majiteľa tejto stránky, ste pravidelný čitateľ tejto stránky, komentujete príspevok (nie erupcie Slnka) a nemýlite si komentáre s kvákacími fórami a chatom. Používajte formátovanie TEXTILE najmä na odkazy! Rozumiete tomuto poučeniu? áno, nie alebo Týmto sa pošle komentár?



Čítal som

Stručne komentované stránky, ktoré ma zaujali:



kde to ste?

príspevky

média


Čítaš Spravodaj? Klikni na Surf.sk!

WebHosting: WebServer.sk

Na také to domáce ukladanie veľkých súborov Kotuha.com

Dva šifrované gigabajty zadarmo pre vaše súkromné zálohy na mozy

Späť na obsah

Textile

Pomocník pre formátovanie komentárov pomocou Textile

_zošikmenie_

*ztučnenie*

??citácia??

Číslovaný zoznam: #

Odrážkovaný zoznam: *

"popis odkazu":odkaz