Občas mi vadia PDF vo výsledkoch Google
Pochopil som snahy Google priniesť výsledky hľadania v rámci potrieb používateľov a to aj napriek invalidite poskytovaného obsahu na ním indexovaných stránkach.
Dôvodom, ktorý viedol Google k zaindexovávaniu PDF je práve fakt, že ľudia tvoriaci obsah často ho schovali do PDF. V tomto smere je prehľadanie obsahu PDF prínosnejšie – pokiaľ som zúfalý, nepohrdnem ani informáciou v PDF.
Horšie je, pokiaľ mám v PDF totožný obsah ako v HTML. Pokiaľ mi teda Google ponúkne ten istý obsah ako PDF a ako HTML, som v koncoch. V horších prípadoch mi takéto duplicity vytapetujú výsledky vyhľadávania.
Často – najmä u viac odborných výrazov – mi vážne Google ponúkne výsledky z polovice v PDF. Z mojej subjektívnej skúsenosti mi viac pomáha obsah formátovaný v HTML a tie PDF dokumenty sú často „mimo misu“ :-)
Veľmi ma teší, že si programátor dá prácu a stiahne si trebárs knižnicu fpdf (nepoznám nikoho, kto by si napísal vlastnú PDF knižnicu) a zabuduje do svojich stránok. Lenže v momente, keď celý obsah ponúkne v „PDF kópii“ dochádza ku kontraprodukcií.
Riešením by bolo nenechať Google indexovať duplicitný obsah. A to aj v prípadoch, že máme zo strategických dôvodov stránky na rôznych doménach ako alias. Radou ako to urobiť je: generovanie PDF z istej URI (http://domena/pdf/?parametre) a tento adresár zakázať robotom indexovať.
Pregenerovanie obsahu stránky do PDF je užitočná interaktívna funkcia, ale ako „žrádlo“ pre Google to nie je nič moc.