rel=Canonical diriguje robota od Google

Na nejakom mikroblogu som našiel rel=canonical bez bližšieho vysvetlenia. Označil som to myšou a pustil na to Googla z kontextového menu. (Google Translate z en do cz)
Iste si z minulosti pamätáte parameter rel=nofollow a viete, že takto označený odkaz by robot mal ignorovať. Nakoľko je to v súčasnosti účinné neviem ale zrejme si všetci povedia „aspoň to nič nepokazí“, tak to použijú napr. preventívne. Škoda, že málokto urobí aj niečo naviac – napr. „manuálnych“ spamerov vopred na to neupozorní.
Takže, čo som o rel=canonical pochopil?


Niektoré redakčné systémy generujú zložité URL, pričom na tú istú stránku odkazuje viacej ich verzií s rôznym počtom parametrov pričom niektoré z nich môžu byť nevýznamné (slúžia na identifikovanie relácii resp. neovplyvňujú zobrazený obsah inak ako vizuálne).
Lenže robot to nevie odlíšiť a preto si zaindexuje kvantá verzií URL a z nich si vyberie „podľa seba“ jedinu, ktorú uprednostní. Toto je problémom diskusných fór (PHPBB celkom určite) a takéto systémy sa pokúšajú „white cloaking“, kde pre roboty sa snažia poskytovať „výhodnejšie“ podmienky (s menším úspechom).
Parameter rel=canonical umiestnený v head sekcií HTML dokumentu by mal jednoznačne definovať URL akú autor webu preferuje.
Dokument Google ukazuje príklad obchodu s rybami, kde stránka s jedným produktom má viacej tvarov:
* http://www.example.com/product.php?item=swedish-fish
* http://www.example.com/product.php?item=swedish-fish&category=gummy-candy
* http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678
Autor stránky však do HTML dokumentu v sekcii head vloží
* <link rel=“canonical“ href=“http://www.example.com/product.php?item=swedish-fish“ />
Indexovací stroj vyhľadávača by podľa Google mal túto adresu uprednostniť a všetky „podobné“ adresy „zabudnúť“.
Osobne si myslím, že to bude prinášať problémy, pretože si neviem predstaviť nepriestrelný algoritmus, ktorý by skutočne odfiltroval identické stránky s rôznymi URL.
Predstavte si variantu URL:
* http://www.example.com/product.php?sessionid=5678&item=swedish-fish&trackingid=1234
* http://www.example.com/productprint.php?item=swedish-fish&trackingid=1234
A čo horšie „neparametrické“ URL:
* http://www.example.com/product/swedish-fish
* http://www.example.com/category/gummy-candy/product/swedish-fish
* pričom existuje aj http://www.example.com/category/newest/product/swedish-fish
Celá logika je na indexovacom stroji, ktorý sa sám nakoniec rozhodne, či si v indexe nakoniec nejakú tú kópiu neponechá a pri existencií váhovania dôležitosti (presnejšie jedinečnosti) nakoniec neurčí za „originál“ jeho „kópiu“ (so „zlou“ URL).
V Google dokumente o rel=canonical sa spomínajú možnosti použitia relatívnych ciest v parametri
* <link rel=“canonical“ href=“product.php?item=swedish-fish“ />
čo je dobre avšak pre weby fungujúce na viac doménach (www.example-example.org a www.example.org) by som to asi takto nevkladal do kódu (áno, mýlim sa v mojej úvahe).
Výslovne sa nedoporučuje rel=canonical používať na „presmerovanie“ na inú doménu. Tým padá moja predošlá (pár odstavcov vyššie) úvaha o výhode pre weby s viac doménami nad tým istým obsahom. Naďalej je najbezpečnejším spôsobom použitie presmerovania s kódom 301. Na tému presmerovania mám už pripravený článok s menšou optimalizáciou pre majiteľov diskusných fór nad PHPBB3 – vydržte, edičný plán ma nepustí.
Dokument potvrdzuje, že varianty
* http://starwars.wikia.com/wiki/Nelvana_Limited
* http://starwars.wikia.com/wiki/Nelvana
by mal index Google pri určení kanonickej URL (tá druhá) tú prvú „ignorovať“. Evidentne to teda funguje systémom „rezania reťazca zľava“ a asi by to nezabralo na
* http://starwars.wikia.com/wiki/Limited_Nelvana
Kľudne sa nechám prekvapiť, že áno prípadne vysvetlite spôsob fungovania.
Nezávislé zdroje doporučujú rel=canonical implementovať až po zlyhaní iných spôsobov konsolidácie variánt odkazov.
Napríklad máte starý web s nepreviazanými odkazmi (zmena odkazu ho nezamení za novú verziu v ostatných častiach webu) s kvantami variánt odkazov na tú istú stránku. Prípadne autor CMS proste nedokáže pochopiť význam pekných a jednotných URL.
Mňa momentálne napadlo použiť to na diskusné fóra pod PHPBB3, ktoré dosť trpia v indexe Google a zatiaľ sa mi nezdá, že by pre SEO boli tým pravým orechovým a to som včera jedno diskusné fórum skonsolidoval tak, aby som nemal návaly spamerských registrácii a hlavne zaindexované rôzne varianty domén (dve domény a každá dve varianty začiatku URL).
Druhú obrovskú možnosť naznačil už Google: eShopy.
Na Slovensku by sa tým mal zaoberať napr. webmaster humno.sk, HN, vybrali.sme.sk (áno má dve verzie URL), celkom iné problémy majú URL na tyzden.sk (tam ich navrhoval ignorant) – už len to dementné rovnaké TITLE na každej stránke hovorí všetko o rozhľade autora :-)
Trochu by sa tým dalo napomôcť na weboch SME.sk (ale tam konsolidácia URL vyžaduje aj ďalšiu prácu).
Takže máme tu rel=canonical? a môžeme hĺbať.
Google vyhľadal tieto dva slovenské články na túto tému
* http://www.svetdomen.sk/dalsi-krok-v-boji-s-duplicitou/
* Vyhľadávače začali podporovať nový SEO tag odstraňujúci duplicitu (pridajte si dsl.sk do zoznamu webov, ktoré by si mali URL skonsolidovať)
Prepáčte, že som doteraz nespomenul SEO - Search engine optimization :-)

Môže sa Vám ešte páčiť...

2 komentáre

  1. tiso píše:

    Si si istý že si celý čas písal o rel=canonical a nie o momentálnom (necanonical) stave?

  2. rony píše:

    [1] nerozumiem otazke, rozpis sa alebo daj link.