Webové agregátory môžu byť agresívne

Webové stroje pre načítavanie a spracovanie RSS/Atom delíme na dve odlišné skupiny:

  • webstránka, ktorá načítava rôzne zdroje a potom ich obsah vkladá do svojich dokumentov. Zvyčajne ide o menej interaktívne stroje spojené s katalógom zdrojov pričom zaevidované zdroje proste periodicky načítava. Príkladom týchto strojov je weblogy.sk, weblogy.cz, blogportal.cz
  • webstránka, ktorá umožní používateľovi založiť si konto, pridať svoj vlastný výber zdrojov. Ide vlastne o simulátor bežnej čítačky RSS/Atom. Príkladom je bloglines.com

Tie prvé sú viac alebo menej hlúpe stroje, ktorých zmysel, účel a využitie je viac alebo menej diskutabilné. V prvom rade zrejme slúžia ako bočný výsledok iných zámerov alebo iba na uspokojenie ega vývojárov, že zvládli nejakú inú aplikáciu ako je vytváranie bežných webových prezentácií na zákazku. Skriptov, ktore odbremeňujú nutnosť vyvíjať parsery XML kódu sú voľne dostupné a viac alebo menej postačí teda to ošatiť nejakým vzhľadom a ponechať stroj aby obehával zaevidovené zdroje. Čitateľ tak dostáva akési statické spravodajstvo bez veľkých možností ovplyvniť jeho obsah či zaraďovanie.
Tieto webové agregátory, aspoň tie naše, na aktualizáciu obsahu používajú zrejme najjednoduchšie riešenie: obehnem raz za pevne stanovenú dobu všetky zaevidované zdroje.
Práve v tomto je faktor, ktorý môže radikálne ovplyvňovať výkon strojov svojich obetí.
Rád by som zacielil nie na kampaň za zrušenie týchto webstránok. Pokiaľ má ich autor pocit, že kona dobro ľudstvu, nemožno mu ho upierať (ten pocit, nie fakt, či ide alebo nie o konanie dobra).
Určite by som však zvážil predvídavú optimalizáciu aktualizácie a to v týchto bodoch:

  • nenačítavať periodicky každý zaevidovaný stroj,
  • pre katalógové funkcie obmedziť prihlasovanie zdrojov výhradne na konto svojich používateľov a to vrátane prvotnej kontroly zadaných údajov (syntaktická kontrola, dodatočné overenie e-mailom, veľkosť súbora so zdrojom, počet záznamov v zdroji a pod.),
  • dôležité je kontrolovať zmeny v obsahu zdrojov; pokiaľ pri druhom načítaní obsahu zdroja nedošlo k zmene (je rovnaký ako pri poslednom načítaní), automaticky predĺžim dobu, po ktorej bude zdroj znova overený; čiže pokiaľ sa zdroj nezmenil, najbližšie ho skontrolujem o 24 hodin, ak ani potom sa nezmení, tak až o 7 dní. Pokiaľ sa nezmení napr. tri mesiace, deaktivujem ho a používateľa, ktorý tento zdroj zaevidoval pri jeho prihlásení upozorním, aby si ho znovu „aktivoval“. Pokiaľ to používateľ neurobí, tak záznam o zdroji z databázy vymažem úplne,
  • pokiaľ je doba načítavania obsahu zdroja výrazne dlhšia, súbor so zdrojom sa náhle zväčší alebo „zmizne“ okamžite tento problém riešim podobnými mechanizmami ako v predošlom bode,
  • nezaraďujem ako „nové články“ z jedného zdroja vo väčšom množstve ako pár najnovších kusov najmä z dôvodu možného tapetovania (to sa vyskytuje napríklad na weblogy.sk), v takých prípadoch opäť riešim aj optimalizované zobrazenie v štýle: zobrazím iba jeden článok (nadpis, perex) a pokiaľ bolo v jednom dni článkov viac, pod neho vložím odkaz „Ďalšie články z tohto zdroja“,
  • pokiaľ spätne syndikujem hromadné RSS, podobným spôsobom optimalizujem jeho obsah a miesto tupého zaraďovanie „čo príde, to tam ide“ riešim čo najväčšie zníženie počtu prírastkov „zoskupovaním“ – v hromadnom RSS nemá čo robiť desať odkazov na 1 web z 20 možných pri počte zdrojov niekoľko sto pre celú databázu, nakoniec je takto optimalizované RSS omnoho príjemnejšie ako terajší spôsob.

Pokiaľ tieto body nie sú v algoritmoch systému, potom je ich existencia skôr príťažou. Ich nálet na RSS zdroje jedného hostingu, ktorý poskytuje tisíce RSS zdrojov môže mať naozaj nepredvídateľné následky. Treba naozaj zvážiť, či uspokojenie ega developerov „pozrite, urobili sme takýto systém“ je vyvážená skutočným úžitkom.

  • žiadna desktopová čítačka nebude tak agresívna ako webový agregátor pretože čítačka nebeží 24/7 ale webový cron žije a načítava neustále. Preto musíme svojim načítavacím systémom prikázať nech žijú podľa dennej doby a toho ako sa v tej ktorej dobe „publikuje“.

Dovolím si pripomenúť, že katalógových systémov je pomerne hodne a každý ďalší iba znepríjemňuje situáciu, či je dobrý, lepší, horší, majiteľom RSS zdrojov. Okrem tapetárov a pochybné zdroje, ktoré link v novom katalógu uvítajú za každých okolností.

Môže sa Vám ešte páčiť...

17 komentárov

  1. Bystro píše:

    :-) Vas RSS subor ma 8,11 kB. Ak si ho raz za hodinu stiahne nejaky agregator, naozaj si myslite, ze tym posle ku dnu server, na ktorom hostujete svoju web stranku? Nejako mi to asi nedochadza :-)

  2. rony píše:

    Bystro, nechci aby som si myslel, ze si nedokazes predstavit kriticku situaciu!
    Poznam ludi, ktorym vadi, ze si 10x do dna stiahnes jeho RSS ked jeho weblog je aktualizovany tak raz za pol roka.
    Mal by si pripojit, ze si prevadzkovatel podobneho systemu, potom by bol tvoj postoj a reakcia pre citatela zrejmejsia. Bez tohto faktu to znie ako poznamka cloveka, ktory si predstavil iba najpriaznivejsiu situaciu a to, ze z celeho trafficu je RSS najmensie.
    Ale prezradim ti, ze aj Spravodaj ma traffic od RSS v desiatkach percent celeho zvysku. A to nepovazujem Spravodaj za ohrozenie od tych 10tich webovych agregatorov, ktore si moje RSS snad nacitavaju. Lenze poznam aj weby, kde JEDEN agregator urobi iba stahovanim RSS 20 percent celej prevadzky a zo zdrojov servra vyberie tiez podiel radovo v desiatkach percent!
    Toto snad nemusim vykladat inteligentnemu cloveku, za akeho ta povazujem. Iba ak by si si chcel iba pichnut mierne povedane „urazene“.
    Pri pisani som na weblogy.sk nemyslel, skor na iny cesky agregator, ktory sa rozhodol stahovat RSS asi 20x za minutu. Lenze som nechcel byt konkretny ale skor vseobecne napovedat, ze treba mysliet predvidavo.
    Inak: neverim, ze weblogy.sk riesia ktorykolek z bodov, ktore som opisal. A nie su vsetky z mojej hlavy, aby bolo jasno!

  3. rony píše:

    Bystro, chces teda povedat, ze ked 8 kilo na 1 web je prkotina, tak vsetko, co som napisal, nestoji za uvahu. Dufam, ze ASPON to nie. Tentoraz porusim moju zasadu nevyzadovat v komentaroch na Spravodaji odpoved, a ziadam trosku menej odjebavacky komentar ako ten splech co si vypotil. Prosim neuraz sa ale to co si napisal bola podpasovka, takze reagujem v tejto rovine akou si zacal ;-) Bol by som radsej konstruktivnejsim komentarom, ale zrejme nemozem cakat od „trafenej husi“ nic ine len snahu o podryvanie. Chcem sa v tom co som teraz povedal mylit. Dokaz je ale na tebe. Uprimna vdaka.

  4. SuE píše:

    tak ho napiš, ať víme, kam nemáme dávat svoje blogíšššky :-)

  5. Bystro píše:

    :-) Napis administratorom inkriminovaneho ceskeho agregatora, ktory stahuje 20x/min… :-)

  6. rony píše:

    blogportal.cz ale nechcem tym vyvolavat nejaku aferu alebo co. proste iba navrh systemu nepredpokladal, ze moze sposobovat niektorym za nepriaznivych okolnosti problemy. preto som clanok formuloval ako dobre mienene navrhy na rozvoj a nie slepu kritiku.

  7. sloper píše:

    rony, sprostredkovavaj svoj RSS cez FeedBurner a nebude ta trapit traffic :-)

  8. rony píše:

    [7] ked pisem, nemusite vy citatela vztiahnut popisovane problemy ako osobne. Spravodaj s tym, co pisem ma spolocne iba to, ze si osobne myslim o jednotlivych bodoch, ze su nevyhnutne vzhladom na odhadovany buduci vyvoj.
    Spravodaj MA sice daleko najvacsi diel trafficu (pocty dotazov a myslim aj objem) v RSS ale nie je to pre mna zivotny problem, co pochopi kazdy, kto sa trochu vyzna v hostingu.
    Spravodaj zo svojej strany urobil maximum opatreni pre minimalizovanie RSS: nepretazuje ho velkymi objemami, nedava do neho DESIATKY poloziek (dost neprijemne u blog.sme, BOHUZIAL akosi nechcu pochopit, ze je to zle a ani nevytvorili alternativu). A vyvoj si iste vyziada aj generovanie zatial nepouzivanych drobnosti ako datumy expiracie, predpisana minimalna perioda pre citacky a dalsie agregatory…
    FeedBurner som objavil u teba ale podotykam, to je riesenie pre individualne stranky a iba tym presunies pokial viem zmenis iba stroj, ktory ta zatazuje :-)
    Vysvetlite mi, preco sa snazite v clanku precitat nejake nechutne tajomstvo medzi riadkami? Toto je weblog, ak by som chcel byt priamy, tak napisem priamo co ma sere ;-)
    Inotaj v clankoch pouzivam ale tu odhali pozorny citatel lahsie ako neexistujuce ne(dvoj)zmysly ;-)

  9. sloper píše:

    [8] ok, ok, ok :-) ale este ta poopravim – nezmenis iba stroj, ktory ta zatazuje. Ty totiz budes zatazovany len jednym FeedBurnerom (navyse bez agresivneho intervalu) a desiatky, stovky citaciek a agregatorov budu zatazovat FeedBurner, teba uz nie ;-) Takze pekny filter pre toho, koho traffic od citaciek trapi.

  10. rony píše:

    [9] ano, jasneze mas pravdu. Razim vsak zasadu, ze cim viac serverov „sa sklada“ na tej konstrukcii, ktoru u seba nazyvam Spravodaj (a ini maju svoje mena), tym je to lepsie.
    Takze horkotazko akceptujem rozne tie pocitadla, dokonca zvazujem, ze javascript Google Analytics umiestnim u seba.
    Mam vzdy neprijemne skusenosti z toho, ze napr. z nefunkcnosti cudzej sluzby obvinuju vzdy teba ;-)
    Teraz mam ten pocit prave z del.icio.us, pocas jeho obcasnych vypadkov sa nezobrazia nekomentovane odkazy a na rovinu poviem, ze pre mna je to 50% „publikovania“ na Spravodaji, obcas by som chcel, aby to bol pre citatela rovnako vyznamny zdroj ;-)

  11. dusoft píše:

    OT [10]: ak cces, aby to bol rovnako vyznamny zdroj, davaj to do RSS s nejakou poznamkou na zaciatku hoc:
    [NO] Bla bla bla
    .
    .
    ja sem chodim len cez RSS, nekomentovane odkazy preto nevidim.

  12. Piki píše:

    [9] K pouzivaniu cudzich sluzieb mam rovanky postoj. Co si slovek moze urobit vlastnymi prostriedkami je skoda zverovat inam. Potom po sieti lietaju data ta a spät a stale dookola pre nic. O spominanych vypadkoch ani nehovoriac.
    Zasluzna kazda osveta veduca k znizeniu zbytocneho trafiku na cudzom webe. Popisovany problem mi pripomina plytvanie s vodou cez nefunkcny splachovac. Kvapka ku kvapke a pritom by satcilo venovat 15 minút oprave tesnenia.

  13. rony píše:

    [11] nechcem vytapetovat blogportal.hlava.net ani weblogy.sk kratce.cz a dalsie ;-)
    ma ale teraz napadlo, ze by slo robit nejaky suhrn nekomentovanych raz za tyzden, cim sice ich aktualnost brutalne potlacim ale co uz :-)

  14. SuE píše:

    co kdybys to dal do jiného kanálu?

  15. rony píše:

    [14] spravna otazka, on ten carovny del.icio.us uz RSS kanal poskytuje, takze je k dispozicii na uvodnej stranke v takom roztvaracom okienku menu uplne hore (januar 2006 – datum kvoli moznemu redesignu) medzi RSSkami.
    Inak: http://del.icio.us/rss/rony/

  16. dusoft píše:

    pozrel som, zopar zaujimavych veci zaznacil aj u seba.
    http://del.icio.us/dusoft/

  17. sloper píše:

    [12] nuz, konkretne ja, ako uzivatel Blogger, som nuteny FeedBurner pouzivat, inak obecne suhlasim, inostrannych sluzieb co najmenej…