Milan Kryl

Kryl Blog - RSS

Google Proxy Cache

25. 04. 2006 - 10:30

Google připravoval aktualizaci vyhledávání s kódovým označením Big Daddy. Nyní je již nová infrastruktura v provozu a s ní i několik změn, které můžou být pozorovatelné i zvenčí. Jednou z vlastností je i Crawl caching proxy.

Nová infrastruktura pro úsporu peněz

Google LogoHlavním záměrem vytvoření této proxy byla úspora peněz. Kromě toho, že se nyní již Googlebot bude snažit stahovat všechny stránky za pomocí gzip kódování, je další optimalizací tato Crawl caching proxy.

Veškeré požadavky, které jsou směrovány na webové stránky jdou přes jednu proxy cache. Jedná se nejen o požadavky Googlebotů, ale také robotů sbírajících stránky pro reklamu AdSense (roboti Mediapartner).

V případě, že je stránka požadovaná několikrát za den, tak se místo opakovaného stahování z webu použije obsah stránky stažený ve vyrovnávací paměti této proxy cache.

Gzip kódování

V minulosti se mohlo stát, že Googlebot s UserAgentem "Googlebot/2.1 (+http://www.google.com/bot.html)" mohl použít komprimované stažení stránek. U nového bota s UserAgentem "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" by to již mělo být pravidlem.

Úspora peněz

V obou případech jedná o malé úspory datového provozu. Nicméně z pohledu velkých objemů dat, které Google při indexaci více než 8 miliard stránek dělá, je to již vidět znatelně.

Podvodníci budou mít problémy

V případě, že se někdo snaží předhazovat různým robotům Google jiný obsah stránek, tak může zaplakat. Stránky předhozené robotům Mediapartners se klidně objeví ve vyhledávání a nebo se naopak stránky stažené pro vyhledávač použijí pro vkládání AdSense reklam.

Matt Cutts - Crawl caching proxy

Inside Google - Google Crawl Caching Proxy

 

Tip: Krátké zprávy a zajímavosti (rychlý přístup https://kryl.info/kratce)

Související