Milan Kryl

Kryl Blog - RSS

Jyxo a 50 miliónů odkazů

10. 12. 2004 - 06:37

Na Lupě ve zprávičkách informoval Martin Kopta o větším indexu Jyxa. Naindexovaných již více než 50 miliónů dokumentů. Stejně tak vyšla krátká zprávička (s méně informacemi i na Živě). Není to ale tak žhavé, jak to vypadá.

Martin píše: Fulltextový vyhledavač Jyxo včera dle sdělení zakladatele společnosti Michala Illicha překonal magickou hranici 50 milionů indexovaných dokumentů na Internetu. Konkurenční český vyhledavač Morfeo na titulní straně inzeruje ještě o osm milionů dokumentů více. To je zhruba dvakrát více, než pro českou doménu indexuje Google.

Jyxo mi kouzlí stránky navíc

Nejčastěji provádím testování na svých stránkách, ať už co se týká aktuálnosti poslední indexace a nebo počtu stránek v indexu. Momentálně jich mám něco kolem 520ti. Jaké bylo ale mé překvapení, že Jyxo tvrdí, že jich mám u něj naindexovaných 789!

Jal jsem se tedy prozkoumat, kde je zakopaný pes. 789 stránek je ještě pod hranicí tisícového limitu zobrazovaných výsledků. Ten má většina vyhledávačů stejný (včetně Google). Uživatelé navštěvují další stránky výsledků minimálně, tak omezení není na škodu.

Po páté stránce (po 15ti odkazech) jsem narazil na konec. Ale změnou parametru skip v url jsem se mohl dostat i za hranici doklikatelných 75 stránek.

Počet je zvýšován přesměrováními

Začal jsem listovat zobrazenými výsledky a hned na čtvrté stránce výsledků vyhledávání jsem narazil podezřelý záznam. Příspěvek s číslem 60 a starým url. Místo výpisu obsahu stránky tam byla pouze věta Přesměrováno na nové url.

Měnil jsem před nějakou dobou url příspěvků a komentářů na čitelnější (kromě čísla je tam i titulek článku). Takových přesměrovaných URL tam může být něco kolem 300 kousků. Což by zhruba odpovídalo.

Malá chybka se souborem robots.txt?

Navíc jsem souborem robots.txt zakázal indexaci rss kanálů (rss.php). Není žádné rozšíření, že by šlo zakázat soubor a všechny jeho parametry. Předpokládám, že pokud url obsahuje část /rss.php tak, že se do vyhledávače nedostane. Bohužel u jyxa tomu tak není. Je možné, že stránka zatím ještě nebyla znovu navštívena a je tam ještě z návštěvy před existencí souboru robots.txt. V tomto bych možná mohl Jyxu křivdit, a to bych nerad.

Přesměrování - jde o stránku?

Nemyslím si, že je přítomnost přesměrovaných stránek ve výsledku vyhledávání k něčemu. Uživatel se tak většinou dostane na některou stránku, která je již zobrazena někde výše. Pro mě jako hledajícího má téměř nulovou hodnotu. Zda se jedná o úmyslné zvětšování indexu (počtu výsledků) a nebo o uživatelskou funkci "navíc" nechám každému na zvážení. Nemyslím si, že by šlo o neschopnost tato přesměrování z indexu vyfiltrovat, když se u nich zobrazuje speciální popisek.

Hodně :) dokumentů

Hodně :) dokumentů v indexuA jako perličku na závěr ještě přihodím počet zaindexovaných dokumentů, který se z ráno uváděných 50 miliónů a nějakých drobných přehodil na hodně :). Jak můžete v ilustračním obrázku zde v článku. Během psaní příspěvku se již opět zobrazilo konkrétní číslo (pravděpodobně se generoval index nebo něco podobného). A místo konkrétního čísla je při neznámém počtu zobrazováno slovo hodně.

 

Tip: Krátké zprávy a zajímavosti (rychlý přístup https://kryl.info/kratce)