Distribuované procházení webu - Distributed web crawling
![]() | tento článek potřebuje další citace pro ověření.Červenec 2008) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Distribuované procházení webu je distribuované výpočty technika Internet vyhledávače zaměstnávají mnoho počítačů index internet přes procházení webu. Takové systémy mohou uživatelům umožňovat dobrovolně nabízet své vlastní výpočetní prostředky a prostředky šířky pásma pro procházení webových stránek. Rozložením zátěže těchto úkolů na mnoho počítačů se zabrání nákladům, které by jinak byly vynaloženy na údržbu velkých výpočetních klastrů.
Typy
Cho[1] a Garcia-Molina studovali dva typy politik:
Dynamické přiřazení
U tohoto typu zásad centrální server dynamicky přiřazuje nové adresy URL různým prolézacím modulům. To umožňuje centrálnímu serveru například dynamicky vyvážit zatížení každého prolézacího modulu.
S dynamickým přiřazením mohou systémy obvykle také přidávat nebo odebírat procesy stahování. Centrálním serverem se může stát překážka, takže u velkých procházení musí být většina pracovního zatížení přenesena do procesů distribuovaného procházení.
Existují dvě konfigurace procházení architektur s dynamickými přiřazeními, které popsali Shkapenyuk a Suel:[2]
- Malá konfigurace prohledávače, ve které je centrální DNS překladač a centrální fronty na každý web a distribuované stahovače.
- Velká konfigurace prolézacího modulu, ve které je distribuován také překladač DNS a fronty.
Statické přiřazení
U tohoto typu zásad existuje od začátku procházení stanovené pevné pravidlo, které definuje, jak prohledávačům přiřadit nové adresy URL.
Pro statické přiřazení lze použít hashovací funkci k transformaci adres URL (nebo ještě lépe úplných názvů webových stránek) na číslo, které odpovídá indexu příslušného procesu procházení. Protože existují externí odkazy, které budou přecházet z webu přiřazeného jednomu procesu procházení na web přiřazený jinému procesu procházení, musí dojít k určité výměně adres URL.
Aby se snížila režie v důsledku výměny adres URL mezi procesy procházení, měla by se výměna provádět dávkově, několik adres URL najednou a nejcitovanější adresy URL v kolekci by měly být všechny procesy procházení známy před procházením (např .: pomocí data z předchozího procházení).[1]
Implementace
Od roku 2003 používá tuto techniku většina moderních komerčních vyhledávačů. Google a Yahoo procházet web pomocí tisíců jednotlivých počítačů.
Novější projekty se pokoušejí použít méně strukturované, více ad hoc forma spolupráce získáním dobrovolníků, aby se připojili k úsilí pomocí, v mnoha případech, svých domácích nebo osobních počítačů. Vypadat chytře je největším vyhledávačem, který používá tuto techniku, která ji ovládá Grub distribuovaný projekt procházení webu.
Toto řešení používá počítače připojené k Internet plazit se Internetové adresy v pozadí. Po stažení procházených webových stránek jsou komprimovány a odeslány zpět společně se stavovým příznakem (např. Změněny, nové, dolů, přesměrovány) na výkonné centrální servery. Servery, které spravují velkou databázi, zasílají klientům nové adresy URL k testování.
Nevýhody
Podle FAQ o Nutch, webová stránka vyhledávače s otevřeným zdrojovým kódem, úspory šířky pásma při distribuovaném procházení webu nejsou významné, protože „Úspěšný vyhledávač vyžaduje větší šířku pásma pro nahrání stránek s výsledky dotazu, než potřebuje jeho prohledávač ke stažení stránek ...“.
Viz také
- Distribuované výpočty
- FAROO - Peer-to-peer webový vyhledávač s distribuovaným procházením
- Webový prohledávač
- YaCy - P2P webový vyhledávač s distribuovaným procházením
- Hledá - Otevřené vyhledávání P2P na webu
Zdroje
- ^ A b Cho, Junghoo; Garcia-Molina, Hector (2002). „Parallel crawlers“. Sborník z 11. mezinárodní konference o World Wide Web. ACM. str. 124–135. doi:10.1145/511446.511464. ISBN 1-58113-449-5. Citováno 2015-10-13.
- ^ Shkapenyuk, Vladislav; Suel, Torsten (2002). „Návrh a implementace vysoce výkonného distribuovaného webového prohledávače“. Data Engineering, 2002. Sborník. 18. mezinárodní konference dne. IEEE. str. 357–368. Citováno 2015-10-13.
externí odkazy
- Majestic-12 Distribuovaný vyhledávač
- Distribuovaný vyhledávač Replaz