Distribuované procházení webu - Distributed web crawling

Distribuované procházení webu je distribuované výpočty technika Internet vyhledávače zaměstnávají mnoho počítačů index internet přes procházení webu. Takové systémy mohou uživatelům umožňovat dobrovolně nabízet své vlastní výpočetní prostředky a prostředky šířky pásma pro procházení webových stránek. Rozložením zátěže těchto úkolů na mnoho počítačů se zabrání nákladům, které by jinak byly vynaloženy na údržbu velkých výpočetních klastrů.

Typy

Cho[1] a Garcia-Molina studovali dva typy politik:

Dynamické přiřazení

U tohoto typu zásad centrální server dynamicky přiřazuje nové adresy URL různým prolézacím modulům. To umožňuje centrálnímu serveru například dynamicky vyvážit zatížení každého prolézacího modulu.

S dynamickým přiřazením mohou systémy obvykle také přidávat nebo odebírat procesy stahování. Centrálním serverem se může stát překážka, takže u velkých procházení musí být většina pracovního zatížení přenesena do procesů distribuovaného procházení.

Existují dvě konfigurace procházení architektur s dynamickými přiřazeními, které popsali Shkapenyuk a Suel:[2]

  • Malá konfigurace prohledávače, ve které je centrální DNS překladač a centrální fronty na každý web a distribuované stahovače.
  • Velká konfigurace prolézacího modulu, ve které je distribuován také překladač DNS a fronty.

Statické přiřazení

U tohoto typu zásad existuje od začátku procházení stanovené pevné pravidlo, které definuje, jak prohledávačům přiřadit nové adresy URL.

Pro statické přiřazení lze použít hashovací funkci k transformaci adres URL (nebo ještě lépe úplných názvů webových stránek) na číslo, které odpovídá indexu příslušného procesu procházení. Protože existují externí odkazy, které budou přecházet z webu přiřazeného jednomu procesu procházení na web přiřazený jinému procesu procházení, musí dojít k určité výměně adres URL.

Aby se snížila režie v důsledku výměny adres URL mezi procesy procházení, měla by se výměna provádět dávkově, několik adres URL najednou a nejcitovanější adresy URL v kolekci by měly být všechny procesy procházení známy před procházením (např .: pomocí data z předchozího procházení).[1]

Implementace

Od roku 2003 používá tuto techniku ​​většina moderních komerčních vyhledávačů. Google a Yahoo procházet web pomocí tisíců jednotlivých počítačů.

Novější projekty se pokoušejí použít méně strukturované, více ad hoc forma spolupráce získáním dobrovolníků, aby se připojili k úsilí pomocí, v mnoha případech, svých domácích nebo osobních počítačů. Vypadat chytře je největším vyhledávačem, který používá tuto techniku, která ji ovládá Grub distribuovaný projekt procházení webu.

Toto řešení používá počítače připojené k Internet plazit se Internetové adresy v pozadí. Po stažení procházených webových stránek jsou komprimovány a odeslány zpět společně se stavovým příznakem (např. Změněny, nové, dolů, přesměrovány) na výkonné centrální servery. Servery, které spravují velkou databázi, zasílají klientům nové adresy URL k testování.

Nevýhody

Podle FAQ o Nutch, webová stránka vyhledávače s otevřeným zdrojovým kódem, úspory šířky pásma při distribuovaném procházení webu nejsou významné, protože „Úspěšný vyhledávač vyžaduje větší šířku pásma pro nahrání stránek s výsledky dotazu, než potřebuje jeho prohledávač ke stažení stránek ...“.

Viz také

Zdroje

  1. ^ A b Cho, Junghoo; Garcia-Molina, Hector (2002). „Parallel crawlers“. Sborník z 11. mezinárodní konference o World Wide Web. ACM. str. 124–135. doi:10.1145/511446.511464. ISBN  1-58113-449-5. Citováno 2015-10-13.
  2. ^ Shkapenyuk, Vladislav; Suel, Torsten (2002). „Návrh a implementace vysoce výkonného distribuovaného webového prohledávače“. Data Engineering, 2002. Sborník. 18. mezinárodní konference dne. IEEE. str. 357–368. Citováno 2015-10-13.

externí odkazy