Procházet hranice - Crawl frontier - Wikipedia
A procházet hranice je datová struktura používaná pro ukládání URL způsobilé pro procházení a podporu takových operací, jako je přidávání adres URL a výběr pro procházení. Někdy to může být viděno jako prioritní fronta. [1]
Přehled

Hranice procházení je jednou z komponent, které tvoří architekturu webového prolézacího modulu. Hranice procházení obsahuje logiku a zásady, které a prohledávač při návštěvě webových stránek. Tato aktivita je známá jako plazení.
Zásady mohou zahrnovat například věci, které stránky by měly být navštívíny dále, priority každé stránky, která má být prohledána, a četnost návštěvy stránky.[2] Účinnost hranice procházení je obzvláště důležitá, protože jedna z charakteristik webu, díky nimž je procházení webu výzvou; je to, že obsahuje tak velké množství dat a neustále se mění.[3][4]
Architektura
Počáteční seznam adres URL obsažených na hranici prohledávače se označuje jako seed. Prohledávač webu se bude neustále ptát hranice, jaké stránky má navštívit. Když prohledávač navštíví každou z těchto stránek, bude informovat hranici s odpovědí každé stránky. Prohledávač také aktualizuje hranici prohledávače novými hypertextovými odkazy obsaženými na těchto stránkách, které navštívil. Tyto hypertextové odkazy jsou přidány k hranici a navštíví tyto nové webové stránky na základě zásad hranice prohledávače.[3][4] Tento proces pokračuje rekurzivně, dokud nenavštívíte všechny adresy URL na hranici procházení.
Zásady používané k určení, které stránky je třeba navštívit, jsou obvykle založeny na skóre. Toto skóre se obvykle počítá z řady různých atributů. Například aktuálnost stránky, čas aktualizace stránky a relevance obsahu s ohledem na určité výrazy.
Součásti

Frontier API / Manager
Frontier Manager je komponenta, kterou webový prohledávač použije ke komunikaci s hranicí procházení. Frontier API lze také použít ke komunikaci s hranicí procházení.[3]
Middlewares
Hranice střední zboží sedět mezi manažerem a back-endem. Účelem Middlewares je řídit komunikaci mezi hranicí a backendem. Middlewares jsou ideální způsob, jak přidat nebo rozšířit další funkce jednoduše připojením dalšího kódu.[5]
Backend
Součást back-end obsahuje veškerou logiku a zásady, které se používají při hledání. Funkce back-endu je identifikovat stránky, které mají být procházeny.[5]
Známé implementace
- Frontera (procházení webu) je open source implementace hranice procházení napsaná čistě v Pythonu.
Reference
- ^ Olston, Christopher; Najork, Marc. „Procházení webu“ (PDF). Základy a trendy v získávání informací.
- ^ Patil, Yugandhara; Patil, Sonal (2016). "Recenze webových prohledávačů se specifikací a fungováním" (PDF). International Journal of Advanced Research in Computer and Communication Engineering. 5: 4.
- ^ A b C "crawlfrontier dokumentace" (PDF). 15. dubna 2015.
- ^ A b Dhenakaran, S.S .; Sambanthan, K. Thirugnana (2011). „Webový prohledávač - přehled“ (PDF). International Journal of Computer Science and Communication. 2: 3.
- ^ A b „Frontera Architecture“. 2017.