StormCrawler - StormCrawler
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
Vývojáři | DigitalPebble, Ltd. |
---|---|
První vydání | 11. září 2014 |
Stabilní uvolnění | 1.16 / 16. ledna 2020 |
Úložiště | ![]() |
Napsáno | Jáva |
Typ | Webový prohledávač |
Licence | Licence Apache |
webová stránka | stormcrawler |
StormCrawler je open-source sbírka zdrojů pro budování nízké latence, škálovatelné webové prohledávače naApache Storm. Je poskytována pod Licence Apache a je napsán většinou v jazyce Java (programovací jazyk).
StormCrawler je modulární a skládá se z jádrového modulu, který poskytuje základní stavební bloky webového prohledávače, jako je načítání, analýza, filtrování adres URL. Kromě hlavních komponent poskytuje projekt také externí zdroje, jako například hubici a šrouby pro Elasticsearch a Apache Solr nebo ParserBolt, který používá Apache Tika analyzovat různé formáty dokumentů.
Projekt je používán ve výrobě různými společnostmi.[1]
Linux.com v říjnu 2016 publikoval Otázky a odpovědi s autorem StormCrawler.[2] InfoQ provozoval jeden v prosinci 2016.[3] Srovnávací měřítko s Apache Nutch byla zveřejněna v lednu 2017 na dzone.com.[4]
Několik výzkumných prací zmínilo použití StormCrawleru v roce 2018, zejména:
- Generování korpusu několika milionů stránek pro perský jazyk.[5]
- SIREN - získávání a extrakce bezpečnostních informací eNgine.[6]
Projekt WIKI obsahuje seznam videí a diapozitivů dostupných online.[7]
StormCrawler je používán zejména Společné procházení[8] pro generování velkého a veřejně dostupného datového souboru zpráv.
Viz také
Reference
- ^ „Powered By · DigitalPebble / storm-crawler Wiki · GitHub“. Github.com. 2017-03-02. Citováno 2017-04-19.
- ^ „StormCrawler: Sada Open Source SDK pro vytváření webových prohledávačů s ApacheStorm | Linux.com | Zdroj informací o Linuxu“. Linux.com. 2016-10-12. Citováno 2017-04-19.
- ^ „Julien Nioche on StormCrawler, Open-Source Crawler Pipelines Backed by Apache Storm“. Infoq.com. 2016-12-15. Citováno 2017-04-19.
- ^ „The Battle of the Crawlers: Apache Nutch vs. StormCrawler - DZone Big Data“. Dzone.com. Citováno 2017-04-19.
- ^ "MirasText: Automaticky generovaný textový korpus pro perštinu".
- ^ Sanagavarapu, Lalit Mohan; Mathur, Neeraj; Agrawal, Shriyansh; Reddy, Y. Raghu (2018). Pokroky v získávání informací. Přednášky z informatiky. 10772. 811–814. doi:10.1007/978-3-319-76941-7_81. ISBN 978-3-319-76940-0.
- ^ „Prezentace · DigitalPebble / storm-crawler Wiki · GitHub“. Github.com. 2017-04-04. Citováno 2017-04-19.
- ^ http://commoncrawl.org/2016/10/news-dataset-available/