DeepPeep - DeepPeep
DeepPeep byl vyhledávač to mělo za cíl plazit se a index každá databáze na veřejném webu.[1][2] Na rozdíl od tradičních vyhledávačů, které procházejí existující webové stránky a jejich hypertextové odkazy, si DeepPeep kladl za cíl umožnit přístup k tzv. Hluboká síť „Obsah WWW je k dispozici pouze například prostřednictvím zadaných dotazů do databází.[3] Projekt byl zahájen v University of Utah a byl pod dohledem Juliana Freire, docent na univerzitní skupině School of Computing WebDB.[4][5] Cílem bylo podle Freire zpřístupnit 90% veškerého obsahu WWW.[6][7] Projekt provozoval beta vyhledávač a byl sponzorován univerzitou v Utahu a grantem 243 000 USD od Národní vědecká nadace.[8] Vyvolalo celosvětový zájem.[9][10][11][12][13]
Jak to funguje
Podobný Google, Yahoo, a další vyhledávače, DeepPeep umožňuje uživatelům zadat klíčové slovo a vrací seznam odkazů a databází s informacemi týkajícími se klíčového slova.
Co však oddělilo DeepPeep a další vyhledávače, je to, že DeepPeep používá prohledávač ACHE, 'Hierarchical Identification Form', 'Context-Aware Form Clustering' a 'LabelEx' k vyhledání, analýze a organizaci webových formulářů, které umožňují snadný přístup uživatelům.[14]
ACHE Crawler
ACHE Crawler se používá ke shromažďování odkazů a využívá strategii učení, která zvyšuje rychlost shromažďování odkazů, když tyto prohledávače pokračují v hledání. Co dělá ACHE Crawler jedinečným od ostatních prolézacích modulů, je to, že ostatní prolézací moduly jsou zaměřené prolézací moduly, které shromažďují webové stránky se specifickými vlastnostmi nebo klíčovými slovy. Ache Crawlers místo toho obsahuje klasifikátor stránek, který mu umožňuje třídit irelevantní stránky domény, stejně jako klasifikátor odkazů, který řadí odkaz podle jeho nejvyšší relevance k tématu. Výsledkem je, že ACHE Crawler nejprve stáhne odkazy, které mají vyšší relevanci a ušetří zdroje tím, že nebudou stahovat irelevantní data.[15]
Hierarchická identifikace formy
Za účelem další eliminace irelevantních odkazů a výsledků vyhledávání používá DeepPeep rámec HIFI (HIerarchical Form Identification), který klasifikuje odkazy a výsledky vyhledávání na základě struktury a obsahu webu.[14] Na rozdíl od jiných forem klasifikace, které se při organizaci spoléhají pouze na štítky webových formulářů, využívá HIFI ke klasifikaci jak strukturu, tak obsah webového formuláře. S využitím těchto dvou klasifikátorů HIFI organizuje webové formuláře hierarchicky, což řadí relevanci webového formuláře k cílovému klíčovému slovu.[16]
Kontextové klastrování
Pokud neexistuje žádná zájmová doména nebo má zadaná doména více typů definic, musí DeepPeep oddělit webový formulář a seskupit je do podobných domén. Vyhledávací stroj používá kontextové klastrování ke seskupení podobných odkazů ve stejné doméně modelováním webového formuláře do sad hypertextových odkazů a použitím jeho kontextu pro srovnání. Na rozdíl od jiných technik, které vyžadují komplikovanou extrakci štítků a ruční předzpracování webových formulářů, se kontextové klastrování provádí automaticky a používá metadata ke zpracování webových formulářů, které jsou bohaté na obsah a obsahují více atributů.[14]
LabelEx
DeepPeep dále extrahuje informace s názvem Meta-data z těchto stránek, které umožňují lepší hodnocení odkazů a databází s využitím LabelEx, přístupu pro automatický rozklad a extrakci metadat. Meta-data jsou data z webových odkazů, které poskytují informace o jiných doménách. LabelEx identifikuje mapování štítku prvku a pomocí mapování extrahuje metadata s přesností na rozdíl od konvenčních přístupů, které používaly ručně konkrétní pravidla extrakce.[14]
Hodnocení
Když se výsledky vyhledávání zobrazí poté, co uživatel zadá své klíčové slovo, DeepPeep zařadí odkazy na základě 3 funkcí: obsah termínu, počet zpětné odkazy. a pagerank. Za prvé, pojem obsah je jednoduše určen obsahem webového odkazu a jeho relevancí. Zpětné odkazy jsou hypertextové odkazy nebo odkazy, které nasměrují uživatele na jiný web. Pageranks je pořadí webových stránek ve výsledcích vyhledávače a funguje tak, že spočítává množství a kvalitu odkazů na webové stránky a určuje jejich důležitost. Informace o pageru a zpětném odkazu jsou získávány z externích zdrojů, jako jsou Google, Yahoo, a Bing.[14]
Beta spuštění
Byla spuštěna aplikace DeepPeep Beta, která pokrývala pouze sedm domén: auto, letenky, biologie, kniha, hotel, práce a pronájem. V rámci těchto sedmi domén nabídl DeepPeep přístup k 13 000 webovým formulářům.[17] Jeden mohl přistupovat na web na deeppeep.org, ale web byl neaktivní poté, co byla odstraněna beta verze.
Reference
- ^ Wright, Alex (2009-02-22). „Zkoumání„ hlubokého webu “, který Google nedokáže uchopit“. The New York Times. Citováno 2009-02-23.
- ^ Franke, Susanne (2009-02-24). „DeepPeep: Forscher wollen verborgene Datenbanken im Web zugänglich machen“ [DeepPeep: Vědci chtějí zpřístupnit skryté databáze na webu]. Comp. Ztg. Citováno 2009-02-25 - přes lanline.de.
- ^ Warwick, Martyn (2009-02-25). „DeepPeep umožňuje osvětlit skrytý web“. TelecomTV. Citováno 2009-02-25.[trvalý mrtvý odkaz ]
- ^ Sawant, Nimish (09.03.2010). „Procházení hlubokého webu“. LiveMint. Máta. Citováno 2010-12-13.
- ^ "Hlavní strana". WebDB. Škola výpočetní techniky University of Utah. 2008-10-04. Archivovány od originál dne 2009-02-27. Citováno 2009-02-23.
- ^ Pichler, Thomas (2009-02-23). „Suchansätze dringen in die Tiefen des Internets: Erforschen von Datenbanken als wichtiger Schritt“ [Vyhledávací fráze pronikají do hloubky internetu: Výzkum databází jako důležitý krok] (v němčině). Stiskněte text. Citováno 2009-02-23.
- ^ „Suchansätze dringen in die Tiefen des Internets“ [Vyhledávací fráze pronikají do hloubky internetu]. nachrichten.ch (v němčině). 2009-02-24. Archivovány od originál dne 07.07.2011. Citováno 2010-12-13.
- ^ „Abstract Award # 0713637: III-COR: Discovering and Organizing Hidden-Web Sources“. Vyhledávání cen NSF. Národní vědecká nadace. Citováno 2009-02-23.
- ^ „Esplorando il DeepWeb, i fondali della Rete dove Google non arriva“ [Zkoumání DeepWeb, hlubin sítě, kam Google nepřijde]. Liberta di Stampa Diritto all'Informazione (Toto je italský překlad článku New York Times „Zkoumání‚ hlubokého webu ', který Google nedokáže uchopit “od Alexe Wrighta) (v italštině). Itálie. 2009-04-05. Citováno 2009-03-05.
- ^ Sándor, Berta (2009-02-24). „Az internet mélyét kutatja a DeepPeep“ [Internet zkoumající hloubku DeepPeep]. sg.hu (v maďarštině). SG (Maďarsko). Citováno 2009-03-05.
- ^ „Niet alles is te vinden met Google“ [Ne vše lze najít pomocí Google] (v holandštině). Holandští kovbojové. 2009-03-04. Citováno 2009-03-05.
- ^ „探索 谷 歌 尚未 把持 的 '深层 网络'" [Prozkoumejte dosud nedominovanou „hlubokou síť“ společnosti Google] (Toto je čínský překlad článku New York Times „Zkoumání„ hlubokého webu “, který Google nedokáže uchopit“ od Alexe Wrighta) (v čínštině). 03.03.06. Archivovány od originál dne 07.07.2011. Citováno 2009-03-05.
- ^ „Sfida al deep web: la Kosmix prova a svelare le pagine nascoste di internet“ [Výzva pro hluboký web: Kosmix se pokouší odhalit skryté stránky internetu]. Messagg. 2009-02-23. Archivovány od originál dne 2012-08-04. Citováno 2010-12-13.
- ^ A b C d E Barbosa, Luciano; Nguyen, Hoa; Nguyen, Thanh; Pinnamaneni, Ramesh; Freire, Juliana (01.01.2010). "Vytváření a prozkoumávání úložišť webových formulářů". Sborník mezinárodní konference ACM SIGMOD o správě dat z roku 2010. SIGMOD '10. New York, NY, USA: ACM: 1175–1178. doi:10.1145/1807167.1807311. ISBN 9781450300322.
- ^ "ViDA-NYU / bolest". GitHub. Citováno 2016-11-06.
- ^ Duygulu, Pinar (1999-12-22). "Hierarchická reprezentace formulářových dokumentů pro identifikaci a vyhledávání". Sborník SPIE. 3967 (1). doi:10.1117/12.373486. ISSN 0277-786X.
- ^ Beckett, Andy (25. 11. 2009). „Temná stránka internetu“. Opatrovník. ISSN 0261-3077. Citováno 2016-11-06.
externí odkazy
- Stránka DeepPeep.org, nalezen mrtvý v listopadu 2016 a stránky se objevují ve vztahu k Register.com. Poslední „Archivovaná kopie“. Archivovány od originálu dne 2012-05-09. Citováno 2009-02-23.CS1 maint: archivovaná kopie jako titul (odkaz) CS1 maint: BOT: status original-url neznámý (odkaz).