SimHash - SimHash
v počítačová věda, SimHash je technika pro rychlý odhad jak podobný dvě sady jsou. The algoritmus je používán Google Prohledávač najít téměř duplicitní stránky. Vytvořil Mojžíš Charikar.
Hodnocení a referenční hodnoty
Velké hodnocení provedlo Google v roce 2006[1] porovnat výkon Minhash a Simhash[2] algoritmy. V roce 2007 Google oznámil použití Simhash pro detekci duplikátů pro procházení webu[3] a pomocí Minhash a LSH pro zprávy Google personalizace.[4]
Viz také
Reference
- ^ Henzinger, Monika (2006), „Hledání téměř duplicitních webových stránek: rozsáhlé vyhodnocení algoritmů“, Sborník 29. výroční mezinárodní konference ACM SIGIR o výzkumu a vývoji v oblasti získávání informací, str. 284, doi:10.1145/1148170.1148222, ISBN 978-1595933690.
- ^ Charikar, Moses S. (2002), „Techniky odhadu podobnosti z algoritmů zaokrouhlování“, Proceedings of the 34. Annual ACM Symposium on Theory of Computing, str. 380, doi:10.1145/509907.509965, ISBN 978-1581134957.
- ^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), „Detection near-duplicates for web crawling“, Sborník ze 16. mezinárodní konference o World Wide Web (PDF), str. 141, doi:10.1145/1242572.1242592, ISBN 9781595936547.
- ^ Das, Abhinandan S .; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), „Personalizace zpráv Google: škálovatelné online filtrování spolupráce“, Sborník ze 16. mezinárodní konference o World Wide Web, str. 271, doi:10.1145/1242572.1242610, ISBN 9781595936547.