Počítat skicu - Count sketch - Wikipedia
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
Počítat skicu je typ snížení rozměrů to je zvláště efektivní v statistika, strojové učení a algoritmy.[1][2]To bylo vynalezeno Mosesem Charikarem, Kevinem Chenem a Martinem Farach-Coltonem[3] ve snaze urychlit AMS Sketch Alon, Matias a Szegedy pro aproximaci frekvenčních momentů proudů.[4]
Skica je téměř totožná s Hashování funkcí algoritmus John Moody,[5] ale liší se v použití hash funkcí s nízkou závislostí, což je činí praktičtějším. Aby byla stále vysoká pravděpodobnost úspěchu, střední trik se používá k agregaci více náčrtů počtu, spíše než průměr.
Tyto vlastnosti umožňují použití pro explicitní metody jádra, bilineární sdružování v neuronové sítě a je základním kamenem mnoha numerických algoritmů lineární algebry.[6]
Matematická definice
1. Pro konstanty a (bude definováno později) nezávisle zvolit náhodné hash funkce a takhle aJe nutné, aby hash rodiny, ze kterých a jsou vybrány být párově nezávislé.
2. Pro každou položku ve streamu přidat do th vědro th hash.
Na konci tohoto procesu jeden má částky kde
Odhadnout počet s one vypočítá následující hodnotu:
Vztah k tenzoru skica
Počítá se projekce náčrtu vnější produkt dvou vektorů je ekvivalentní s konvoluce dvou náčrtů počtu komponent.
Náčrt počtu počítá vektor konvoluce
, kde a jsou nezávislé matice počtu skic.
Pham a Pagh[7] ukázat, že se to rovná - počet skica z vnější produkt vektorů, kde označuje Produkt Kronecker.
K rychlé konvoluci počtu skic lze použít rychlá Fourierova transformace.Pomocí produkt rozdělující obličej[8][9][10] taková struktura se počítala mnohem rychleji než normální matice.
Viz také
Reference
- ^ Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.
- ^ Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.
- ^ Charikar, Mojžíš, Kevin Chen a Martin Farach-Colton. "Nalezení častých položek v datových tocích." Mezinárodní kolokvium o automatech, jazycích a programování. Springer, Berlin, Heidelberg, 2002.
- ^ Alon, Noga, Yossi Matias a Mario Szegedy. „Prostorová složitost aproximace frekvenčních momentů.“ Journal of Computer and system sciences 58.1 (1999): 137-147.
- ^ Moody, Johne. „Rychlé učení v hierarchiích s více rozlišeními.“ Pokroky v systémech zpracování neurálních informací. 1989.
- ^ Woodruff, David P. „Skicování jako nástroj pro numerickou lineární algebru.“ Theoretical Computer Science 10.1-2 (2014): 1–157.
- ^ Ninh, Pham; Rasmus, Pagh (2013). Rychlá a škálovatelná polynomiální jádra prostřednictvím explicitních map funkcí. Mezinárodní konference SIGKDD o získávání znalostí a dolování dat. Sdružení pro výpočetní techniku. doi:10.1145/2487575.2487591.
- ^ Slyusar, V. I. (1998). „Konečné produkty v maticích v radarových aplikacích“ (PDF). Radioelektronika a komunikační systémy. 41 (3): 50–53.
- ^ Slyusar, V. I. (1997-05-20). „Analytický model digitálního anténního pole na základě produktů dělících matice (PDF). Proc. ICATT-97, Kyiv: 108–109.
- ^ Slyusar, V. I. (13. března 1998). "Rodina produktů tváře matic a její vlastnosti" (PDF). Kybernetika a systémová analýza C / C Kibernetiky I Sistemnyi Analiz. - 1999. 35 (3): 379–384. doi:10.1007 / BF02733426.
Další čtení
- Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.
- Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.