Počítat skicu - Count sketch - Wikipedia

Počítat skicu je typ snížení rozměrů to je zvláště efektivní v statistika, strojové učení a algoritmy.^[1]^[2]To bylo vynalezeno Mosesem Charikarem, Kevinem Chenem a Martinem Farach-Coltonem^[3] ve snaze urychlit AMS Sketch Alon, Matias a Szegedy pro aproximaci frekvenčních momentů proudů.^[4]

Skica je téměř totožná s Hashování funkcí algoritmus John Moody,^[5] ale liší se v použití hash funkcí s nízkou závislostí, což je činí praktičtějším. Aby byla stále vysoká pravděpodobnost úspěchu, střední trik se používá k agregaci více náčrtů počtu, spíše než průměr.

Tyto vlastnosti umožňují použití pro explicitní metody jádra, bilineární sdružování v neuronové sítě a je základním kamenem mnoha numerických algoritmů lineární algebry.^[6]

Matematická definice

1. Pro konstanty ${ displaystyle w}$ a ${ displaystyle d}$ (bude definováno později) nezávisle zvolit ${ displaystyle 2d}$ náhodné hash funkce ${ displaystyle h_ {1}, tečky, h_ {d}}$ a ${ displaystyle s_ {1}, dots, s_ {d}}$ takhle ${ displaystyle h_ {i}: [n] až [w]}$ a ${ displaystyle s_ {i}: [n] do { pm 1 }}$ Je nutné, aby hash rodiny, ze kterých ${ displaystyle h_ {i}}$ a ${ displaystyle s_ {i}}$ jsou vybrány být párově nezávislé.

2. Pro každou položku ${ displaystyle q_ {i}}$ ve streamu přidat ${ displaystyle s_ {j} (q_ {i})}$ do ${ displaystyle h_ {j} (q_ {i})}$ th vědro ${ displaystyle j}$ th hash.

Na konci tohoto procesu jeden má ${ displaystyle wd}$ částky ${ displaystyle (C_ {ij})}$ kde

{ displaystyle C_ {ij} = součet _ {h_ {i} (k) = j} s_ {i} (k).}

Odhadnout počet ${ displaystyle q}$ s one vypočítá následující hodnotu:

{ displaystyle { text {median}} _ {i} , s_ {i} (q) cdot C_ {i, h_ {i} (q)}.}

Vztah k tenzoru skica

Počítá se projekce náčrtu vnější produkt dvou vektorů je ekvivalentní s konvoluce dvou náčrtů počtu komponent.

Náčrt počtu počítá vektor konvoluce

${ displaystyle C ^ {(1)} x ast C ^ {(2)} x ^ {T}}$ , kde ${ displaystyle C ^ {(1)}}$ a ${ displaystyle C ^ {(2)}}$ jsou nezávislé matice počtu skic.

Pham a Pagh^[7] ukázat, že se to rovná ${ displaystyle C (x otimes x ^ {T})}$ - počet skica ${ displaystyle C}$ z vnější produkt vektorů, kde ${ displaystyle otimes}$ označuje Produkt Kronecker.

K rychlé konvoluci počtu skic lze použít rychlá Fourierova transformace.Pomocí produkt rozdělující obličej^[8]^[9]^[10] taková struktura se počítala mnohem rychleji než normální matice.

Viz také

Reference

^ Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.
^ Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.
^ Charikar, Mojžíš, Kevin Chen a Martin Farach-Colton. "Nalezení častých položek v datových tocích." Mezinárodní kolokvium o automatech, jazycích a programování. Springer, Berlin, Heidelberg, 2002.
^ Alon, Noga, Yossi Matias a Mario Szegedy. „Prostorová složitost aproximace frekvenčních momentů.“ Journal of Computer and system sciences 58.1 (1999): 137-147.
^ Moody, Johne. „Rychlé učení v hierarchiích s více rozlišeními.“ Pokroky v systémech zpracování neurálních informací. 1989.
^ Woodruff, David P. „Skicování jako nástroj pro numerickou lineární algebru.“ Theoretical Computer Science 10.1-2 (2014): 1–157.
^ Ninh, Pham; Rasmus, Pagh (2013). Rychlá a škálovatelná polynomiální jádra prostřednictvím explicitních map funkcí. Mezinárodní konference SIGKDD o získávání znalostí a dolování dat. Sdružení pro výpočetní techniku. doi:10.1145/2487575.2487591.
^ Slyusar, V. I. (1998). „Konečné produkty v maticích v radarových aplikacích“ (PDF). Radioelektronika a komunikační systémy. 41 (3): 50–53.
^ Slyusar, V. I. (1997-05-20). „Analytický model digitálního anténního pole na základě produktů dělících matice (PDF). Proc. ICATT-97, Kyiv: 108–109.
^ Slyusar, V. I. (13. března 1998). "Rodina produktů tváře matic a její vlastnosti" (PDF). Kybernetika a systémová analýza C / C Kibernetiky I Sistemnyi Analiz. - 1999. 35 (3): 379–384. doi:10.1007 / BF02733426.

Další čtení

Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.
Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.

[1] Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.

[2] Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.

[3] Charikar, Mojžíš, Kevin Chen a Martin Farach-Colton. "Nalezení častých položek v datových tocích." Mezinárodní kolokvium o automatech, jazycích a programování. Springer, Berlin, Heidelberg, 2002.

[4] Alon, Noga, Yossi Matias a Mario Szegedy. „Prostorová složitost aproximace frekvenčních momentů.“ Journal of Computer and system sciences 58.1 (1999): 137-147.

[5] Moody, Johne. „Rychlé učení v hierarchiích s více rozlišeními.“ Pokroky v systémech zpracování neurálních informací. 1989.

[woodruff-6] Woodruff, David P. „Skicování jako nástroj pro numerickou lineární algebru.“ Theoretical Computer Science 10.1-2 (2014): 1–157.

[ninh-7] Ninh, Pham; Rasmus, Pagh (2013). Rychlá a škálovatelná polynomiální jádra prostřednictvím explicitních map funkcí. Mezinárodní konference SIGKDD o získávání znalostí a dolování dat. Sdružení pro výpočetní techniku. doi:10.1145/2487575.2487591.

[8] Slyusar, V. I. (1998). „Konečné produkty v maticích v radarových aplikacích“ (PDF). Radioelektronika a komunikační systémy. 41 (3): 50–53.

[9] Slyusar, V. I. (1997-05-20). „Analytický model digitálního anténního pole na základě produktů dělících matice (PDF). Proc. ICATT-97, Kyiv: 108–109.

[10] Slyusar, V. I. (13. března 1998). "Rodina produktů tváře matic a její vlastnosti" (PDF). Kybernetika a systémová analýza C / C Kibernetiky I Sistemnyi Analiz. - 1999. 35 (3): 379–384. doi:10.1007 / BF02733426.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]