Počítat skicu - Count sketch - Wikipedia

Počítat skicu je typ snížení rozměrů to je zvláště efektivní v statistika, strojové učení a algoritmy.[1][2]To bylo vynalezeno Mosesem Charikarem, Kevinem Chenem a Martinem Farach-Coltonem[3] ve snaze urychlit AMS Sketch Alon, Matias a Szegedy pro aproximaci frekvenčních momentů proudů.[4]

Skica je téměř totožná s Hashování funkcí algoritmus John Moody,[5] ale liší se v použití hash funkcí s nízkou závislostí, což je činí praktičtějším. Aby byla stále vysoká pravděpodobnost úspěchu, střední trik se používá k agregaci více náčrtů počtu, spíše než průměr.

Tyto vlastnosti umožňují použití pro explicitní metody jádra, bilineární sdružování v neuronové sítě a je základním kamenem mnoha numerických algoritmů lineární algebry.[6]

Matematická definice

1. Pro konstanty a (bude definováno později) nezávisle zvolit náhodné hash funkce a takhle aJe nutné, aby hash rodiny, ze kterých a jsou vybrány být párově nezávislé.

2. Pro každou položku ve streamu přidat do th vědro th hash.

Na konci tohoto procesu jeden má částky kde

Odhadnout počet s one vypočítá následující hodnotu:

Vztah k tenzoru skica

Počítá se projekce náčrtu vnější produkt dvou vektorů je ekvivalentní s konvoluce dvou náčrtů počtu komponent.

Náčrt počtu počítá vektor konvoluce

, kde a jsou nezávislé matice počtu skic.

Pham a Pagh[7] ukázat, že se to rovná - počet skica z vnější produkt vektorů, kde označuje Produkt Kronecker.

K rychlé konvoluci počtu skic lze použít rychlá Fourierova transformace.Pomocí produkt rozdělující obličej[8][9][10] taková struktura se počítala mnohem rychleji než normální matice.

Viz také

Reference

  1. ^ Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.
  2. ^ Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.
  3. ^ Charikar, Mojžíš, Kevin Chen a Martin Farach-Colton. "Nalezení častých položek v datových tocích." Mezinárodní kolokvium o automatech, jazycích a programování. Springer, Berlin, Heidelberg, 2002.
  4. ^ Alon, Noga, Yossi Matias a Mario Szegedy. „Prostorová složitost aproximace frekvenčních momentů.“ Journal of Computer and system sciences 58.1 (1999): 137-147.
  5. ^ Moody, Johne. „Rychlé učení v hierarchiích s více rozlišeními.“ Pokroky v systémech zpracování neurálních informací. 1989.
  6. ^ Woodruff, David P. „Skicování jako nástroj pro numerickou lineární algebru.“ Theoretical Computer Science 10.1-2 (2014): 1–157.
  7. ^ Ninh, Pham; Rasmus, Pagh (2013). Rychlá a škálovatelná polynomiální jádra prostřednictvím explicitních map funkcí. Mezinárodní konference SIGKDD o získávání znalostí a dolování dat. Sdružení pro výpočetní techniku. doi:10.1145/2487575.2487591.
  8. ^ Slyusar, V. I. (1998). „Konečné produkty v maticích v radarových aplikacích“ (PDF). Radioelektronika a komunikační systémy. 41 (3): 50–53.
  9. ^ Slyusar, V. I. (1997-05-20). „Analytický model digitálního anténního pole na základě produktů dělících matice (PDF). Proc. ICATT-97, Kyiv: 108–109.
  10. ^ Slyusar, V. I. (13. března 1998). "Rodina produktů tváře matic a její vlastnosti" (PDF). Kybernetika a systémová analýza C / C Kibernetiky I Sistemnyi Analiz. - 1999. 35 (3): 379–384. doi:10.1007 / BF02733426.

Další čtení

  • Faisal M. Algashaam; Kien Nguyen; Mohamed Alkanhal; Vinod Chandran; Wageeh Boles. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdružováním“ [1]. Přístup IEEE, Sv. 5. 2017.
  • Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.