Pronásledování projekce - Projection pursuit

Pronásledování projekce (PP) je typ statistické techniky, která zahrnuje hledání toho nejzajímavějšího možného projekce ve vícerozměrných datech. Projekce, které se více odchylují od a normální distribuce jsou považovány za zajímavější. Jakmile se najde každá projekce, data se sníží odstraněním komponenty podél této projekce a proces se opakuje, aby se našly nové projekce; toto je aspekt „pronásledování“, který motivoval techniku ​​známou jako odpovídající pronásledování.[1][2]

Myšlenkou pronásledování projekce je lokalizovat projekci nebo projekce z vysoce dimenzionální prostor do nízkodimenzionálního prostoru, který odhaluje nejvíce podrobností o struktuře datové sady. Jakmile bude nalezena zajímavá sada projekcí, lze stávající struktury (klastry, povrchy atd.) Extrahovat a analyzovat samostatně.

Pronásledování projekcí bylo široce používáno pro slepá separace zdrojů, takže je velmi důležité v analýza nezávislých komponent. Sledování projekce hledá jednu projekci po druhé tak, aby extrahovaný signál byl co nejvíce negaussovský.[3]

Dějiny

Kruskal původně navrhl a experimentoval s technikou pronásledování projekcí.[4] Související myšlenky se vyskytují ve Switzer (1970) „Numerická klasifikace“ pp31-43 v „Počítačových aplikacích ve vědách o Zemi: Geostatistics a Switzer a Wright (1971)„ Numerická klasifikace eocénních nummulitidů “Matematická geologie str. 297–311. úspěšná implementace je způsobena Jerome H. Friedman a John Tukey (1974), kteří pojmenovali projekční pronásledování.

Původním účelem sledování projekce bylo strojově vybrat „zajímavé“ nízkodimenzionální projekce mraku vysokých dimenzionálních bodů numerickou maximalizací určité objektivní funkce nebo indexu projekce [5].

O několik let později Friedman a Stuetzle rozšířili myšlenku projekčního pronásledování a přidali projekce pronásledování regrese (PPR), klasifikace sledování projekce (PPC) a odhad hustoty projekce sledování (PPDE).

Vlastnosti

Nejzajímavější vlastností sledování projekce je, že je to jedna z mála vícerozměrných metod schopných obejít „kletbu rozměrnosti“ způsobenou skutečností, že prostor ve vysoké dimenzi je většinou prázdný. Sledování projekce je navíc schopné ignorovat irelevantní proměnné (tj. Hlučné a chudé na informace). To je výrazná výhoda oproti metodám založeným na vzdálenostech mezi body, jako jsou minimální kostry, vícerozměrné škálování a většina technik shlukování.

Mnoho metod klasické vícerozměrné analýzy se ukázalo být zvláštními případy sledování projekce. Příklady jsou analýza hlavních komponent a diskriminační analýza a metody quartimax a oblimax v faktorová analýza.

Jednou z vážných nevýhod metod sledování projekce je jejich vysoká náročnost na počítačový čas.

Viz také

Reference

  1. ^ J. H. Friedman a J. W. Tukey (září 1974). „Algoritmus projekčního pronásledování pro průzkumnou analýzu dat“ (PDF). Transakce IEEE na počítačích. C-23 (9): 881–890. doi:10.1109 / T-C.1974.224051. ISSN  0018-9340.
  2. ^ M. C. Jones a R. Sibson (1987). „Co je Projection Pursuit?“. Journal of the Royal Statistical Society, Series A. 150 (1): 1–37. doi:10.2307/2981662. JSTOR  2981662.
  3. ^ James V. Stone (2004); „Analýza nezávislých komponent: Úvod do výuky“, The MIT Press Cambridge, Massachusetts, Londýn, Anglie; ISBN  0-262-69315-1
  4. ^ Kruskal, JB. 1969; „Směrem k praktické metodě, která pomáhá odhalit strukturu souboru pozorování nalezením transformace čáry, která optimalizuje nový„ index kondenzace ““, strany 427–440 v: Milton, RC, & Nelder, JA (eds), Statistics výpočet; New York, Academic Press
  5. ^ P. J. Huber (červen 1985). „Projekční pronásledování“ (PDF). Annals of Statistics. 13 (2): 435–475. doi:10.1214 / aos / 1176349519.