FastICA - FastICA - Wikipedia

FastICA je efektivní a populární algoritmus pro analýza nezávislých komponent vynalezl Aapo Hyvärinen v Helsinská technická univerzita.^[1]^[2] Jako většina ICA algoritmů, FastICA hledá ortogonální rotaci předbělený data prostřednictvím pevného bodu iterační schéma, což maximalizuje míru ne-gaussiánství otočených komponent. Non-gaussianity slouží jako proxy pro statistická nezávislost, což je velmi silná podmínka a k ověření vyžaduje nekonečná data. FastICA lze také alternativně odvodit jako přibližnou Newtonovu iteraci.

Algoritmus

Předbělení data

Nech ${ displaystyle mathbf {X}: = (x_ {ij}) v mathbb {R} ^ {N krát M}}$ označte matici vstupních dat, ${ displaystyle M}$ - počet sloupců odpovídající počtu vzorků smíšených signálů a - ${ displaystyle N}$ počet řádků odpovídající počtu nezávislých zdrojových signálů. Matice vstupních dat ${ displaystyle mathbf {X}}$ musí být předbělený, nebo na střed a vybělené, než na něj použijete algoritmus FastICA.

Vycentrování dat znamená ponižování každé složky vstupních dat ${ displaystyle mathbf {X}}$ , to znamená,

{ displaystyle x_ {ij} leftarrow x_ {ij} - { frac {1} {M}} sum _ {j ^ { prime}} x_ {ij ^ { prime}}}

pro každého

{ displaystyle i = 1, ldots, N}

a

{ displaystyle j = 1, ldots, M}

. Po centrování, každá řada

{ displaystyle mathbf {X}}

má očekávaná hodnota z

{ displaystyle 0}

.

Bělení data vyžadují a lineární transformace ${ displaystyle mathbf {L}: mathbb {R} ^ {N krát M} až mathbb {R} ^ {N krát M}}$ soustředěných dat tak, aby komponenty ${ displaystyle mathbf {L} ( mathbf {X})}$ nesouvisí a mají rozptyl jedna. Přesněji řečeno, pokud ${ displaystyle mathbf {X}}$ je centrovaná datová matice, kovariance ${ displaystyle mathbf {L} _ { mathbf {x}}: = mathbf {L} ( mathbf {X})}$ je ${ displaystyle (N krát N)}$ -dimenzionální matice identity, to znamená,

{ displaystyle mathrm {E} vlevo { mathbf {L} _ { mathbf {x}} mathbf {L} _ { mathbf {x}} ^ {T} vpravo } = mathbf { V}}

Běžnou metodou bělení je provedení rozklad vlastních čísel na kovarianční matice soustředěných dat

{ displaystyle mathbf {X}}

,

{ displaystyle E left { mathbf {X} mathbf {X} ^ {T} right } = mathbf {E} mathbf {D} mathbf {E} ^ {T}}

, kde

{ displaystyle mathbf {E}}

je matice vlastních vektorů a

{ displaystyle mathbf {D}}

je diagonální matice vlastních čísel. Takto zbarvená datová matice je definována pomocí

{ displaystyle mathbf {X} leftarrow mathbf {D} ^ {- 1/2} mathbf {E} ^ {T} mathbf {X}.}

Extrakce jedné složky

Iterativní algoritmus najde směr vektoru hmotnosti ${ displaystyle mathbf {w} in mathbb {R} ^ {N}}$ který maximalizuje míru negaussianity projekce ${ displaystyle mathbf {w} ^ {T} mathbf {X}}$ , s ${ displaystyle mathbf {X} in mathbb {R} ^ {N krát M}}$ označující a předbělený datová matice, jak je popsáno výše ${ displaystyle mathbf {w}}$ je sloupcový vektor. Pro měření non-Gaussianity se FastICA spoléhá na nonquadratic nelineární funkce ${ displaystyle f (u)}$ , jeho první derivát ${ displaystyle g (u)}$ a jeho druhý derivát ${ displaystyle g ^ { prime} (u)}$ . Hyvärinen uvádí, že funguje

{ displaystyle f (u) = log cosh (u), quad g (u) = tanh (u), quad { text {a}} quad {g} '(u) = 1- tanh ^ {2} (u),}

jsou užitečné pro obecné účely, zatímco

{ displaystyle f (u) = - e ^ {- u ^ {2} / 2}, quad g (u) = ue ^ {- u ^ {2} / 2}, quad { text {a} } quad {g} '(u) = (1-u ^ {2}) e ​​^ {- u ^ {2} / 2}}

může být vysoce robustní.^[1] Kroky pro extrahování váhového vektoru ${ displaystyle mathbf {w}}$ pro jednotlivé komponenty ve FastICA jsou následující:

Náhodný výběr vektoru počáteční hmotnosti ${ displaystyle mathbf {w}}$
Nechat ${ displaystyle mathbf {w} ^ {+} leftarrow E left { mathbf {X} g ( mathbf {w} ^ {T} mathbf {X}) ^ {T} right } - E left {g '( mathbf {w} ^ {T} mathbf {X}) right } mathbf {w}}$ , kde ${ displaystyle E left {... right }}$ znamená průměrování přes všechny sloupcové vektory matice ${ displaystyle mathbf {X}}$
Nechat ${ displaystyle mathbf {w} leftarrow mathbf {w} ^ {+} / | mathbf {w} ^ {+} |}$
Pokud není konvergovaná, vraťte se zpět na 2

Extrakce více složek

Jednotkový iterační algoritmus odhaduje pouze jeden váhový vektor, který extrahuje jednu složku. Odhad dalších vzájemně „nezávislých“ komponent vyžaduje opakování algoritmu pro získání lineárně nezávislých projekčních vektorů - všimněte si, že pojem nezávislost zde se odkazuje na maximalizaci non-Gaussianity v odhadovaných složkách. Hyvärinen poskytuje několik způsobů extrakce více komponent, přičemž nejjednodušší je následující. Tady, ${ displaystyle mathbf {1_ {M}}}$ je sloupcový vektor 1 dimenze ${ displaystyle M}$ .

Algoritmus FastICA

Vstup:

{ displaystyle C}

Počet požadovaných komponent

Vstup:

{ displaystyle mathbf {X} in mathbb {R} ^ {N krát M}}

Předbělá matice, kde každý sloupec představuje

{ displaystyle N}

-dimenzionální vzorek, kde

{ displaystyle C <= N}

Výstup:

{ displaystyle mathbf {W} in mathbb {R} ^ {N krát C}}

Un-míchání matice, kde každý sloupec projekty

{ displaystyle mathbf {X}}

na nezávislou složku.

Výstup:

{ displaystyle mathbf {S} in mathbb {R} ^ {C krát M}}

Matice nezávislých komponent, s

{ displaystyle M}

sloupce představující vzorek s

{ displaystyle C}

rozměry.

 pro str v 1 až C:  ${ displaystyle mathbf {w_ {p}} leftarrow}$  Náhodný vektor délky N    zatímco  ${ displaystyle mathbf {w_ {p}}}$  Změny  ${ displaystyle mathbf {w_ {p}} leftarrow { frac {1} {M}} mathbf {X} g ( mathbf {w_ {p}} ^ {T} mathbf {X}) ^ { T} - { frac {1} {M}} g '( mathbf {w_ {p}} ^ {T} mathbf {X}) mathbf {1_ {M}} mathbf {w_ {p}} }$          ${ displaystyle mathbf {w_ {p}} leftarrow mathbf {w_ {p}} - sum _ {j = 1} ^ {p-1} ( mathbf {w_ {p}} ^ {T} mathbf {w_ {j}}) mathbf {w_ {j}}}$          ${ displaystyle mathbf {w_ {p}} leftarrow { frac { mathbf {w_ {p}}} { | mathbf {w_ {p}} |}}}$ 
 výstup  ${ displaystyle mathbf {W} leftarrow { begin {bmatrix} mathbf {w_ {1}}, dots, mathbf {w_ {C}} end {bmatrix}}}$ 
 výstup  ${ displaystyle mathbf {S} leftarrow mathbf {W ^ {T}} mathbf {X}}$

Hlučná extrakce

Je pozoruhodné poznamenat, že Fast ICA je extrémně robustní vůči aditivnímu šumu ve smíšeném signálu. Zvažte následující hlučný model.

{ displaystyle mathbf {X} = mathbf {A} mathbf {s} + mathbf {n}}

Po předbělení ${ displaystyle mathbf {X}}$ , dopad aditivního hluku ${ displaystyle mathbf {n}}$ při extrakci je výrazně snížena. Odhad ICA na rekonstrukci ${ displaystyle mathbf {s}}$ , řekněme ${ displaystyle mathbf {Y}}$ pro dva případy vysokého a nízkého šumu je uveden obrázek, který jasně podtrhuje robustnost Fast ICA pro aditivní šum.

Viz také

Učení bez dozoru
Strojové učení
The IT ++ knihovna obsahuje implementaci FastICA ve Windows C ++
Infomax

Reference

^ ^A ^b Hyvärinen, A .; Oja, E. (2000). "Analýza nezávislých komponent: Algoritmy a aplikace" (PDF). Neuronové sítě. 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003. doi:10.1016 / S0893-6080 (00) 00026-5. PMID 10946390.
^ Hyvarinen, A. (1999). „Rychlé a robustní algoritmy s pevným bodem pro nezávislou analýzu komponent“ (PDF). Transakce IEEE na neuronových sítích. 10 (3): 626–634. CiteSeerX 10.1.1.297.8229. doi:10.1109/72.761722. PMID 18252563.

externí odkazy

[Hyvarinen-1] A ^b Hyvärinen, A .; Oja, E. (2000). "Analýza nezávislých komponent: Algoritmy a aplikace" (PDF). Neuronové sítě. 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003. doi:10.1016 / S0893-6080 (00) 00026-5. PMID 10946390.

[2] Hyvarinen, A. (1999). „Rychlé a robustní algoritmy s pevným bodem pro nezávislou analýzu komponent“ (PDF). Transakce IEEE na neuronových sítích. 10 (3): 626–634. CiteSeerX 10.1.1.297.8229. doi:10.1109/72.761722. PMID 18252563.

[1]

[2]