Kanonická korelace - Canonical correlation
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
v statistika, kanonicko-korelační analýza (CCA), také zvaný kanonické variace analýzy, je způsob, jak odvodit informace z křížové kovarianční matice. Pokud máme dva vektory X = (X1, ..., Xn) a Y = (Y1, ..., Ym) z náhodné proměnné, a jsou korelace mezi proměnnými pak kanonicko-korelační analýza najde lineární kombinace X a Y které mají maximální vzájemnou korelaci.[1] T. R. Knapp konstatuje, že „prakticky se setkáváme prakticky se všemi parametrické testy významnosti lze považovat za zvláštní případy kanonicko-korelační analýzy, což je obecný postup pro vyšetřování vztahů mezi dvěma sadami proměnných. “[2] Metodu poprvé představil Harold Hotelling v roce 1936,[3] i když v kontextu úhly mezi plochami matematický koncept publikoval Jordan v roce 1875.[4]
Definice
Vzhledem k tomu dva vektory sloupců a z náhodné proměnné s konečný druhé okamžiky, lze definovat křížová kovariance být matice jehož položka je kovariance . V praxi bychom odhadovali kovarianční matici na základě vzorkovaných dat z a (tj. z dvojice datových matic).
Kanonicko-korelační analýza hledá vektory () a () takové, že náhodné proměnné a maximalizovat korelace . Náhodné proměnné a jsou první pár kanonických proměnných. Pak jeden hledá vektory maximalizující stejnou korelaci s výhradou omezení, že mají být nekorelované s první dvojicí kanonických proměnných; to dává druhá dvojice kanonických proměnných. Tento postup může pokračovat až do krát.
Výpočet
Derivace
Nechat být křížově kovarianční matice pro libovolné náhodné proměnné a . Parametr k maximalizaci je
Prvním krokem je definování a změna základny a definovat
A tak to máme
Podle Cauchy – Schwarzova nerovnost, my máme
Tam je rovnost, pokud vektory a jsou kolineární. Kromě toho je dosaženo maximální korelace, pokud je vlastní vektor s maximálním vlastním číslem pro matici (vidět Rayleighův kvocient ). Následující páry jsou nalezeny pomocí vlastní čísla klesajících velikostí. Ortogonalita je zaručena symetrií korelačních matic.
Jiný způsob zobrazení tohoto výpočtu je ten a jsou levý a pravý singulární vektory korelační matice X a Y odpovídající nejvyšší singulární hodnotě.
Řešení
Řešení tedy je:
- je vlastní vektor
- je úměrný
Recipročně existuje také:
- je vlastní vektor
- je úměrný
Když obrátíme změnu souřadnic, máme to
- je vlastní vektor ,
- je úměrný
- je vlastní vektor
- je úměrný .
Kanonické proměnné jsou definovány:
Implementace
CCA lze vypočítat pomocí rozklad singulární hodnoty na korelační matici.[5] Je k dispozici jako funkce v[6]
- MATLAB tak jako canoncorr (taky v Oktáva )
- R jako standardní funkce cancor a několik dalších balíčků, včetně CCA a vegan. CCP pro testování statistických hypotéz v kanonické korelační analýze.
- SAS tak jako proc cancorr
- Krajta v knihovně scikit-učit se, tak jako Křížový rozklad a v statsmodels, tak jako CanCorr.
- SPSS jako makro CanCorr dodávané s hlavním softwarem
- Julia (programovací jazyk) v MultivariateStats.jl balík.
Výpočet CCA pomocí rozklad singulární hodnoty na korelační matici souvisí s kosinus z úhly mezi plochami. The kosinus funkce je špatně podmíněný pro malé úhly, což vede k velmi nepřesnému výpočtu vysoce korelovaných hlavních vektorů v konečné podobě přesnost počítačová aritmetika. Na opravit tento problém, alternativní algoritmy[7] jsou k dispozici v
- SciPy tak jako funkce lineární algebry subspace_angles
- MATLAB tak jako Funkce FileExchange subspacea
Testování hypotéz
Každý řádek lze testovat na význam pomocí následující metody. Protože jsou korelace řazeny, říká se ten řádek je nula znamená, že všechny další korelace jsou také nula. Pokud ano nezávislá pozorování ve vzorku a je odhadovaná korelace pro . Pro v tomto řádku je statistika testu:
který je asymptoticky distribuován jako a chi-kvadrát s stupně svobody pro velké .[8] Protože všechny korelace z na jsou logicky nulové (a odhadují se také tímto způsobem) produkt pro výrazy po tomto bodě je irelevantní.
Všimněte si, že v malém limitu velikosti vzorku s pak máme zaručeno, že vrchol korelace budou shodně 1, a proto je test bezvýznamný.[9]
Praktické využití
Typickým použitím pro kanonickou korelaci v experimentálním kontextu je vzít dvě sady proměnných a zjistit, co je mezi těmito dvěma skupinami společné.[10] Například v psychologických testech by člověk mohl vzít dva dobře zavedené multidimenzionální testy osobnosti tak jako Minnesota Multiphasic Personality Inventory (MMPI-2) a NEO. Když jsme viděli, jak faktory MMPI-2 souvisejí s faktory NEO, bylo by možné získat přehled o tom, jaké dimenze byly mezi testy běžné a kolik variací bylo sdíleno. Například by se dalo zjistit, že extraverze nebo neuroticismus dimenze představovala značné množství sdílené odchylky mezi těmito dvěma testy.
Lze také použít kanonicko-korelační analýzu k vytvoření modelové rovnice, která se týká dvou sad proměnných, například sady měřítek výkonu a sady vysvětlujících proměnných nebo sady výstupů a sady vstupů. Na takový model lze uvalit omezení, aby bylo zajištěno, že odráží teoretické požadavky nebo intuitivně zjevné podmínky. Tento typ modelu je znám jako model maximální korelace.[11]
Vizualizace výsledků kanonické korelace je obvykle pomocí sloupcových grafů koeficientů dvou sad proměnných pro páry kanonických variací, které ukazují významnou korelaci. Někteří autoři naznačují, že je nejlepší je zobrazit tak, že je vykreslíme jako heliografy, kruhový formát s paprskovými pruhy, přičemž každá polovina představuje dvě sady proměnných.[12]
Příklady
Nechat s nulou očekávaná hodnota, tj., . Li , tj., a jsou dokonale korelované, pak např. a , takže první (a pouze v tomto příkladu) pár kanonických proměnných je a . Li , tj., a jsou dokonale antikorelující, pak např. a , takže první (a pouze v tomto příkladu) pár kanonických proměnných je a . Všimli jsme si, že v obou případech , což ukazuje, že kanonicko-korelační analýza zachází s korelovanými a antikorelačními proměnnými podobně.
Spojení s hlavními úhly
Za předpokladu, že a mít nulu očekávané hodnoty, tj., , jejich kovariance matice a lze zobrazit jako Gramové matice v vnitřní produkt pro položky z a odpovídajícím způsobem. V této interpretaci náhodné proměnné, položky z a z jsou považovány za prvky vektorového prostoru s vnitřním součinem daným znakem kovariance ; vidět Covariance # Vztah k vnitřním produktům.
Definice kanonických proměnných a je pak ekvivalentní definici hlavní vektory pro pár podprostorů překlenutých položkami a s ohledem na to vnitřní produkt. Kanonické korelace se rovná kosinus z hlavní úhly.
Bělení a pravděpodobnostní kanonická korelační analýza
CCA lze také považovat za speciální bělící transformace kde náhodné vektory a jsou současně transformovány takovým způsobem, že vzájemná korelace mezi bělenými vektory a je úhlopříčka.[13]Kanonické korelace jsou poté interpretovány jako spojovací regresní koeficienty a a může být také negativní. Regresní pohled na CCA také poskytuje způsob konstrukce pravděpodobnostní generativní model latentní proměnné pro CCA, přičemž nekorelované skryté proměnné představují sdílenou a nesdílenou variabilitu.
Viz také
- Zobecněná kanonická korelace
- Multilineární podprostorové učení
- Koeficient RV
- Úhly mezi plochami
- Analýza hlavních komponent
- Lineární diskriminační analýza
- Regularizovaná kanonická korelační analýza
- Rozklad singulární hodnoty
- Částečná regrese nejmenších čtverců
Reference
- ^ Härdle, Wolfgang; Simar, Léopold (2007). "Kanonická korelační analýza". Aplikovaná statistická analýza s více proměnnými. 321–330. CiteSeerX 10.1.1.324.403. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4.
- ^ Knapp, T. R. (1978). „Kanonická korelační analýza: Obecný parametrický systém testování významnosti“. Psychologický bulletin. 85 (2): 410–416. doi:10.1037/0033-2909.85.2.410.
- ^ Hotelling, H. (1936). "Vztahy mezi dvěma sadami variací". Biometrika. 28 (3–4): 321–377. doi:10.1093 / biomet / 28.3-4.321. JSTOR 2333955.
- ^ Jordan, C. (1875). „Essai sur la géométrie à rozměry". Býk. Soc. Matematika. Francie. 3: 103.
- ^ Hsu, D .; Kakade, S. M .; Zhang, T. (2012). „Spektrální algoritmus pro učení skrytých Markovových modelů“ (PDF). Journal of Computer and System Sciences. 78 (5): 1460. arXiv:0811.4413. doi:10.1016 / j.jcss.2011.12.025.
- ^ Huang, S. Y .; Lee, M. H .; Hsiao, C. K. (2009). „Nelineární míry asociace s kanonickou korelační analýzou a aplikacemi jádra“ (PDF). Journal of Statistical Planning and Inference. 139 (7): 2162. doi:10.1016 / j.jspi.2008.10.011.
- ^ Knyazev, A.V .; Argentati, M.E. (2002), „Hlavní úhly mezi podprostory ve skalárním produktu na bázi A: Algoritmy a odhady odchylek“, SIAM Journal on Scientific Computing, 23 (6): 2009–2041, CiteSeerX 10.1.1.73.2914, doi:10.1137 / S1064827500377332
- ^ Kanti V. Mardia, J. T. Kent a J. M. Bibby (1979). Vícerozměrná analýza. Akademický tisk.
- ^ Yang Song, Peter J. Schreier, David Ram´ırez a Tanuj Hasija Kanonická korelační analýza vysoce dimenzionálních dat s velmi malou podporou vzorků arXiv:1604.02047
- ^ Sieranoja, S .; Sahidullah, Md; Kinnunen, T .; Komulainen, J .; Hadid, A. (červenec 2018). „Detekce audiovizuální synchronizace s optimalizovanými zvukovými funkcemi“ (PDF). IEEE 3. Int. Konference o zpracování signálu a obrazu (ICSIP 2018).
- ^ Tofallis, C. (1999). "Vytváření modelů s více závislými proměnnými a omezeními". Journal of the Royal Statistical Society, Series D. 48 (3): 371–378. arXiv:1109.0725. doi:10.1111/1467-9884.00195.
- ^ Degani, A .; Shafto, M .; Olson, L. (2006). „Kanonická korelační analýza: Použití kompozitních heliografů pro reprezentaci více vzorů“ (PDF). Schematické znázornění a odvození. Přednášky z informatiky. 4045. str. 93. CiteSeerX 10.1.1.538.5217. doi:10.1007/11783183_11. ISBN 978-3-540-35623-3.
- ^ Jendoubi, T .; Strimmer, K. (2018). „Bělicí přístup k pravděpodobnostní kanonické korelační analýze pro integraci dat omics“. BMC bioinformatika. 20 (1): 15. arXiv:1802.03490. doi:10.1186 / s12859-018-2572-9. PMC 6327589. PMID 30626338.
externí odkazy
- Diskriminační korelační analýza (DCA)[1] (MATLAB )
- Hardoon, D. R .; Szedmak, S .; Shawe-Taylor, J. (2004). "Kanonická korelační analýza: Přehled s využitím metod učení". Neurální výpočet. 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452. doi:10.1162/0899766042321814. PMID 15516276.
- Poznámka k ordinální kanonicko-korelační analýze dvou sad hodnotících skóre (Také poskytuje FORTRAN program) - v Journal of Quantitative Economics 7 (2), 2009, s. 173–199
- Analýza kanonické korelace s omezením reprezentace: Hybridizace kanonické korelace a analýzy hlavních komponent (Také poskytuje FORTRAN program) - v Journal of Applied Economic Sciences 4 (1), 2009, s. 115–124
- ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). „Diskriminační korelační analýza: fúze úrovní funkcí v reálném čase pro multimodální biometrické rozpoznávání“. Transakce IEEE týkající se forenzní a bezpečnostní informace. 11 (9): 1984–1996. doi:10.1109 / TIFS.2016.2569061.