Odhad kovariančních matic - Estimation of covariance matrices
v statistika, někdy kovarianční matice a vícerozměrná náhodná proměnná není známo, ale musí být odhadovaný. Odhad kovariančních matic poté se zabývá otázkou, jak aproximovat skutečnou kovarianční matici na základě vzorku z vícerozměrná distribuce. Jednoduché případy, kdy jsou pozorování úplná, lze řešit pomocí ukázková kovarianční matice. Ukázková kovarianční matice (SCM) je objektivní a efektivní odhad kovarianční matice, pokud je prostor kovariančních matic považován za vnější konvexní kužel v Rstr×str; měřeno však pomocí vnitřní geometrie z pozitivně definitivní matice, SCM je a předpojatý a neefektivní odhadce.[1] Kromě toho, pokud má náhodná proměnná normální distribuce, má ukázková kovarianční matice Wishart distribuce a jeho mírně odlišnou verzí je odhad maximální věrohodnosti. Případy týkající se chybějící data vyžadují hlubší úvahy. Dalším problémem je robustnost na odlehlé hodnoty, na které jsou matice kovariančních vzorků vysoce citlivé.[2][3][4]
Statistické analýzy vícerozměrných dat často zahrnují průzkumné studie způsobu, jakým se proměnné mění ve vztahu k sobě navzájem, a na ně může navazovat explicitní statistické modely zahrnující kovarianční matici proměnných. Odhad kovariančních matic přímo z pozorovacích dat tedy hraje dvě role:
- poskytnout počáteční odhady, které lze použít ke studiu vzájemných vztahů;
- poskytnout odhady vzorků, které lze použít pro kontrolu modelu.
Odhady kovariančních matic jsou vyžadovány v počátečních fázích roku analýza hlavních komponent a faktorová analýza, a jsou také zapojeni do verzí regresní analýza které léčí závislé proměnné v souboru dat společně s nezávislé proměnné jako výsledek náhodného vzorku.
Odhad v obecném kontextu
Vzhledem k tomu, vzorek skládající se z n nezávislá pozorování X1,..., Xn a str-dimenzionální náhodný vektor X ∈ Rstr×1 (A str× 1 sloupcový vektor), an objektivní odhadce z (str×str) kovarianční matice
je ukázková kovarianční matice
kde je i-té pozorování str-dimenzionální náhodný vektor a vektor
je průměr vzorku To platí bez ohledu na rozdělení náhodné proměnné X, samozřejmě za předpokladu, že existují teoretické prostředky a kovariance. Důvod faktoru n - Spíše než 1 n je v podstatě stejný jako důvod, proč se stejný faktor objevuje v nezaujatých odhadech odchylky vzorku a ukázkové kovariance, který souvisí se skutečností, že průměr není znám, a je nahrazen průměrem vzorku (viz Besselova korekce ).
V případech, kdy je distribuce náhodná proměnná X je známo, že spadá do určité skupiny distribucí, lze na základě tohoto předpokladu odvodit další odhady. Známým příkladem je situace, kdy náhodná proměnná X je normálně distribuováno: v tomto případě maximální pravděpodobnost odhadce kovarianční matice se mírně liší od nezaujatého odhadu a je dána vztahem
Odvození tohoto výsledku je uvedeno níže. Je zřejmé, že rozdíl mezi nezaujatým odhadcem a odhadem maximální pravděpodobnosti se u velkých zmenšuje n.
V obecném případě poskytuje nestranný odhad kovarianční matice přijatelný odhad, když jsou datové vektory ve sledované datové sadě úplné: to znamená, že neobsahují žádný chybějící prvky. Jedním z přístupů k odhadu kovarianční matice je zacházet s odhadem každé variance nebo párové kovariance samostatně a použít všechna pozorování, pro která mají obě proměnné platné hodnoty. Za předpokladu, že chybějící data jsou náhodně chybí výsledkem je odhad kovarianční matice, který je nestranný. U mnoha aplikací však tento odhad nemusí být přijatelný, protože není zaručeno, že odhadovaná kovarianční matice bude kladná semitečná. To by mohlo vést k odhadovaným korelacím majícím absolutní hodnoty, které jsou větší než jedna, a / nebo neinvertibilní kovarianční matici.
Při odhadu křížová kovariance z dvojice signálů, které jsou širokoúhlý stacionární, chybějící vzorky ano ne musí být náhodné (např. dílčí vzorkování libovolným faktorem je platné).[Citace je zapotřebí ]
Odhad maximální pravděpodobnosti pro vícerozměrné normální rozdělení
Náhodný vektor X ∈ Rstr (A str× 1 "vektor sloupce") má vícerozměrné normální rozdělení s nesingulární kovarianční maticí Σ přesně tehdy, když Σ ∈ Rstr × str je pozitivně definitivní matice a funkce hustoty pravděpodobnosti z X je
kde μ ∈ Rstr×1 je očekávaná hodnota z X. The kovarianční matice Σ je vícerozměrný analog toho, co by v jedné dimenzi bylo rozptyl, a
normalizuje hustotu takže se integruje do 1.
Předpokládejme, že teď X1, ..., Xn jsou nezávislý a identicky distribuované vzorky z výše uvedené distribuce. Založeno na sledované hodnoty X1, ..., Xn z toho vzorek, chceme odhadnout Σ.
První kroky
Funkce pravděpodobnosti je:
Je poměrně snadno prokázáno, že maximální pravděpodobnost odhad středního vektoru μ je "průměr vzorku " vektor:
Vidět část o odhadu v článku o normálním rozdělení pro detaily; proces je zde podobný.
Od odhadu nezávisí na Σ, můžeme jej pouze nahradit μ v funkce pravděpodobnosti, získávání
a poté hledejte hodnotu Σ, která maximalizuje pravděpodobnost dat (v praxi je snazší pracovat s logem)).
Stopa matice 1 × 1
Nyní se dostáváme k prvnímu překvapivému kroku: respektujte skalární jako stopa matice 1 × 1. To umožňuje použít identitu tr (AB) = tr (BA) kdykoli A a B jsou matice tak tvarované, že existují oba produkty. Dostaneme
kde
se někdy nazývá rozptylová matice, a je kladně definitivní, pokud existuje podmnožina dat sestávající z afinně nezávislá pozorování (což budeme předpokládat).
Použití spektrální věty
Vyplývá to z spektrální věta z lineární algebra že kladně definitivní symetrická matice S má jedinečnou kladně definitivní symetrickou odmocninu S1/2. Můžeme znovu použít "cyklická vlastnost" stopy k zápisu
Nechat B = S1/2 Σ −1 S1/2. Pak se stane výše uvedený výraz
Matice s kladnou definicí B může být diagonalizován, a pak problém najít hodnotu B který maximalizuje
Protože stopa čtvercové matice se rovná součtu vlastních hodnot ("trace and eigenvalues" ), rovnice se redukuje na problém hledání vlastních hodnot λ1, ..., λstr které maximalizují
Toto je jen problém s kalkulem a dostaneme λi = n pro všechny i. Předpokládejme tedy Q je tedy matice vlastních vektorů
tj., n krát str×str matice identity.
Závěrečné kroky
Konečně máme
tj str×str "ukázková kovarianční matice"
je odhad maximální pravděpodobnosti "populační kovarianční matice" Σ. V tomto okamžiku používáme kapitál X spíše než malá písmena X protože o tom přemýšlíme „spíše než o odhadu než o odhadu“, tj. o něčem náhodném, jehož rozdělení pravděpodobnosti bychom mohli znát. Náhodná matice S lze prokázat, že mají Wishart distribuce s n - 1 stupeň volnosti.[5] To je:
Alternativní odvození
Alternativní odvození odhadu maximální pravděpodobnosti lze provést pomocí maticový počet vzorce (viz také diferenciální determinant a diferenciální inverzní matice ). Ověřuje také výše uvedenou skutečnost o odhadu maximální pravděpodobnosti průměru. Pravděpodobnost znovu zapište do protokolu pomocí trasovacího triku:
Diferenciál této log-pravděpodobnosti je
Přirozeně se rozpadá na část týkající se odhadu průměru a na část související s odhadem rozptylu. The podmínka první objednávky pro maximum, , je spokojen, když se podmínky násobí a jsou shodně nulové. Za předpokladu (odhad maximální pravděpodobnosti) je nesingulární, podmínka prvního řádu pro odhad středního vektoru je
což vede k odhadu maximální pravděpodobnosti
To nám umožňuje zjednodušit
jak je definováno výše. Pak pojmy zahrnující v lze kombinovat jako
Podmínka první objednávky bude platit, když je výraz v hranaté závorce (s maticovou hodnotou) nula. Přednásobení posledně jmenovaného pomocí a dělení dává
což se samozřejmě shoduje s kanonickou derivací uvedenou dříve.
Dwyer [6] poukazuje na to, že rozklad na dva termíny, jak se jeví výše, je „zbytečný“ a odvozuje odhad do dvou pracovních linií. Všimněte si, že nemusí být triviální ukázat, že takový odvozený odhad je jedinečným globálním maximalizátorem funkce pravděpodobnosti.
Odhad vnitřní kovarianční matice
Skutečné očekávání
Vzhledem k tomu, vzorek z n nezávislá pozorování X1,..., Xn a str-rozměrná nulová střední Gaussova náhodná proměnná X s kovariancí R, maximální pravděpodobnost odhadce z R je dána
Parametr R patří do souboru pozitivně definitivní matice, což je Riemannovo potrubí, ne a vektorový prostor, proto obvyklé pojmy vektorového prostoru očekávání, tj. „E [R^] "a zkreslení odhadu je třeba zobecnit na různá potrubí, aby měl smysl pro problém odhadu kovarianční matice. Toho lze dosáhnout definováním očekávání odhadce s různým oceněním R^ s ohledem na bod s různým oceněním R tak jako
kde
jsou exponenciální mapa a inverzní exponenciální mapa, v uvedeném pořadí, „exp“ a „log“ označují běžnou exponenciální matice a maticový logaritmus, a E [·] je běžný operátor očekávání definovaný ve vektorovém prostoru, v tomto případě tečný prostor potrubí.[1]
Předpětí kovarianční matice vzorku
The vnitřní zkreslení vektorové pole SCM odhadce je definován jako
Vnitřní zkreslení odhadu je pak dáno vztahem .
Pro komplex Gaussovské náhodné proměnné, toto vektorové pole zkreslení lze zobrazit[1] rovnat se
kde
a ψ (·) je funkce digamma. Vnitřní předpětí kovarianční matice vzorku se rovná
a SCM je asymptoticky nezaujatý n → ∞.
Podobně vnitřní neefektivnost vzorku kovarianční matice závisí na Riemannovo zakřivení prostoru pozitivně určitých matic.
Odhad smrštění
Pokud velikost vzorku n je malý a počet uvažovaných proměnných str je velký, výše uvedené empirické odhady kovariance a korelace jsou velmi nestabilní. Konkrétně je možné poskytnout odhady, které se výrazně zlepšují při odhadu maximální pravděpodobnosti, pokud jde o střední kvadratickou chybu. Navíc pro n < str (počet pozorování je menší než počet náhodných proměnných) stane se empirický odhad kovarianční matice jednotné číslo, tj. nelze jej invertovat k výpočtu přesná matice.
Jako alternativa bylo navrženo mnoho metod ke zlepšení odhadu kovarianční matice. Všechny tyto přístupy se opírají o koncept smršťování. To je implicitní v Bayesovské metody a v penalizaci maximální pravděpodobnost metody a explicitní v Přístup ke smršťování typu Stein.
Jednoduchou verzi odhadu smrštění kovarianční matice představuje Ledoit-Wolfův odhad smrštění.[7][8][9][10] Jeden považuje za konvexní kombinace empirického odhadce () s nějakým vhodně zvoleným cílem (), např. diagonální matice. Následně je směšovací parametr () je vybrán pro maximalizaci očekávané přesnosti zmenšeného odhadce. To lze provést pomocí křížová validace, nebo pomocí analytického odhadu intenzity smrštění. Výsledný legalizovaný odhad () lze prokázat, že překonává odhad maximální pravděpodobnosti u malých vzorků. U velkých vzorků se intenzita smrštění sníží na nulu, proto bude v tomto případě odhad smršťování identický s empirickým odhadem. Kromě zvýšené účinnosti má odhad smrštění další výhodu v tom, že je vždy pozitivní, určitý a dobře podmíněný.
Byly navrženy různé cíle smršťování:
- the matice identity průměrně zmenšen rozptyl vzorku;
- the model s jedním indexem;
- model s konstantní korelací, kde jsou zachovány rozptyly vzorků, ale všechny po párech korelační koeficienty předpokládá se, že jsou si navzájem rovny;
- dvouparametrická matice, kde jsou všechny odchylky identické, a všechny kovariance jsou navzájem identické (ačkoli ne shodné s odchylkami);
- the diagonální matice obsahující rozptyly vzorků na úhlopříčce a nuly všude jinde;
- the matice identity.[8]
Odhad smršťování lze zobecnit na víceúčelový odhad smršťování, který využívá několik cílů současně.[11] Software pro výpočet odhadu zmenšení kovariance je k dispozici v R (balíčky corpcor[12] a ShrinkCovMat[13]), v Krajta (knihovna scikit-učit se ) a v MATLAB.[14]
Nejbližší platná matice
V některých aplikacích (např. Budování datových modelů pouze z částečně pozorovaných dat) chceme najít „nejbližší“ kovarianční matici nebo korelační matici k dané symetrické matici (např. Pozorovaných kovariancí). V roce 2002 Higham[15] formalizoval pojem blízkosti pomocí váženého Frobeniova norma a poskytl metodu pro výpočet nejbližší korelační matice.
Viz také
Reference
- ^ A b C Smith, Steven Thomas (květen 2005). „Kovariance, subprostor a vnitřní hranice Cramér – Rao“. IEEE Trans. Proces signálu. 53 (5): 1610–1630. doi:10.1109 / TSP.2005.845428. S2CID 2751194.
- ^ Robustní statistiky, Peter J. Huber, Wiley, 1981 (publikováno v brožované verzi, 2004)
- ^ "Modern applied statistics with S", William N. Venables, Brian D. Ripley Springer, 2002, ISBN 0-387-95457-0, ISBN 978-0-387-95457-8, strana 336
- ^ Devlin, Susan J.; Gnanadesikan, R .; Kettenring, J. R. (1975). "Robustní odhad a detekce odlehlé hodnoty s korelačními koeficienty". Biometrika. 62 (3): 531–545. doi:10.1093 / biomet / 62.3.531.
- ^ K.V. Mardia, J.T. Kent, a J.M. Bibby (1979) Vícerozměrná analýza, Akademický tisk.
- ^ Dwyer, Paul S. (červen 1967). "Některé aplikace maticových derivátů ve vícerozměrné analýze". Journal of the American Statistical Association. 62 (318): 607–625. doi:10.2307/2283988. JSTOR 2283988.
- ^ O. Ledoit a M. Wolf (2004a) "Dobře podmíněný odhad pro velkoplošné kovarianční matice Archivováno 05.12.2014 na Wayback Machine " Journal of Multivariate Analysis 88 (2): 365—411.
- ^ A b A. Touloumis (2015) "Neparametrické odhady kovarianční matice smršťování Steinova typu ve vysokodimenzionálním nastavení " Výpočetní statistika a analýza dat 83: 251—261.
- ^ O. Ledoit a M. Wolf (2003) "Vylepšený odhad kovarianční matice výnosů akcií s aplikací na výběr portfolia Archivováno 05.12.2014 na Wayback Machine " Journal of Empirical Finance 10 (5): 603—621.
- ^ O. Ledoit a M. Wolf (2004b) "Zlato, zmenšil jsem vzorkovou kovarianční matici Archivováno 05.12.2014 na Wayback Machine " The Journal of Portfolio Management 30 (4): 110—119.
- ^ T. Lancewicki a M. Aladjem (2014) "Odhad vícecílového smrštění pro matice kovariance ", Transakce IEEE při zpracování signálu, Ročník: 62, číslo 24, stránky: 6380-6390.
- ^ corpcor: Efektivní odhad kovariance a (částečné) korelace, CRAN
- ^ ShrinkCovMat: Odhad matrice kovarianční matice, CRAN
- ^ Kód MATLAB pro smršťovací cíle: škálovaná identita, model s jedním indexem, model konstantní korelace, dvouparametrická matice, a diagonální matice.
- ^ Higham, Nicholas J. (2002). "Výpočet nejbližší korelační matice - problém z financí". IMA Journal of Numerical Analysis. 22 (3): 329–343. CiteSeerX 10.1.1.661.2180. doi:10.1093 / imanum / 22.3.329.