Dostatečné zmenšení rozměrů - Sufficient dimension reduction
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
v statistika, dostatečné zmenšení rozměrů (SDR) je paradigma pro analýzu dat, které kombinuje myšlenky zmenšení rozměrů s konceptem dostatečnost.
Redukce rozměrů je již dlouho primárním cílem regresní analýza. Vzhledem k proměnné odpovědi y a a p-dimenzionální predikční vektor Cílem regresní analýzy je studovat distribuci , podmíněné rozdělení z daný . A zmenšení rozměrů je funkce že mapy do podskupiny , k < p, čímž se snižuje dimenze z .[1] Například, může být jeden nebo více lineární kombinace z .
Zmenšení rozměrů se říká, že je dostatečný pokud je distribuce je stejný jako u . Jinými slovy, žádné informace o regrese se neztrácejí při zmenšování dimenze pokud je redukce dostatečná.[1]
Grafická motivace
V regresním prostředí je často užitečné shrnout distribuci graficky. Například lze zvážit a bodový diagram z versus jeden nebo více prediktorů. Bodový graf, který obsahuje všechny dostupné informace o regrese, se nazývá a dostatečný souhrnný graf.
Když je vysoce dimenzionální, zvláště když , je stále náročnější konstruovat a vizuálně interpretovat souhrnné grafy dostatečnosti bez snížení dat. Dokonce i trojrozměrné rozptylové grafy je třeba prohlížet pomocí počítačového programu a třetí dimenzi lze zobrazit pouze otočením souřadnicových os. Pokud však existuje dostatečné zmenšení rozměrů s dostatečně malým rozměrem, dostatečným souhrnným grafem proti mohou být konstruovány a vizuálně interpretovány relativně snadno.
Proto dostatečná redukce dimenze umožňuje grafickou intuici o distribuci , které by jinak pro vysoce dimenzionální data jinak nebyly k dispozici.
Většina grafických metod se primárně zaměřuje na redukci dimenze zahrnující lineární kombinace . Zbytek tohoto článku se zabývá pouze takovými redukcemi.
Podprostor zmenšení dimenze
Předpokládat je dostatečné zmenšení rozměrů, kde je matice s hodnost . Pak regresní informace pro lze odvodit studiem distribuce a spiknutí proti je dostatečný souhrnný graf.
Bez ztráty obecnosti, pouze prostor překlenul podle sloupců je třeba zvážit. Nechat být základ pro prostor sloupců a nechte prostor překlenout být označen . Z definice dostatečného zmenšení dimenze to vyplývá
kde označuje odpovídající distribuční funkce. Dalším způsobem, jak tuto vlastnost vyjádřit, je
nebo je podmíněně nezávislý z , vzhledem k tomu . Pak podprostor je definován jako a dimenzionální podprostor (DRS).[2]
Strukturální rozměrnost
Pro regresi , strukturální rozměr, , je nejmenší počet odlišných lineárních kombinací nezbytné k zachování podmíněné distribuce . Jinými slovy, nejmenší zmenšení rozměrů, které je stále dostatečné mapy do podskupiny . Odpovídající DRS bude d-dimenzionální.[2]
Podprostor zmenšení minimální dimenze
Podprostor se říká, že je minimální DRS pro pokud se jedná o DRS a jeho dimenze je menší nebo stejná jako u všech ostatních DRS pro . Minimální DRS není nutně jedinečný, ale jeho rozměr se rovná strukturálnímu rozměru z , podle definice.[2]
Li má základ a je minimální DRS, pak spiknutí y proti je minimální dostatečný souhrnný graf, a to je (d + 1) -dimenzionální.
Centrální podprostor
Pokud podprostor je DRS pro , a pokud pro všechny ostatní DRS , pak je to podprostor zmenšení centrální dimenze, nebo jednoduše a centrální podprostor, a je označen . Jinými slovy, centrální podprostor pro existuje kdyby a jen kdyby křižovatka všech podprostorů pro redukci dimenzí je také podprostorem pro zmenšení dimenze a tento průsečík je centrálním podprostorem .[2]
Centrální podprostor nemusí nutně existovat, protože křižovatka není nutně DRS. Pokud však dělá existují, pak je to také jedinečný podprostor zmenšení minimální dimenze.[2]
Existence centrálního podprostoru
Zatímco existence centrálního podprostoru není zaručen v každé regresní situaci, existují některé poměrně široké podmínky, za kterých jeho existence přímo následuje. Zvažte například následující návrh od Cooka (1998):
- Nechat a být podprostory pro zmenšení dimenze pro . Li má hustota pro všechny a všude jinde, kde je konvexní, pak křižovatka je také podprostorem zmenšení dimenze.
Z tohoto návrhu vyplývá, že centrální podprostor existuje pro takové .[2]
Metody pro zmenšení rozměrů
Existuje mnoho existujících metod pro zmenšení rozměrů, a to jak grafických, tak numerických. Například, nakrájená inverzní regrese (VÁŽENÝ PANE) a odhad průměrné odchylky na plátky (SAVE) byly zavedeny v 90. letech a jsou i nadále široce používány.[3] Ačkoli SIR byl původně navržen k odhadu efektivní dimenze snižující podprostorNyní je zřejmé, že odhaduje pouze centrální podprostor, který je obecně odlišný.
Mezi nejnovější metody redukce dimenze patří pravděpodobnost - dostatečné zmenšení rozměrů,[4] odhad centrálního podprostoru na základě inverzní třetiny okamžik (nebo kth moment),[5] odhad centrálního prostoru řešení,[6] grafická regrese,[2]model obálky a hlavní vektorový podpůrný stroj.[7] Další podrobnosti o těchto a dalších metodách najdete v statistické literatuře.
Analýza hlavních komponent (PCA) a podobné metody pro zmenšení dimenze nejsou založeny na principu dostatečnosti.
Příklad: lineární regrese
Zvažte regresní model
Všimněte si, že distribuce je stejná jako distribuce . Proto je rozpětí je podprostor zmenšení dimenze. Taky, je 1-dimenzionální (pokud ), takže strukturální rozměr této regrese je .
The OLS odhad z je konzistentní, a tak rozpětí je konzistentní odhadce . Spiknutí proti je dostatečný souhrnný graf pro tuto regresi.
Viz také
- Zmenšení rozměrů
- Krájená inverzní regrese
- Analýza hlavních komponent
- Lineární diskriminační analýza
- Prokletí dimenzionality
- Multilineární podprostorové učení
- Model obálky
Poznámky
- ^ A b Cook & Adragni (2009) Dostatečné zmenšení dimenze a předpověď v regresi V: Filozofické transakce Královské společnosti A: Matematické, fyzikální a technické vědy, 367(1906): 4385–4405
- ^ A b C d E F G Cook, RD (1998) Regresní grafika: Nápady pro studium regresí prostřednictvím grafikyWiley ISBN 0471193658
- ^ Li, K-C. (1991) Krájená inverzní regrese pro zmenšení dimenze V: Journal of the American Statistical Association, 86(414): 316–327
- ^ Cook, RD a Forzani, L. (2009) Dostatečné zmenšení dimenze na základě pravděpodobnosti V: Journal of the American Statistical Association, 104(485): 197–208
- ^ Yin, X. a Cook, RD (2003) Odhad centrálních podprostorů pomocí inverzních třetích okamžiků V: Biometrika, 90(1): 113–125
- ^ Li, B. a Dong, Y.D. (2009) Snížení dimenze pro neellipticky distribuované prediktory V: Annals of Statistics, 37(3): 1272–1298
- ^ Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "Hlavní podpůrné vektorové stroje pro lineární a nelineární dostatečné zmenšení rozměrů". Annals of Statistics. 39 (6): 3182–3210. arXiv:1203.2790. doi:10.1214 / 11-AOS932.
Reference
- Cook, RD (1998) Regresní grafika: Nápady pro studium regresí prostřednictvím grafiky, Wiley Series v Pravděpodobnost a statistika. Regresní grafika.
- Cook, RD a Adragni, K.P. (2009) „Dostatečné zmenšení dimenze a predikce regrese“, Filozofické transakce Královské společnosti A: Matematické, fyzikální a technické vědy, 367(1906), 4385–4405. Celý text
- Cook, R. D. a Weisberg, S. (1991) „Plátková inverzní regrese pro zmenšení dimenze: Komentář“, Journal of the American Statistical Association, 86(414), 328–332. Jstor
- Li, K-C. (1991) „Plátková inverzní regrese pro zmenšení dimenze“, Journal of the American Statistical Association, 86(414), 316–327. Jstor