Regrese hlavní součásti - Principal component regression
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
v statistika, regrese hlavní složky (PCR) je regresní analýza technika, na které je založen analýza hlavních komponent (PCA). Přesněji řečeno, PCR se používá pro odhadování neznámý regresní koeficienty v standardní lineární regresní model.
V PCR namísto přímé regrese závislé proměnné na vysvětlujících proměnných se hlavní komponenty vysvětlujících proměnných se používá jako regresory. Jeden obvykle používá pro regresi pouze podmnožinu všech hlavních komponent, což z PCR dělá něco jako legalizovaný postup a také typ odhad zmenšení.
Často hlavní komponenty s vyšší odchylky (ty založené na vlastní vektory odpovídající vyššímu vlastní čísla z vzorek variance-kovarianční matice vysvětlujících proměnných) jsou vybrány jako regresory. Avšak za účelem předpovídání Výsledkem mohou být také důležité hlavní komponenty s malými odchylkami, v některých případech dokonce ještě důležitější.[1]
Jedno hlavní použití PCR spočívá v překonání multicollinearity problém, který vzniká, když jsou dvě nebo více vysvětlujících proměnných blízko k bytí kolineární.[2] PCR si s takovými situacemi dokáže vhodně poradit tak, že v regresním kroku vyloučí některé hlavní komponenty s nízkou variací. Kromě toho může PCR vést k tomu, že obvykle ustoupí pouze u podmnožiny všech hlavních složek zmenšení rozměrů podstatným snížením efektivního počtu parametrů charakterizujících základní model. To může být užitečné zejména v nastaveních s vysoce dimenzionální kovariáty. Také prostřednictvím vhodného výběru hlavních komponent, které mají být použity pro regresi, může PCR vést k efektivnímu předpověď výsledku na základě předpokládaného modelu.
Princip
Metodu PCR lze rozdělit do tří hlavních kroků:
- 1. Provést PCA na pozorovaném datová matice pro vysvětlující proměnné získáte hlavní složky a poté (obvykle) na základě některých vhodných kritérií vyberete podmnožinu takto získaných hlavních složek pro další použití.
- 2. Nyní regresujte pozorovaný vektor výsledků na vybraných hlavních složkách jako kovariáty pomocí obyčejné nejmenší čtverce regrese (lineární regrese ) získat vektor odhadovaných regresních koeficientů (s dimenze se rovná počtu vybraných hlavních komponent).
- 3. Nyní přeměnit tento vektor zpět na měřítko skutečných kovariát, pomocí zvoleného Zatížení PCA (vlastní vektory odpovídající vybraným hlavním komponentám) pro získání konečný odhad PCR (s dimenzí rovnou celkovému počtu kovariátů) pro odhad regresních koeficientů charakterizujících původní model.
Podrobnosti o metodě
Reprezentace dat: Nechat označit vektor pozorovaných výsledků a označte odpovídající datová matice pozorovaných kovariátů, kde a označit velikost pozorovaného vzorek a počet kovariát, v uvedeném pořadí, s . Každý z řádky označuje jednu sadu pozorování pro dimenzionální kovariát a příslušný záznam označuje odpovídající pozorovaný výsledek.
Předběžné zpracování dat: Předpokládat, že a každý z sloupce už byly na střed aby všichni měli nulu empirické prostředky. Tento centrovací krok je zásadní (alespoň pro sloupce ) protože PCR zahrnuje použití PCA na a PCA je citlivý na centrování údajů.
Základní model: Po centrování standard Gauss – Markov lineární regrese model pro na lze reprezentovat jako: kde označuje neznámý vektor parametrů regresních koeficientů a označuje vektor náhodných chyb pomocí a pro některé neznámé rozptyl parametr
Objektivní: Primárním cílem je získat efektivní odhadce pro parametr , na základě údajů. Jeden často používaný přístup k tomu je obyčejné nejmenší čtverce regresi, která za předpokladu je celé pořadí sloupců, dává nezaujatý odhad: z . PCR je další technika, kterou lze použít pro stejný účel odhadu .
Krok PCA: PCR začíná provedením PCA na centrované datové matici . Za tímto účelem označit rozklad singulární hodnoty z kde, s označující nezáporné singulární hodnoty z , zatímco sloupce z a jsou oba ortonormální sady vektorů označujících levý a pravý singulární vektor z resp.
Hlavní součásti: dává spektrální rozklad z kde s označující nezáporná vlastní čísla (známá také jako hlavní hodnoty ) z , zatímco sloupce označuje odpovídající ortonormální sadu vlastních vektorů. Pak, a respektive označují hlavní složka a směr hlavní složky (nebo Načítání PCA ) odpovídající největší hlavní hodnota pro každého .
Odvozené proměnné: Pro všechny , nechť označit matice s ortonormálními sloupci skládající se z prvního sloupce . Nechat označit matice s první hlavní komponenty jako jeho sloupce. lze zobrazit jako datovou matici získanou pomocí transformovaný kovariáty místo použití původních kovariát .
Odhad PCR: Nechat označuje vektor odhadovaných regresních koeficientů získaných pomocí obyčejné nejmenší čtverce regrese vektoru odezvy na datové matici . Pak pro všechny , konečný odhad PCR z na základě použití první hlavní komponenty jsou dány: .
Základní charakteristiky a aplikace odhadu PCR
Dvě základní vlastnosti
Proces přizpůsobení pro získání odhadu PCR zahrnuje regresi vektoru odezvy na odvozené datové matici který má ortogonální sloupce pro libovolné protože hlavní komponenty jsou vzájemně kolmé navzájem. V regresním kroku tedy provedení a vícenásobná lineární regrese společně na vybrané hlavní složky jako kovariáty je ekvivalentní provedení nezávislý jednoduché lineární regrese (nebo jednorozměrné regrese) zvlášť na každém z nich vybrané hlavní komponenty jako kovariát.
Když jsou všechny hlavní komponenty vybrány pro regresi tak , pak je odhad PCR ekvivalentní s obyčejné nejmenší čtverce odhadce. Tím pádem, . To je snadno vidět ze skutečnosti, že a také to pozorovat je ortogonální matice.
Redukce odchylky
Pro všechny rozptyl darováno
Zejména:
Proto pro všechny my máme:
Tedy pro všechny my máme:
kde označuje, že čtvercová symetrická matice je nezáporný určitý. V důsledku toho jakýkoli daný lineární forma odhadu PCR má nižší rozptyl ve srovnání se stejným lineární forma obyčejného odhadce nejmenších čtverců.
Řešení multicollinearity
Pod multicollinearity, dva nebo více kovariátů jsou vysoce korelovaný, takže lze jeden lineárně předvídat od ostatních s netriviální mírou přesnosti. Následně sloupce datové matice které odpovídají pozorováním pro tyto kovariáty, se obvykle stávají lineárně závislé a proto, má tendenci se stát hodnocení nedostatečné ztrácí svou úplnou strukturu pořadí sloupců. Více kvantitativně, jedna nebo více menších vlastních čísel přiblížit se nebo se přiblížit přesně v takových situacích. Výše uvedené odchylky naznačují, že tyto malé vlastní hodnoty mají maximum inflační efekt na rozptylu odhadu nejmenších čtverců destabilizující odhadce významně, když jsou blízko . Tento problém lze efektivně řešit pomocí odhadu PCR získaného vyloučením hlavních komponent odpovídajících těmto malým vlastním číslům.
Zmenšení rozměrů
K provedení lze také použít PCR zmenšení rozměrů. Chcete-li to vidět, nechte označit jakýkoli matice s orthonormálními sloupci pro všechny Předpokládejme, že teď, když chceme přibližný každé z kovariančních pozorování skrz hodnost lineární transformace pro některé .
Potom je možné ukázat, že
je minimalizován na matice s první směry hlavních komponent jako sloupce a korespondence dimenzionální odvozené kovariáty. Tak dimenzionální hlavní komponenty poskytují to nejlepší lineární aproximace hodnosti na pozorovanou datovou matici .
Korespondence chyba rekonstrukce darováno: