Regrese nejméně úhlu - Least-angle regression - Wikipedia
![]() | tento článek může být pro většinu čtenářů příliš technická na to, aby je pochopili.Dubna 2018) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|

v statistika, regrese v nejmenším úhlu (LARS) je algoritmus pro přizpůsobení lineární regrese modely k vysoce dimenzionálním datům, vyvinuté Bradley Efron, Trevor Hastie, Iain Johnstone a Robert Tibshirani.[1]
Předpokládejme, že očekáváme, že proměnná odezvy bude určena lineární kombinací podmnožiny potenciálních proměnných. Algoritmus LARS pak poskytuje prostředek k vytvoření odhadu, které proměnné mají být zahrnuty, a také jejich koeficientů.
Místo poskytnutí vektorového výsledku se řešení LARS skládá z křivky označující řešení pro každou hodnotu parametru Norma L1 vektoru parametrů. Algoritmus je podobný jako vpřed postupná regrese, ale namísto zahrnutí proměnných v každém kroku se odhadované parametry zvyšují ve směru rovnoběžném s korelací každého s reziduálním.
Výhody a nevýhody
Výhody metody LARS jsou:
- Je výpočetně stejně rychlý jako výběr vpřed.
- Produkuje úplnou lineární cestu řešení po částech, což je užitečné v křížová validace nebo podobné pokusy o vyladění modelu.
- Pokud jsou dvě proměnné téměř stejně korelované s odpovědí, pak by se jejich koeficienty měly zvyšovat přibližně stejnou rychlostí. Algoritmus se tak chová tak, jak by intuice očekávala, a je také stabilnější.
- Je snadno upravitelný tak, aby produkoval efektivní algoritmy pro jiné metody produkující podobné výsledky, jako například laso a dopředu postupnou regresi.
- Je efektivní v kontextech, kde p >> n (tj. když je počet rozměrů výrazně větší než počet bodů)[Citace je zapotřebí ].
Nevýhody metody LARS zahrnují:
- S jakýmkoli množstvím šumu v závislé proměnné a s vysoce dimenzionálním multicolineární nezávislé proměnné, není důvod se domnívat, že u vybraných proměnných bude vysoká pravděpodobnost, že budou skutečnými základními kauzálními proměnnými. Tento problém není pro LARS jedinečný, protože se jedná o obecný problém s přístupy variabilního výběru, které se snaží najít základní deterministické komponenty. Protože je však LARS založen na iterativním seřizování zbytků, zdálo by se, že je obzvláště citlivý na účinky hluku. Tento problém podrobně rozebírá Weisberg v diskusní části Efron et al. (2004) Článek Annals of Statistics.[2] Weisberg poskytuje empirický příklad založený na re-analýze dat původně použitých k ověření LARS, že se zdá, že výběr proměnných má problémy s vysoce korelovanými proměnnými.
- Protože téměř všichni vysoce dimenzionální data v reálném světě bude jen náhodou vykazovat určitou spravedlivou míru kolinearity alespoň u některých proměnných, problém, který má LARS s korelovanými proměnnými, může omezit jeho použití na vysoce dimenzionální data.
Algoritmus
Základní kroky algoritmu nejmenšího úhlu regrese jsou:
- Začněte se všemi koeficienty rovna nule.
- Najděte prediktor nejvíce souvisí s
- Zvyšte koeficient ve směru znaménka jeho korelace s . Vezměte zbytky při cestě. Zastavte, když nějaký jiný prediktor má tolik korelace s tak jako má.
- Zvýšit (, ) v jejich směru nejmenších čtverců, dokud nějaký jiný prediktor má tolik korelace se zbytkem .
- Zvýšit (, , ) v jejich směru nejmenších čtverců, dokud nějaký jiný prediktor má tolik korelace se zbytkem .
- Pokračujte do: všechny prediktory jsou v modelu[3]
Implementace softwaru
Regrese nejméně úhlu je implementována v R přes Lars balíček, v Krajta s scikit-učit se balíček a v SAS přes GLMSELECT postup.
Viz také
Reference
- ^ Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). „Least Angle Regression“ (PDF). Annals of Statistics. 32 (2): str. 407–499. arXiv:matematika / 0406456. doi:10.1214/009053604000000067. PAN 2060166.
- ^ Viz diskuse od Weisberga Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). „Least Angle Regression“ (PDF). Annals of Statistics. 32 (2): str. 407–499. arXiv:matematika / 0406456. doi:10.1214/009053604000000067. PAN 2060166.
- ^ „Jednoduché vysvětlení regrese Lasso a Least Angle Regression“.