Regrese nejméně úhlu - Least-angle regression - Wikipedia

Standardizované koeficienty zobrazené jako funkce podílu smrštění.

v statistika, regrese v nejmenším úhlu (LARS) je algoritmus pro přizpůsobení lineární regrese modely k vysoce dimenzionálním datům, vyvinuté Bradley Efron, Trevor Hastie, Iain Johnstone a Robert Tibshirani.[1]

Předpokládejme, že očekáváme, že proměnná odezvy bude určena lineární kombinací podmnožiny potenciálních proměnných. Algoritmus LARS pak poskytuje prostředek k vytvoření odhadu, které proměnné mají být zahrnuty, a také jejich koeficientů.

Místo poskytnutí vektorového výsledku se řešení LARS skládá z křivky označující řešení pro každou hodnotu parametru Norma L1 vektoru parametrů. Algoritmus je podobný jako vpřed postupná regrese, ale namísto zahrnutí proměnných v každém kroku se odhadované parametry zvyšují ve směru rovnoběžném s korelací každého s reziduálním.

Výhody a nevýhody

Výhody metody LARS jsou:

  1. Je výpočetně stejně rychlý jako výběr vpřed.
  2. Produkuje úplnou lineární cestu řešení po částech, což je užitečné v křížová validace nebo podobné pokusy o vyladění modelu.
  3. Pokud jsou dvě proměnné téměř stejně korelované s odpovědí, pak by se jejich koeficienty měly zvyšovat přibližně stejnou rychlostí. Algoritmus se tak chová tak, jak by intuice očekávala, a je také stabilnější.
  4. Je snadno upravitelný tak, aby produkoval efektivní algoritmy pro jiné metody produkující podobné výsledky, jako například laso a dopředu postupnou regresi.
  5. Je efektivní v kontextech, kde p >> n (tj. když je počet rozměrů výrazně větší než počet bodů)[Citace je zapotřebí ].

Nevýhody metody LARS zahrnují:

  1. S jakýmkoli množstvím šumu v závislé proměnné a s vysoce dimenzionálním multicolineární nezávislé proměnné, není důvod se domnívat, že u vybraných proměnných bude vysoká pravděpodobnost, že budou skutečnými základními kauzálními proměnnými. Tento problém není pro LARS jedinečný, protože se jedná o obecný problém s přístupy variabilního výběru, které se snaží najít základní deterministické komponenty. Protože je však LARS založen na iterativním seřizování zbytků, zdálo by se, že je obzvláště citlivý na účinky hluku. Tento problém podrobně rozebírá Weisberg v diskusní části Efron et al. (2004) Článek Annals of Statistics.[2] Weisberg poskytuje empirický příklad založený na re-analýze dat původně použitých k ověření LARS, že se zdá, že výběr proměnných má problémy s vysoce korelovanými proměnnými.
  2. Protože téměř všichni vysoce dimenzionální data v reálném světě bude jen náhodou vykazovat určitou spravedlivou míru kolinearity alespoň u některých proměnných, problém, který má LARS s korelovanými proměnnými, může omezit jeho použití na vysoce dimenzionální data.

Algoritmus

Základní kroky algoritmu nejmenšího úhlu regrese jsou:

  • Začněte se všemi koeficienty rovna nule.
  • Najděte prediktor nejvíce souvisí s
  • Zvyšte koeficient ve směru znaménka jeho korelace s . Vezměte zbytky při cestě. Zastavte, když nějaký jiný prediktor má tolik korelace s tak jako má.
  • Zvýšit (, ) v jejich směru nejmenších čtverců, dokud nějaký jiný prediktor má tolik korelace se zbytkem .
  • Zvýšit (, , ) v jejich směru nejmenších čtverců, dokud nějaký jiný prediktor má tolik korelace se zbytkem .
  • Pokračujte do: všechny prediktory jsou v modelu[3]

Implementace softwaru

Regrese nejméně úhlu je implementována v R přes Lars balíček, v Krajta s scikit-učit se balíček a v SAS přes GLMSELECT postup.

Viz také

Reference

  1. ^ Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). „Least Angle Regression“ (PDF). Annals of Statistics. 32 (2): str. 407–499. arXiv:matematika / 0406456. doi:10.1214/009053604000000067. PAN  2060166.
  2. ^ Viz diskuse od Weisberga Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). „Least Angle Regression“ (PDF). Annals of Statistics. 32 (2): str. 407–499. arXiv:matematika / 0406456. doi:10.1214/009053604000000067. PAN  2060166.
  3. ^ „Jednoduché vysvětlení regrese Lasso a Least Angle Regression“.