Zobecněné nejmenší čtverce - Generalized least squares

v statistika, zobecněné nejmenší čtverce (GLS) je technika pro odhad neznámého parametry v lineární regrese model, když existuje určitý stupeň korelace mezi zbytky v regresní model. V těchto případech obyčejné nejmenší čtverce a vážené nejmenší čtverce může být statisticky neefektivní, nebo dokonce zavádějící závěry. GLS poprvé popsal Alexander Aitken v roce 1936.[1]

Osnova metody

Standardně lineární regrese modely pozorujeme data na n statistické jednotky. Hodnoty odezvy jsou umístěny ve vektoru a hodnoty prediktoru jsou umístěny do návrhová matice , kde je vektorem k predikční proměnné (včetně konstanty) pro ith jednotka. Model nutí podmíněný průměr z daný být lineární funkcí a předpokládá podmínku rozptyl daného chybového termínu je známý nesmyslný kovarianční matice . Toto se obvykle píše jako

Tady je vektor neznámých konstant (známých jako „regresní koeficienty“), který je nutno odhadnout z údajů.

Předpokládat je odhad kandidáta na . Pak reziduální vektor pro bude . Zobecněná metoda nejmenších čtverců odhaduje minimalizací na druhou Mahalanobisova délka tohoto zbytkového vektoru:

Protože cílem je kvadratická forma v , odhad má explicitní vzorec:

Vlastnosti

Odhad GLS je objektivní, konzistentní, účinný, a asymptoticky normální s a . GLS je ekvivalentní aplikaci běžných nejmenších čtverců na lineárně transformovanou verzi dat. Chcete-li to vidět, faktor , například pomocí Choleský rozklad. Pak pokud předem vynásobíme obě strany rovnice podle , dostaneme ekvivalentní lineární model kde , , a . V tomto modelu , kde je matice identity. Můžeme tak efektivně odhadnout aplikací OLS na transformovaná data, což vyžaduje minimalizaci

Výsledkem je standardizace rozsahu chyb a jejich „korelace“. Vzhledem k tomu, že OLS je aplikován na data s homoscedastickými chybami, Gauss – Markovova věta platí, a proto je odhad GLS nejlepší lineární nezaujatý odhad pro β.

Vážené nejméně čtverce

Zvláštní případ GLS, který se nazývá vážené nejmenší čtverce (WLS), nastane, když všechny off-diagonální položky Ω jsou 0. Tato situace nastává, když jsou odchylky pozorovaných hodnot nerovné (tj.heteroscedasticita je přítomen), ale pokud mezi pozorovanými odchylkami neexistují žádné korelace. Hmotnost jednotky i je úměrná převrácené hodnotě rozptylu odezvy pro jednotku i.[2]

Realizovatelné zobecněné nejmenší čtverce

Pokud kovariance chyb není známo, lze získat konzistentní odhad , řekněme ,[3] pomocí implementovatelné verze GLS známé jako proveditelné zobecněné nejmenší čtverce (FGLS) odhadce. Ve FGLS probíhá modelování ve dvou fázích: (1) model se odhaduje pomocí OLS nebo jiného konzistentního (ale neefektivního) odhadce a zbytky se používají k vytvoření konzistentního odhadce kovarianční matice chyb (k tomu je často potřeba prozkoumat model přidávající další omezení, například pokud chyby sledují proces časové řady, statistik obecně potřebuje určité teoretické předpoklady tohoto procesu, aby zajistil, že bude k dispozici konzistentní odhad); a (2) pomocí konzistentního odhadce kovarianční matice chyb lze implementovat nápady GLS.

Zatímco GLS je efektivnější než OLS v rámci heteroscedasticity nebo autokorelace, u FGLS to neplatí. Realizovatelný odhad je za předpokladu, že je důsledně odhadována kovarianční matice chyb, asymptoticky efektivnější, ale pro vzorek malé nebo střední velikosti může být ve skutečnosti méně efektivní než OLS. To je důvod, proč někteří autoři upřednostňují použití OLS a přeformulují své závěry pouhým zvážením alternativního odhadu pro rozptyl odhadu robustního vůči heteroscedasticitě nebo sériové autokorelaci, ale u velkých vzorků je preferován FGLS před OLS pod heteroskedasticitou nebo sériovou korelací.[3] [4]Upozornění je, že odhad FGLS není vždy konzistentní. Jedním z případů, kdy může být FGLS nekonzistentní, jsou případy, kdy existují jednotlivé specifické pevné efekty.[5]

Obecně má tento odhad odlišné vlastnosti než GLS. U velkých vzorků (tj. Asymptoticky) jsou všechny vlastnosti (za vhodných podmínek) společné s ohledem na GLS, ale u konečných vzorků jsou vlastnosti odhadů FGLS neznámé: dramaticky se liší u každého konkrétního modelu a obecně platí jejich přesné rozdělení nelze odvodit analyticky. U konečných vzorků může být FGLS v některých případech dokonce méně efektivní než OLS. I když lze GLS učinit proveditelným, není vždy moudré použít tuto metodu, když je vzorek malý. Metoda, která se někdy používá ke zlepšení přesnosti odhadů v konečných vzorcích, je iterace, tj. Převzetí zbytků z FGLS k aktualizaci odhad kovarianční chyby a poté aktualizace odhadu FGLS opakovaným použitím stejné myšlenky, dokud se odhady neliší od menší tolerance. Ale tato metoda nutně moc nezlepší efektivitu odhadce, pokud byl původní vzorek malý. Rozumnou možností, když vzorky nejsou příliš velké, je použít OLS, ale vyhodit klasický odhad rozptylu

(což je v tomto rámci nekonzistentní) a použití odhadu HAC (Heteroskedasticity and Autocorrelation Consistent). Například v kontextu autokorelace můžeme použít Bartlettův odhad (často známý jako Newey-West odhad, protože tito autoři popularizovali použití tohoto odhadu mezi ekonometry v jejich 1987 Econometrica článku) a v heteroskedastickém kontextu můžeme použít Eicker – White odhad. Tento přístup je mnohem bezpečnější a je vhodnou cestou, pokud není vzorek velký, a „velký“ je někdy kluzký problém (např. Pokud je distribuce chyb asymetrická, požadovaný vzorek by byl mnohem větší).

The obyčejné nejmenší čtverce (OLS) odhad se počítá jako obvykle

a odhady zbytků jsou konstruovány.

Pro jednoduchost zvažte model pro heteroskedastické chyby. Předpokládejme, že matice variance-kovarianční matice vektoru chyby je diagonální, nebo ekvivalentně, že chyby z odlišných pozorování nejsou korelované. Poté může být každý diagonální vstup odhadnut podle namontovaných zbytků tak mohou být konstruovány

Je důležité si všimnout, že v předchozím výrazu nelze použít čtvercové zbytky; potřebujeme odhad rozptylu chyb. K tomu můžeme použít parametrický model heteroskedasticity nebo neparametrický odhad. Jakmile je tento krok splněn, můžeme pokračovat:

Odhad použitím použitím[4] vážené nejmenší čtverce

Postup lze iterovat. První iterace je dána vztahem

Tento odhad lze iterovat na konvergenci.

Za podmínek pravidelnosti je kterýkoli z odhadů FGLS (nebo kterýkoli z jeho iterací, pokud iterujeme konečný počet opakování) asymptoticky distribuován jako

kde n je velikost vzorku a

zde p-lim znamená limit v pravděpodobnosti

Viz také

Reference

  1. ^ Aitken, A. C. (1936). "Na nejmenších čtvercích a lineárních kombinacích pozorování". Sborník Královské společnosti z Edinburghu. 55: 42–48.
  2. ^ Strutz, T. (2016). Přizpůsobení dat a nejistota (praktický úvod do vážených nejmenších čtverců a dále). Springer Vieweg. ISBN  978-3-658-11455-8., Kapitola 3
  3. ^ A b Baltagi, B.H. (2008). Ekonometrie (4. vydání). New York: Springer.
  4. ^ A b Greene, W. H. (2003). Ekonometrická analýza (5. vydání). Upper Saddle River, NJ: Prentice Hall.
  5. ^ Hansen, Christian B. (2007). "Zobecněný odvod nejmenších čtverců v panelových a víceúrovňových modelech se sériovou korelací a pevnými efekty". Journal of Econometrics. 140 (2): 670–694. doi:10.1016 / j.jeconom.2006.07.011.

Další čtení