Homoscedasticita - Homoscedasticity

Graf s náhodnými údaji ukazujícími homoscedasticitu: při každé hodnotě X, y-hodnota teček má přibližně stejnou rozptyl.

v statistika, a sekvence (nebo vektor) náhodné proměnné je homoscedastic /ˌhmskəˈdstɪk/ pokud všechny jeho náhodné proměnné mají stejnou konečnou hodnotu rozptyl. Toto je také známé jako homogenita rozptylu. Doplňkový pojem se nazývá heteroscedasticita. Kouzla homoskedasticita a heteroskedasticita jsou také často používány.[1]

Za předpokladu, že proměnná je homoscedastická, i když ve skutečnosti je heteroscedastická /ˌhɛt.rskəˈdstɪk/) má za následek nezaujaté, ale neúčinné bodové odhady a zkreslené odhady standardních chyb a může vést k nadhodnocení dobrota fit měřeno pomocí Pearsonův koeficient.

Předpoklady regresního modelu

Standardní předpoklad v a lineární regrese, je to rozptyl rušivého členu je stejný napříč pozorováními a zejména nezávisí na hodnotách vysvětlujících proměnných [2] Toto je jeden z předpokladů, za nichž Gauss – Markovova věta platí a obyčejné nejmenší čtverce (OLS) dává nejlepší lineární nezaujatý odhad ("MODRÝ"). Homoscedasticita není nutná, aby odhady koeficientů byly nestranné, konzistentní a asymptoticky normální, ale je vyžadována, aby OLS byla efektivní.[3] Rovněž je nutné, aby standardní chyby odhadů byly nestranné a konzistentní, takže je to nutné pro přesné testování hypotéz, např. pro t-test zda se koeficient výrazně liší od nuly.

Formálnějším způsobem, jak vyjádřit předpoklad homoskedasticity, je to, že úhlopříčky matice variance-kovarianční matice musí být všechny stejné číslo: , kde je stejný pro všechny i.[4] Všimněte si, že to stále umožňuje mimo diagonály, kovariance , být nenulová, což je samostatné porušení Gauss-Markovových předpokladů známých jako sériová korelace.

Příklady

Níže uvedené matice jsou kovariancemi rušení se vstupy , když jsou v čase jen tři pozorování. Porucha v matici A je homoskedastická; toto je jednoduchý případ, kdy OLS je nejlepší lineární nezaujatý odhad. Poruchy v maticích B a C jsou heteroskedastické. V matici B je rozptyl časově proměnný a neustále se zvyšuje v čase; v matici C závisí rozptyl na hodnotě x. Porucha v matici D je homoskedastická, protože diagonální odchylky jsou konstantní, i když mimodiagonální kovariance jsou nenulové a obyčejné nejmenší čtverce jsou neúčinné z jiného důvodu: sériová korelace.

Li y je spotřeba, X je příjem a jsou rozmary spotřebitele a odhadujeme pak pokud rozmary bohatších spotřebitelů ovlivní jejich utrácení více v absolutních dolarech, mohli bychom mít roste s příjmem, jako v matici C výše.[4]

Testování

Zbytky lze testovat na homoscedasticitu pomocí Breusch – Paganův test,[5] který provádí pomocnou regresi čtvercových zbytků na nezávislých proměnných. Z této pomocné regrese se zachová vysvětlený součet čtverců, vydělený dvěma a poté se stane statistikou testu pro distribuci chí-kvadrát se stupni volnosti rovným počtu nezávislých proměnných.[6] Nulová hypotéza tohoto chí-kvadrát testu je homoscedasticita a alternativní hypotéza by naznačovala heteroscedasticitu. Vzhledem k tomu, že test Breusch-Pagan je citlivý na odchylky od normality nebo malých velikostí vzorků, je místo toho běžně používán test Koenker-Bassett nebo „generalizovaný Breusch-Pagan“.[7][jsou zapotřebí další citace ] Z pomocné regrese si zachovává hodnotu R-kvadrát, která se poté vynásobí velikostí vzorku, a poté se stává statistikou testu pro distribuci chí-kvadrát (a používá stejné stupně volnosti). Ačkoli to pro Koenker-Bassettův test není nutné, vyžaduje Breusch-Paganův test, aby se čtvercové rezidua dělily také zbytkovým součtem čtverců děleno velikostí vzorku.[7] Testování skupinové heteroscedasticity vyžaduje Goldfeld – Quandtův test.[Citace je zapotřebí ]

Homoscedastické distribuce

Dva nebo více normální distribuce, , jsou homoscedastic, pokud sdílejí společné kovariance (nebo korelace ) matice, . Homoscedastické distribuce jsou zvláště užitečné pro odvození statistik rozpoznávání vzorů a strojové učení algoritmy. Jedním z populárních příkladů algoritmu, který předpokládá homoscedasticitu, je Fisherův lineární diskriminační analýza.

Koncept homoscedasticity lze aplikovat na distribuce ve sférách.[8]

Viz také

Reference

  1. ^ Pro řeckou etymologii termínu viz McCulloch, J. Huston (1985). "Na Heteros * edasticity". Econometrica. 53 (2): 483. JSTOR  1911250.
  2. ^ Peter Kennedy, Průvodce po ekonometrii, 5. vydání, s. 137.
  3. ^ Achen, Christopher H .; Shively, W. Phillips (1995), Odvození mezi úrovněmi, University of Chicago Press, s. 47–48, ISBN  9780226002194.
  4. ^ A b Peter Kennedy, Průvodce po ekonometrii, 5. vydání, s. 136.
  5. ^ Breusch, T. S .; Pagan, A. R. (1979). „Jednoduchý test na heteroscedasticitu a náhodné variace koeficientů“. Econometrica. 47 (5): 1287–1294. doi:10.2307/1911963. ISSN  0012-9682.
  6. ^ Ullah, Muhammad Imdad (2012-07-26). „Breuschův pohanský test na heteroscedasticitu“. Základní statistika a analýza dat. Citováno 2020-11-28.
  7. ^ A b Pryce, Gwilym. „Heteroscedasticity: Testing and Correcting in SPSS“ (PDF). s. 12–18. Archivováno (PDF) z původního dne 2017-03-27. Citováno 26. března 2017.
  8. ^ Hamsici, Onur C .; Martinez, Aleix M. (2007) „Sféricko-homoscedastické distribuce: Ekvivalence sférického a normálního rozdělení v klasifikaci“, Journal of Machine Learning Research, 8, 1583-1623