Vysvětlená variace - Explained variation
v statistika, vysvětlená variace měří poměr, s jakým matematický model odpovídá za změnu (disperze ) daného souboru dat. Variace se často kvantifikuje jako rozptyl; pak konkrétnější termín vysvětlil rozptyl může být použito.
Doplňková část celkové variace se nazývá nevysvětlitelné nebo reziduální variace.
Definice z hlediska získávání informací
Získávání informací lepším modelováním
Po Kentovi (1983),[1] používáme informace Fraser (Fraser 1965)[2]
kde je hustota pravděpodobnosti náhodné proměnné , a s () jsou dvě rodiny parametrických modelů. Rodina modelů 0 je jednodušší s omezeným prostorem parametrů .
Parametry jsou určeny odhad maximální věrohodnosti,
Informační zisk modelu 1 nad modelem 0 je zapsán jako
kde je pro pohodlí zahrnut faktor 2. Γ je vždy nezáporné; měří míru vysvětlení nejlepšího modelu rodiny 1 než nejlepšího modelu rodiny 0 G(r).
Získání informací podmíněným modelem
Předpokládejme dvojrozměrnou náhodnou proměnnou kde X se považuje za vysvětlující proměnnou a Y jako závislá proměnná. Modely rodiny 1 „vysvětlit“ Y ve smyslu X,
- ,
zatímco v rodině 0, X a Y jsou považovány za nezávislé. Definujeme náhodnost Y podle a náhodnost Y, vzhledem k tomu Xtím, že . Pak,
lze interpretovat jako podíl rozptylu dat, který je „vysvětlen“ pomocí X.
Zvláštní případy a všeobecné použití
Lineární regrese
Zlomek rozptylu nevysvětleného je zavedený koncept v kontextu lineární regrese. Obvyklá definice koeficient stanovení je založen na základním konceptu vysvětleného rozptylu.
Korelační koeficient jako míra vysvětleného rozptylu
Nechat X být náhodným vektorem a Y náhodná proměnná, která je modelována normálním rozdělením se středem . V tomto případě výše uvedený podíl vysvětlené variace rovná se na druhou korelační koeficient .
Všimněte si silných předpokladů modelu: střed Y distribuce musí být lineární funkcí X, a pro všechny dané X, Y distribuce musí být normální. V jiných situacích není obvykle oprávněné interpretovat jako podíl vysvětlené odchylky.
V analýze hlavních komponent
Vysvětlená odchylka se běžně používá v analýza hlavních komponent. Je třeba vyjasnit vztah k informačnímu zisku Fraser – Kent.
Kritika
Protože se zlomek „vysvětlené odchylky“ rovná čtvercovému korelačnímu koeficientu sdílí všechny jeho nevýhody: odráží nejen kvalitu regrese, ale také distribuci nezávislých (podmíněných) proměnných.
Slovy jednoho kritika: „Tedy dává „vysvětlené procento rozptylu“ regresí, což je výraz, který má pro většinu vědců v sociální oblasti pochybný význam, ale velkou rétorickou hodnotu. Pokud je toto číslo velké, regrese se hodí dobře a nemá smysl hledat další proměnné. Jiné regresní rovnice na různých souborech dat jsou považovány za méně uspokojivé nebo méně výkonné, pokud je nižší. Nic o podporuje tato tvrzení “.[3]:58 A po konstrukci příkladu kde je vylepšeno pouze společným zvážením údajů ze dvou různých populací: „„ Vysvětlená odchylka “nic nevysvětluje.“[3][stránka potřebná ][4]:183
Viz také
Reference
- ^ Kent, J. T. (1983). "Zisk informací a obecná míra korelace". Biometrika. 70 (1): 163–173. doi:10.1093 / biomet / 70.1.163. JSTOR 2335954.
- ^ Fraser, D. A. S. (1965). „Informace o statistikách“. Ann. Matematika. Statist. 36 (3): 890–896. doi:10.1214 / aoms / 1177700061.
- ^ A b Achen, C. H. (1982). Tlumočení a použití regrese. Beverly Hills: Sage. str. 58–59. ISBN 0-8039-1915-8.
- ^ Achen, C. H. (1990). "'Co vysvětluje „Vysvětlená odchylka“?: Odpověď “. Politická analýza. 2 (1): 173–184. doi:10.1093 / pánev / 2.1.173.