Odchylka (statistika) - Deviance (statistics)

v statistika, deviace je dobrota statistika pro a statistický model; často se používá pro statistické testování hypotéz. Jedná se o zobecnění myšlenky použití součtu čtverců zbytky v obyčejné nejmenší čtverce k případům, kdy je přizpůsobení modelu dosaženo maximální pravděpodobnost. Hraje důležitou roli v modely exponenciálního rozptylu a zobecněné lineární modely.

Definice

Odchylka jednotky^[1]^[2] ${ displaystyle d (y, mu)}$ je bivariační funkce, která splňuje následující podmínky:

${ displaystyle d (y, y) = 0}$
${ Displaystyle d (y, mu)> 0 quad forall y neq mu}$

Celková odchylka ${ displaystyle D ( mathbf {y}, { hat { boldsymbol { mu}}})}$ modelu s předpovědi ${ displaystyle { hat { boldsymbol { mu}}}}$ pozorování ${ displaystyle mathbf {y}}$ je součet jeho jednotkových odchylek: ${ displaystyle D ( mathbf {y}, { hat { boldsymbol { mu}}}) = součet _ {i} d (y_ {i}, { hat { mu}} _ {i} )}$ .

(Celková) odchylka pro model M₀ s odhady ${ displaystyle { hat { mu}} = E [Y | { hat { theta}} _ {0}]}$ , na základě datové sady y, může být vytvořen podle své pravděpodobnosti jako:^[3]^[4]

{ displaystyle D (y, { hat { mu}}) = 2 { Big (} log { big (} p (y mid { hat { theta}} _ {s}) { big)} - log { big (} p (y mid { hat { theta}} _ {0}) { big)} { Big)}. ,}

Tady ${ displaystyle { hat { theta}} _ {0}}$ označuje přizpůsobené hodnoty parametrů v modelu M₀, zatímco ${ displaystyle { hat { theta}} _ {s}}$ označuje přizpůsobené parametry pro nasycený model: obě sady přizpůsobených hodnot jsou implicitně funkcemi pozorování y. Tady je nasycený model je model s parametrem pro každé pozorování, aby byla data přesně přizpůsobena. Tento výraz je jednoduše dvojnásobný log-likelihood ratio celého modelu ve srovnání se zmenšeným modelem. Odchylka se používá k porovnání dvou modelů - zejména v případě zobecněné lineární modely (GLM), kde má podobnou roli jako zbytková odchylka od ANOVA v lineárních modelech (RSS ).

Předpokládejme, že v rámci GLM máme dva vnořené modely, M₁ a M₂. Především předpokládejme, že M₁ obsahuje parametry v M₂, a k další parametry. Pak, podle nulové hypotézy, že M₂ je skutečný model, následuje rozdíl mezi odchylkami u těchto dvou modelů Wilksova věta, přibližný distribuce chí-kvadrát s k-stupně svobody.^[4] To lze použít k testování hypotéz o odchylce.

Některé použití výrazu „deviace“ může být matoucí. Podle Collett:^[5]

"množství

{ displaystyle -2 log { big (} p (y mid { hat { theta}} _ {0}) { big)}}

se někdy označuje jako a deviace. To je [...] nevhodné, protože na rozdíl od odchylky použité v kontextu zobecněného lineárního modelování,

{ displaystyle -2 log { big (} p (y mid { hat { theta}} _ {0}) { big)}}

neměří odchylku od modelu, který se perfektně hodí k údajům. “Jelikož je však hlavní použití ve formě rozdílu odchylek dvou modelů, je tento zmatek v definici nedůležitý.

Příklady

Jednotková odchylka pro Poissonovo rozdělení je ${ displaystyle d (y, mu) = 2 left (y log { frac {y} { mu}} - y + mu right)}$ , je odchylka jednotky pro normální rozdělení dána vztahem ${ displaystyle d (y, mu) = doleva (y- mu doprava) ^ {2}}$ .

Viz také

Informační kritérium Akaike
Informační kritérium odchylky
Test Hosmer – Lemeshow, statistika kvality přizpůsobení, kterou lze použít pro binární data
Pearsonův test chí-kvadrát, alternativní kvalita statistické statistiky pro zobecněné lineární modely pro počet dat
Peirceovo kritérium

Poznámky

^ Jørgensen, B. (1997). Teorie disperzních modelů. Chapman & Hall.
^ Song, Peter X. -K. (2007). Korelovaná analýza dat: modelování, analytika a aplikace. Springerova řada ve statistice. Springerova řada ve statistice. doi:10.1007/978-0-387-71393-9. ISBN 978-0-387-71392-2.
^ Nelder, J.A.; Wedderburn, R.W.M. (1972). "Zobecněné lineární modely". Journal of the Royal Statistical Society. Řada A (obecně). 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
^ ^A ^b McCullagh a Nelder (1989): strana 17
^ Collett (2003): strana 76

Reference

McCullagh, Peter; Nelder, Johne (1989). Zobecněné lineární modely, druhé vydání. Chapman & Hall / CRC. ISBN 0-412-31760-5.

Collett, David (2003). Modeling Survival Data in Medical Research, Second Edition. Chapman & Hall / CRC. ISBN 1-58488-325-1.

externí odkazy

Zobecněné lineární modely - Edward F. Connor
Poznámky k přednášce o deviaci

[J1997-1] Jørgensen, B. (1997). Teorie disperzních modelů. Chapman & Hall.

[2] Song, Peter X. -K. (2007). Korelovaná analýza dat: modelování, analytika a aplikace. Springerova řada ve statistice. Springerova řada ve statistice. doi:10.1007/978-0-387-71393-9. ISBN 978-0-387-71392-2.

[3] Nelder, J.A.; Wedderburn, R.W.M. (1972). "Zobecněné lineární modely". Journal of the Royal Statistical Society. Řada A (obecně). 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.

[McN-4] A ^b McCullagh a Nelder (1989): strana 17

[5] Collett (2003): strana 76

[1]

[2]

[3]

[4]

[5]