v statistika , zejména v testování hypotéz , Hotelling's T - čtvercová distribuce (T 2 ), navrhl Harold Hotelling ,[1] je vícerozměrné rozdělení pravděpodobnosti která úzce souvisí s F -rozdělení a nejpozoruhodnější je vznik distribuce sady ukázkové statistiky to jsou přirozené zobecnění statistik, z nichž vychází Studentské t -rozdělení .
The Hotelling's t - čtvercová statistika (t 2 ) je zobecněním Studentské t -statistický který se používá v vícerozměrný testování hypotéz .[2]
Rozdělení Motivace Distribuce vzniká v statistika s více proměnnými v podnikání testy rozdílů mezi (vícerozměrnými) prostředky různých populací, kde by testy na jednorozměrné problémy využívaly t -test Distribuce je pojmenována pro Harold Hotelling , který jej vyvinul jako zobecnění Studentova t -rozdělení.[1]
Definice Pokud vektor d { displaystyle d} je Gaussova distribuce více proměnných s nulovým průměrem a jednotkou kovarianční matice N ( 0 p , Já p , p ) { displaystyle N ( mathbf {0} _ {p}, mathbf {I} _ {p, p})} a M { displaystyle M} je p × p { Displaystyle p krát p} matice s jednotkou měřítková matice a m stupně svobody s Wishart distribuce Ž ( Já p , p , m ) { displaystyle W ( mathbf {I} _ {p, p}, m)} , pak Kvadratická forma m d T M − 1 d { displaystyle md ^ {T} M ^ {- 1} d} má distribuci Hotelling, T 2 ( p , m ) { displaystyle T ^ {2} (p, m)} , s parametrem p { displaystyle p} a m { displaystyle m} .[3]
Pokud je náhodná proměnná X má Hotelling's T - čtvercová distribuce, X ∼ T p , m 2 { displaystyle X sim T_ {p, m} ^ {2}} , pak:[1]
m − p + 1 p m X ∼ F p , m − p + 1 { displaystyle { frac {m-p + 1} {pm}} X sim F_ {p, m-p + 1}} kde F p , m − p + 1 { displaystyle F_ {p, m-p + 1}} je F -rozdělení s parametry p a m − p + 1 .
Statistika t-kvadrát hotellingu Nechat Σ ^ { displaystyle { hat { mathbf { Sigma}}}} být kovarianční vzorek :
Σ ^ = 1 n − 1 ∑ i = 1 n ( X i − X ¯ ) ( X i − X ¯ ) ′ { displaystyle { hat { mathbf { Sigma}}} = { frac {1} {n-1}} sum _ {i = 1} ^ {n} ( mathbf {x} _ {i} - { overline { mathbf {x}}}) ( mathbf {x} _ {i} - { overline { mathbf {x}}}) '} kde označujeme přemístit podle apostrof . To lze ukázat Σ ^ { displaystyle { hat { mathbf { Sigma}}}} je pozitivní (polo) určitý matice a ( n − 1 ) Σ ^ { displaystyle (n-1) { hat { mathbf { Sigma}}}} následuje a p -měnit Wishart distribuce s n −1 stupňů volnosti.[4] Přečte se kovarianční matice vzorku střední hodnoty Σ ^ X ¯ = Σ ^ / n { displaystyle { hat { mathbf { Sigma}}} _ { overline { mathbf {x}}} = { hat { mathbf { Sigma}}} / n} .[je zapotřebí objasnění ]
The Hotelling's t - čtvercová statistika je pak definována jako:[5]
t 2 = ( X ¯ − μ ) ′ Σ ^ X ¯ − 1 ( X ¯ − μ ) , { displaystyle t ^ {2} = ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '{ hat { mathbf { Sigma}}} _ { overline { mathbf {x}}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}}),} což je úměrné vzdálenost mezi průměrem vzorku a μ { displaystyle { boldsymbol { mu}}} . Z tohoto důvodu by se dalo očekávat, že statistika předpokládá nízké hodnoty, pokud X ¯ ≅ μ { displaystyle { overline { mathbf {x}}} cong { boldsymbol { mu}}} a vysoké hodnoty, pokud se liší.
Z rozdělení ,
t 2 ∼ T p , n − 1 2 = p ( n − 1 ) n − p F p , n − p , { displaystyle t ^ {2} sim T_ {p, n-1} ^ {2} = { frac {p (n-1)} {n-p}} F_ {p, n-p},} kde F p , n − p { displaystyle F_ {p, n-p}} je F -rozdělení s parametry p a n − p . Pro výpočet a p -hodnota (nesouvisí s p proměnná zde), všimněte si, že distribuce t 2 { displaystyle t ^ {2}} ekvivalentně to znamená
n − p p ( n − 1 ) t 2 ∼ F p , n − p . { displaystyle { frac {n-p} {p (n-1)}} t ^ {2} sim F_ {p, n-p}.} Poté použijte množství na levé straně k vyhodnocení p -hodnota odpovídající vzorku, který pochází z F -rozdělení. A oblast důvěry lze také určit pomocí podobné logiky.
Motivace Nechat N p ( μ , Σ ) { displaystyle { mathcal {N}} _ {p} ({ boldsymbol { mu}}, { mathbf { Sigma}})} označit a p -měňte normální rozdělení s umístění μ { displaystyle { boldsymbol { mu}}} a známé kovariance Σ { displaystyle { mathbf { Sigma}}} . Nechat
X 1 , … , X n ∼ N p ( μ , Σ ) { displaystyle { mathbf {x}} _ {1}, tečky, { mathbf {x}} _ {n} sim { mathcal {N}} _ {p} ({ boldsymbol { mu} }, { mathbf { Sigma}})} být n nezávislé identicky distribuované (iid) náhodné proměnné , které mohou být reprezentovány jako p × 1 { displaystyle p krát 1} vektory sloupců reálných čísel. Definovat
X ¯ = X 1 + ⋯ + X n n { displaystyle { overline { mathbf {x}}} = { frac { mathbf {x} _ {1} + cdots + mathbf {x} _ {n}} {n}}} být průměr vzorku s kovariancí Σ X ¯ = Σ / n { displaystyle { mathbf { Sigma}} _ { bar { mathbf {x}}} = { mathbf { Sigma}} / n} . To lze ukázat
( X ¯ − μ ) ′ Σ X ¯ − 1 ( X ¯ − μ ) ∼ χ p 2 , { displaystyle ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '{ mathbf { Sigma}} _ { bar { mathbf {x}}} ^ {- 1 } ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) sim chi _ {p} ^ {2},} kde χ p 2 { displaystyle chi _ {p} ^ {2}} je distribuce chí-kvadrát s p stupně svobody.[6]
Důkaz —
K tomu použijte fakt, že X ¯ ∼ N p ( μ , Σ / n ) { displaystyle { overline { mathbf {x}}} sim { mathcal {N}} _ {p} ({ boldsymbol { mu}}, { mathbf { Sigma}} / n)} a odvodit charakteristická funkce náhodné proměnné y = ( X ¯ − μ ) ′ Σ X ¯ − 1 ( X ¯ − μ ) = ( X ¯ − μ ) ′ ( Σ / n ) − 1 ( X ¯ − μ ) { displaystyle mathbf {y} = ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '{ mathbf { Sigma}} _ { bar { mathbf {x} }} ^ {- 1} ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) = ({ bar { mathbf {x}}} - { boldsymbol { mu}}) '({ mathbf { Sigma}} / n) ^ {- 1} ({ bar { mathbf {x}}} - { boldsymbol { mathbf { mu}}}) } . Jako obvykle, pojďme | ⋅ | { displaystyle | cdot |} označit určující argumentu, jako v | Σ | { displaystyle | { boldsymbol { Sigma}} |} .
Podle definice charakteristické funkce máme:[7]
φ y ( θ ) = E E i θ y , = E E i θ ( X ¯ − μ ) ′ ( Σ / n ) − 1 ( X ¯ − μ ) = ∫ E i θ ( X ¯ − μ ) ′ n Σ − 1 ( X ¯ − μ ) ( 2 π ) − p / 2 | Σ / n | − 1 / 2 E − ( 1 / 2 ) ( X ¯ − μ ) ′ n Σ − 1 ( X ¯ − μ ) d X 1 ⋯ d X p { displaystyle { begin {seřazeno} varphi _ { mathbf {y}} ( theta) & = operatorname {E} e ^ {i theta mathbf {y}}, [5pt] & = operatorname {E} e ^ {i theta ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '({ mathbf { Sigma}} / n) ^ {- 1 } ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}})} [5pt] & = int e ^ {i theta ({ overline { mathbf {x}}} - { boldsymbol { mu}}) 'n { mathbf { Sigma}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mathbf { mu}}})}} (2 pi) ^ {- p / 2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} , e ^ {- (1/2) ( { overline { mathbf {x}}} - { boldsymbol { mu}}) 'n { boldsymbol { Sigma}} ^ {- 1} ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {zarovnáno}}} Uvnitř integrálu jsou dvě exponenciály, takže vynásobením exponenciálů sčítáme exponenty dohromady a získáváme:
= ∫ ( 2 π ) − p / 2 | Σ / n | − 1 / 2 E − ( 1 / 2 ) ( X ¯ − μ ) ′ n ( Σ − 1 − 2 i θ Σ − 1 ) ( X ¯ − μ ) d X 1 ⋯ d X p { displaystyle { begin {aligned} & = int (2 pi) ^ {- p / 2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} , e ^ {- (1/2) ({ overline { mathbf {x}}} - { boldsymbol { mu}}) 'n ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ({ overline { mathbf {x}}} - { boldsymbol { mu}})}}, dx_ {1} cdots dx_ {p} end {zarovnáno }}} Nyní vezměte termín | Σ / n | − 1 / 2 { displaystyle | { boldsymbol { Sigma}} / n | ^ {- 1/2}} z integrálu a vše znásobte identitou Já = | ( Σ − 1 − 2 i θ Σ − 1 ) − 1 / n | 1 / 2 ⋅ | ( Σ − 1 − 2 i θ Σ − 1 ) − 1 / n | − 1 / 2 { displaystyle I = | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1 / 2} ; cdot ; | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {-1/2}} , čímž se jeden z nich dostane do integrálu:
= | ( Σ − 1 − 2 i θ Σ − 1 ) − 1 / n | 1 / 2 | Σ / n | − 1 / 2 ∫ ( 2 π ) − p / 2 | ( Σ − 1 − 2 i θ Σ − 1 ) − 1 / n | − 1 / 2 E − ( 1 / 2 ) n ( X ¯ − μ ) ′ ( Σ − 1 − 2 i θ Σ − 1 ) ( X ¯ − μ ) d X 1 ⋯ d X p { displaystyle { begin {aligned} & = | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {1/2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} int (2 pi) ^ {- p / 2} | ({ boldsymbol { Sigma} } ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n | ^ {- 1/2} , e ^ {- (1/2) n ({ overline { mathbf {x}}} - { boldsymbol { mu}}) '({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ({ overline { mathbf {x}}} - { boldsymbol { mu}})} , dx_ {1} cdots dx_ {p} end {zarovnáno}}} Ale termín uvnitř integrálu je přesně funkce hustoty pravděpodobnosti a vícerozměrné normální rozdělení s kovarianční maticí ( Σ − 1 − 2 i θ Σ − 1 ) − 1 / n = [ n ( Σ − 1 − 2 i θ Σ − 1 ) ] − 1 { displaystyle ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} / n = left [n ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) right] ^ {- 1}} a zlý μ { displaystyle mu} , takže při integraci přes všechny X 1 , … , X p { displaystyle x_ {1}, dots, x_ {p}} , to musí ustoupit 1 { displaystyle 1} za pravděpodobnostní axiomy .[je zapotřebí objasnění ] Takže skončíme s:
= | ( Σ − 1 − 2 i θ Σ − 1 ) − 1 ⋅ 1 n | 1 / 2 | Σ / n | − 1 / 2 = | ( Σ − 1 − 2 i θ Σ − 1 ) − 1 ⋅ 1 n ⋅ n ⋅ Σ − 1 | 1 / 2 = | [ ( Σ − 1 − 2 i θ Σ − 1 ) Σ ] − 1 | 1 / 2 = | Já p − 2 i θ Já p | − 1 / 2 { displaystyle { begin {aligned} & = left | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1 } cdot { frac {1} {n}} doprava | ^ {1/2} | { boldsymbol { Sigma}} / n | ^ {- 1/2} & = left | ({ boldsymbol { Sigma}} ^ {- 1} -2i theta { boldsymbol { Sigma}} ^ {- 1}) ^ {- 1} cdot { frac {1} { zrušit {n}} } cdot { zrušit {n}} cdot { boldsymbol { Sigma}} ^ {- 1} vpravo | ^ {1/2} & = vlevo | vlevo [({{zrušit {{ boldsymbol { Sigma}} ^ {- 1}}} - 2i theta { Cancel {{ boldsymbol { Sigma}} ^ {- 1}}}) { Cancel { boldsymbol { Sigma}}} right] ^ {- 1} right | ^ {1/2} & = | mathbf {I} _ {p} -2i theta mathbf {I} _ {p} | ^ {- 1 / 2} end {zarovnáno}}} kde Já p { displaystyle I_ {p}} je matice identity dimenze p { displaystyle p} . Nakonec výpočet determinantu získáme:
= ( 1 − 2 i θ ) − p / 2 { displaystyle { begin {aligned} & = (1-2i theta) ^ {- p / 2} end {aligned}}} což je charakteristická funkce pro a distribuce chí-kvadrát s p { displaystyle p} stupně svobody. ◼ { displaystyle ; ; ; blacksquare}
Statistika dvou vzorků Li X 1 , … , X n X ∼ N p ( μ , PROTI ) { displaystyle { mathbf {x}} _ {1}, tečky, { mathbf {x}} _ {n_ {x}} sim N_ {p} ({ boldsymbol { mu}}, { mathbf {V}})} a y 1 , … , y n y ∼ N p ( μ , PROTI ) { displaystyle { mathbf {y}} _ {1}, tečky, { mathbf {y}} _ {n_ {y}} sim N_ {p} ({ boldsymbol { mu}}, { mathbf {V}})} , se vzorky nezávisle čerpáno ze dvou nezávislý vícerozměrné normální rozdělení se stejným průměrem a kovariancí a my definujeme
X ¯ = 1 n X ∑ i = 1 n X X i y ¯ = 1 n y ∑ i = 1 n y y i { displaystyle { overline { mathbf {x}}} = { frac {1} {n_ {x}}} sum _ {i = 1} ^ {n_ {x}} mathbf {x} _ { i} qquad { overline { mathbf {y}}} = { frac {1} {n_ {y}}} sum _ {i = 1} ^ {n_ {y}} mathbf {y} _ {i}} jako vzorek znamená, a
Σ ^ X = 1 n X − 1 ∑ i = 1 n X ( X i − X ¯ ) ( X i − X ¯ ) ′ { displaystyle { hat { mathbf { Sigma}}} _ { mathbf {x}} = { frac {1} {n_ {x} -1}} sum _ {i = 1} ^ {n_ {x}} ( mathbf {x} _ {i} - { overline { mathbf {x}}}) ( mathbf {x} _ {i} - { overline { mathbf {x}}}) '} Σ ^ y = 1 n y − 1 ∑ i = 1 n y ( y i − y ¯ ) ( y i − y ¯ ) ′ { displaystyle { hat { mathbf { Sigma}}} _ { mathbf {y}} = { frac {1} {n_ {y} -1}} sum _ {i = 1} ^ {n_ {y}} ( mathbf {y} _ {i} - { overline { mathbf {y}}}) ( mathbf {y} _ {i} - { overline { mathbf {y}}}) '} jako příslušné matice kovariančních vzorků. Pak
Σ ^ = ( n X − 1 ) Σ ^ X + ( n y − 1 ) Σ ^ y n X + n y − 2 { displaystyle { hat { mathbf { Sigma}}} = { frac {(n_ {x} -1) { hat { mathbf { Sigma}}} _ { mathbf {x}} + ( n_ {y} -1) { hat { mathbf { Sigma}}} _ { mathbf {y}}} {n_ {x} + n_ {y} -2}}} je nezaujatý sdružená kovarianční matice odhad (prodloužení sdružená varianta ).
Nakonec Hotellingův dva vzorky t - čtvercová statistika je
t 2 = n X n y n X + n y ( X ¯ − y ¯ ) ′ Σ ^ − 1 ( X ¯ − y ¯ ) ∼ T 2 ( p , n X + n y − 2 ) { displaystyle t ^ {2} = { frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} ({ overline { mathbf {x}}} - { overline { mathbf {y}}}) '{ hat { mathbf { Sigma}}} ^ {- 1} ({ overline { mathbf {x}}} - { overline { mathbf {y}} }) sim T ^ {2} (p, n_ {x} + n_ {y} -2)} Související pojmy Může to souviset s F-distribucí pomocí[4]
n X + n y − p − 1 ( n X + n y − 2 ) p t 2 ∼ F ( p , n X + n y − 1 − p ) . { displaystyle { frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} sim F (p, n_ {x} + n_ {y} -1-p).} Nenulové rozdělení této statistiky je necentrální F-distribuce (poměr a necentrální Chi-na druhou náhodná proměnná a nezávislá centrální Chi-na druhou náhodná proměnná)
n X + n y − p − 1 ( n X + n y − 2 ) p t 2 ∼ F ( p , n X + n y − 1 − p ; δ ) , { displaystyle { frac {n_ {x} + n_ {y} -p-1} {(n_ {x} + n_ {y} -2) p}} t ^ {2} sim F (p, n_ {x} + n_ {y} -1-p; delta),} s
δ = n X n y n X + n y ν ′ PROTI − 1 ν , { displaystyle delta = { frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} { boldsymbol { nu}} ' mathbf {V} ^ {- 1} { boldsymbol { nu}},} kde ν = X ¯ − y ¯ { displaystyle { boldsymbol { nu}} = mathbf {{ overline {x}} - { overline {y}}}} je rozdílový vektor mezi populačními prostředky.
V případě dvou proměnných se vzorec pěkně zjednodušuje a umožňuje ocenit, jak korelace, ρ { displaystyle rho} , mezi proměnnými ovlivňuje t 2 { displaystyle t ^ {2}} . Pokud definujeme
d 1 = X ¯ 1 − y ¯ 1 , d 2 = X ¯ 2 − y ¯ 2 { displaystyle d_ {1} = { overline {x}} _ {1} - { overline {y}} _ {1}, qquad d_ {2} = { overline {x}} _ {2} - { overline {y}} _ {2}} a
s 1 = Ž 11 s 2 = Ž 22 ρ = Ž 12 / ( s 1 s 2 ) = Ž 21 / ( s 1 s 2 ) { displaystyle s_ {1} = { sqrt {W_ {11}}} qquad s_ {2} = { sqrt {W_ {22}}} qquad rho = W_ {12} / (s_ {1} s_ {2}) = W_ {21} / (s_ {1} s_ {2})} pak
t 2 = n X n y ( n X + n y ) ( 1 − r 2 ) [ ( d 1 s 1 ) 2 + ( d 2 s 2 ) 2 − 2 ρ ( d 1 s 1 ) ( d 2 s 2 ) ] { displaystyle t ^ {2} = { frac {n_ {x} n_ {y}} {(n_ {x} + n_ {y}) (1-r ^ {2})}} vlevo [ vlevo ({ frac {d_ {1}} {s_ {1}}} vpravo) ^ {2} + vlevo ({ frac {d_ {2}} {s_ {2}}} vpravo) ^ {2 } -2 rho left ({ frac {d_ {1}} {s_ {1}}} right) left ({ frac {d_ {2}} {s_ {2}}} right) že jo]} Pokud tedy existují rozdíly ve dvou řadách vektoru ( X ¯ − y ¯ ) { displaystyle ({ overline { mathbf {x}}} - { overline { mathbf {y}}})} jsou stejného znamení, obecně, t 2 { displaystyle t ^ {2}} se zmenší jako ρ { displaystyle rho} se stává pozitivnějším. Pokud jsou rozdíly opačného znaménka t 2 { displaystyle t ^ {2}} se zvětší jako ρ { displaystyle rho} se stává pozitivnějším.
Jednorozměrný speciální případ najdete v Welchův t-test .
V literatuře byly navrženy robustnější a výkonnější testy než dvouvzorkový test Hotelling, viz například testy založené na vzdálenosti mezi body, které lze použít, i když je počet proměnných srovnatelný nebo dokonce větší než počet subjektů.[8] [9]
Viz také Reference ^ A b C Hotelling, H. (1931). „Zobecnění Studentova poměru“ . Annals of Mathematical Statistics . 2 (3): 360–378. doi :10.1214 / aoms / 1177732979 .^ Johnson, R. A.; Wichern, D.W. (2002). Aplikovaná vícerozměrná statistická analýza . 5 . Hala Prentice. ^ Eric W. Weisstein, MathWorld ^ A b Mardia, K. V .; Kent, J. T .; Bibby, J. M. (1979). Vícerozměrná analýza . Akademický tisk. ISBN 978-0-12-471250-8 . ^ „6.5.4.3. Hotelling's T na druhou " .^ Konec kapitoly 4.2 Johnson, R.A. & Wichern, D.W. (2002) ^ Billingsley, P. (1995). "26. Charakteristické funkce". Pravděpodobnost a míra (3. vyd.). Wiley. ISBN 978-0-471-00710-4 . ^ Marozzi, M. (2016). "Vícerozměrné testy založené na vzdálenostech mezi body s aplikací na zobrazování magnetickou rezonancí". Statistické metody v lékařském výzkumu . 25 (6): 2593–2610. doi :10.1177/0962280214529104 . PMID 24740998 . ^ Marozzi, M. (2015). "Multivariační multidistance testy pro případové kontrolní studie s vysokou dimenzí a malou velikostí vzorku". Statistika v medicíně . 34 (9): 1511–1526. doi :10.1002 / sim.6418 . PMID 25630579 . externí odkazy Diskrétní univariate s konečnou podporou Diskrétní univariate s nekonečnou podporou Kontinuální univariate podporováno v omezeném intervalu Kontinuální univariate podporováno v poloneomezeném intervalu Kontinuální univariate podporováno na celé reálné linii Kontinuální univariate s podporou, jejíž typ se liší Smíšené spojité diskrétní univariate Vícerozměrný (společný) Směrový Degenerovat a jednotné číslo Rodiny