Efektivní velikost vzorku - Effective sample size

v statistika, efektivní velikost vzorku je pojem definovaný pro vzorek z distribuce, když jsou pozorování ve vzorku korelovaný nebo vážený.^[1]

Související pozorování

Předpokládejme vzorek několika pozorování ${ displaystyle y_ {i}}$ je čerpáno z distribuce s znamenat ${ displaystyle mu}$ a standardní odchylka ${ displaystyle sigma}$ . Potom se průměr tohoto rozdělení odhadne podle průměru vzorku:

{ displaystyle { hat { mu}} = { frac {1} {n}} sum _ {i = 1} ^ {n} y_ {i}.}

V takovém případě rozptyl z ${ displaystyle { hat { mu}}}$ darováno

{ displaystyle operatorname {Var} ({ hat { mu}}) = { frac { sigma ^ {2}} {n}}}

Pokud jsou však pozorování ve vzorku korelována, pak ${ displaystyle operatorname {Var} ({ hat { mu}})}$ je o něco vyšší. Například pokud jsou všechna pozorování ve vzorku zcela korelována ( ${ displaystyle rho _ {(i, j)} = 1}$ ), pak ${ displaystyle operatorname {Var} ({ hat { mu}}) = sigma ^ {2}}$ bez ohledu na ${ displaystyle n}$ .

Efektivní velikost vzorku ${ displaystyle n _ { text {eff}}}$ je jedinečná hodnota (ne nutně celé číslo) taková, že

{ displaystyle operatorname {Var} ({ hat { mu}}) = { frac { sigma ^ {2}} {n _ { text {eff}}}}}

${ displaystyle n _ { text {eff}}}$ je funkcí korelace mezi pozorováními ve vzorku. Předpokládejme, že všechny korelace jsou stejné a nezáporné, tj. Pokud ${ displaystyle i neq j}$ , pak ${ displaystyle rho _ {(i, j)} = rho geq 0}$ . V takovém případě, pokud ${ displaystyle rho = 0}$ , pak ${ displaystyle n _ { text {eff}} = n}$ . Podobně, pokud ${ displaystyle rho = 1}$ pak ${ displaystyle n _ { text {eff}} = 1}$ . Obecněji,

{ displaystyle n _ { text {eff}} = { frac {n} {1+ (n-1) rho}}}

Případ, kdy korelace nejsou jednotné, je poněkud komplikovanější. Pokud je korelace záporná, může být efektivní velikost vzorku větší než skutečná velikost vzorku. Pokud dovolíme obecnější formu ${ displaystyle { hat { mu}} = součet _ {i = 1} ^ {n} a_ {i} y_ {i}}$ (kde ${ displaystyle sum _ {i = 1} ^ {n} a_ {i} = 1}$ ) pak je možné sestrojit korelační matice, které mají ${ displaystyle n _ { text {eff}}> n}$ i když jsou všechny korelace pozitivní. Intuitivně maximální hodnota ${ displaystyle n _ { text {eff}}}$ přes všechny volby koeficientů ${ displaystyle a_ {i}}$ lze považovat za informační obsah pozorovaných dat.

Vážené vzorky

Pokud byla data vážena (váhy jsou normalizovány tak, aby se jejich součet rovnal 1: ${ displaystyle sum _ {i = 1} ^ {n} w_ {i} = 1}$ ), poté bylo z distribuce vytaženo několik pozorování skládajících vzorek s účinnou 100% korelací s některým předchozím vzorkem. V tomto případě je účinek známý jako Kish Efektivní velikost vzorku^[2]

{ displaystyle n _ { text {eff}} = { frac {( sum _ {i = 1} ^ {n} w_ {i}) ^ {2}} { sum _ {i = 1} ^ { n} w_ {i} ^ {2}}}}

Reference

^ Tom Leinster (18. prosince 2014). „Efektivní velikost vzorku“ (html).
^ „Efekty designu a efektivní velikost vzorku“ (html).

Další čtení

M. B., Priestley (1981), Spektrální analýza a časové řady 1, Akademický tisk, §5.3.

Viz také

Efekt designu

[EffSize-1] Tom Leinster (18. prosince 2014). „Efektivní velikost vzorku“ (html).

[SurveySize-2] „Efekty designu a efektivní velikost vzorku“ (html).

[1]

[2]