Efektivní velikost vzorku - Effective sample size

v statistika, efektivní velikost vzorku je pojem definovaný pro vzorek z distribuce, když jsou pozorování ve vzorku korelovaný nebo vážený.[1]

Související pozorování

Předpokládejme vzorek několika pozorování je čerpáno z distribuce s znamenat a standardní odchylka . Potom se průměr tohoto rozdělení odhadne podle průměru vzorku:

V takovém případě rozptyl z darováno

Pokud jsou však pozorování ve vzorku korelována, pak je o něco vyšší. Například pokud jsou všechna pozorování ve vzorku zcela korelována (), pak bez ohledu na .

Efektivní velikost vzorku je jedinečná hodnota (ne nutně celé číslo) taková, že

je funkcí korelace mezi pozorováními ve vzorku. Předpokládejme, že všechny korelace jsou stejné a nezáporné, tj. Pokud , pak . V takovém případě, pokud , pak . Podobně, pokud pak . Obecněji,

Případ, kdy korelace nejsou jednotné, je poněkud komplikovanější. Pokud je korelace záporná, může být efektivní velikost vzorku větší než skutečná velikost vzorku. Pokud dovolíme obecnější formu (kde ) pak je možné sestrojit korelační matice, které mají i když jsou všechny korelace pozitivní. Intuitivně maximální hodnota přes všechny volby koeficientů lze považovat za informační obsah pozorovaných dat.

Vážené vzorky

Pokud byla data vážena (váhy jsou normalizovány tak, aby se jejich součet rovnal 1: ), poté bylo z distribuce vytaženo několik pozorování skládajících vzorek s účinnou 100% korelací s některým předchozím vzorkem. V tomto případě je účinek známý jako Kish Efektivní velikost vzorku[2]

Reference

  1. ^ Tom Leinster (18. prosince 2014). „Efektivní velikost vzorku“ (html).
  2. ^ „Efekty designu a efektivní velikost vzorku“ (html).

Další čtení

Viz také