Binomický poměr intervalu spolehlivosti - Binomial proportion confidence interval
v statistika, a binomický poměr intervalu spolehlivosti je interval spolehlivosti pro pravděpodobnost úspěchu vypočítanou z výsledku řady experimentů úspěch - neúspěch (Bernoulliho zkoušky ). Jinými slovy, interval spolehlivosti pro binomické proporce je intervalovým odhadem pravděpodobnosti úspěchu p když pouze počet experimentů n a počet úspěchů nS jsou známy.
Existuje několik vzorců pro binomický interval spolehlivosti, ale všechny se spoléhají na předpoklad a binomická distribuce. Obecně platí, že binomické rozdělení platí, když se experiment opakuje fixně několikrát, každá zkouška experimentu má dva možné výsledky (úspěch a neúspěch), pravděpodobnost úspěchu je pro každou studii stejná a pokusy jsou statisticky nezávislé. Protože binomická distribuce je a diskrétní rozdělení pravděpodobnosti (tj. není spojitý) a je obtížné jej vypočítat pro velký počet pokusů, k výpočtu tohoto intervalu spolehlivosti se používají různé aproximace, vše s vlastními kompromisy v přesnosti a výpočetní intenzitě.
Jednoduchým příkladem binomického rozdělení je soubor různých možných výsledků a jejich pravděpodobností pro počet pozorovaných hlav, když mince je převrácena desetkrát. Pozorovaný binomický podíl je zlomek obratů, které se ukáží jako hlavy. Vzhledem k tomuto pozorovanému podílu je interval spolehlivosti pro skutečnou pravděpodobnost přistání mince na hlavách rozsah možných rozměrů, které mohou nebo nemusí obsahovat skutečný podíl. Například 95% interval spolehlivosti pro podíl bude obsahovat skutečný podíl 95% případů, kdy je použit postup pro konstrukci intervalu spolehlivosti.[1]
Normální přibližný interval
Běžně používaný vzorec pro binomický interval spolehlivosti se opírá o aproximaci distribuce chyby o binomicky distribuovaném pozorování, , s normální distribuce.[2] Tato aproximace je založena na teorém centrálního limitu a je nespolehlivý, když je velikost vzorku malá nebo se pravděpodobnost úspěchu blíží 0 nebo 1.[3]
Při použití normální aproximace je pravděpodobnost úspěchu p se odhaduje na
nebo ekvivalent
kde je podíl úspěchů v a Bernoulliho soud proces, měřeno pomocí výsledky zkoušek úspěchy a selhání a je kvantil a standardní normální rozdělení (tj probit ) odpovídající cílové míře chyb . U 95% úrovně spolehlivosti došlo k chybě , tak a .
Důležité teoretické odvození tohoto intervalu spolehlivosti zahrnuje inverzi testu hypotézy. Podle této formulace představuje interval spolehlivosti ty hodnoty parametru populace, které by měly velké p-hodnoty, pokud byly testovány jako hypotéza podíl populace. Sbírka hodnot, , pro které platí normální aproximace, lze vyjádřit jako
kde je kvantil a standardní normální rozdělení. Jelikož test uprostřed nerovnosti je a Waldův test, normální aproximační interval se někdy nazývá Wald interval, ale poprvé to popsal Pierre-Simon Laplace v roce 1812.[4]
Standardní chyba odhadu podílu při použití vážených dat
Nechť existuje jednoduchý náhodný vzorek kde každý je i.i.d od a Bernoulli p) rozložení a hmotnost je váha pro každé pozorování. Standardizujte (kladné) váhy tedy sečtou k 1. The vážený podíl vzorku je: . Protože jsou nezávislé a každý má rozptyl , rozptyl vzorkování podílu proto je:[5]
.
The standardní chyba z je druhá odmocnina tohoto množství. Protože nevíme , musíme to odhadnout. Ačkoli existuje mnoho možných odhadů, je třeba použít běžný , vzorový průměr, a zapojte to do vzorce. To dává:
U nevážených dat dávat . SE se stává , což vede ke známým vzorcům, které ukazují, že výpočet vážených dat je jejich přímým zobecněním.
Interval Wilsonova skóre
Interval Wilsonova skóre je zlepšení oproti běžnému intervalu aproximace v tom skutečném pravděpodobnost pokrytí je blíže jmenovité hodnotě. Byl vyvinut společností Edwin Bidwell Wilson (1927).[6]
Wilson začal s normální aproximací k binomickému:
s analytickým vzorcem pro směrodatnou odchylku vzorku danou
- .
Kombinace dvou a druhou mocninu radikálu dává rovnici, která je kvadratická p:
Transformace vztahu na kvadratickou rovnici standardního tvaru pro p, léčení a n jako známé hodnoty ze vzorku (viz předchozí část) a použití hodnoty z což odpovídá požadované spolehlivosti pro odhad p dává toto:
- ,
kde všechny hodnoty v závorkách jsou známé veličiny. Řešení pro p odhaduje horní a dolní mez intervalu spolehlivosti pro p. Proto pravděpodobnost úspěchu p se odhaduje na
nebo ekvivalent
Praktické pozorování z používání tohoto intervalu spočívá v tom, že má dobré vlastnosti i pro malý počet pokusů a / nebo extrémní pravděpodobnost.
Střední hodnota tohoto intervalu je intuitivně vážený průměr a , s získává větší váhu s rostoucí velikostí vzorku. Formálně hodnota středu odpovídá použití a pseudopočet z 1/2 z², počet standardních odchylek intervalu spolehlivosti: přidejte toto číslo k počtu úspěchů i neúspěchů, abyste získali odhad poměru. U běžných dvou standardních odchylek v každém směru (přibližně 95% pokrytí, což je samo o sobě přibližně 1,96 standardních odchylek), se získá odhad , které je známé jako „pravidlo plus čtyři“.
I když lze kvadratickou řešit explicitně, ve většině případů lze Wilsonovy rovnice řešit také numericky pomocí iterace s pevným bodem
s .
Wilsonův interval lze odvodit z Pearsonův test chí-kvadrát se dvěma kategoriemi. Výsledný interval,
pak lze vyřešit pro k vytvoření Wilsonova intervalu skóre. Test uprostřed nerovnosti je a bodový test.
Interval Wilsonova skóre s korekcí kontinuity
Wilsonův interval lze upravit použitím a korekce spojitosti, za účelem sladění minima pravděpodobnost pokrytí, spíše než průměrná pravděpodobnost, s nominální hodnotou.
Stejně jako Wilsonův interval se zrcadlí Pearsonův test chí-kvadrát, Wilsonův interval s korekcí kontinuity zrcadlí ekvivalent Yatesův chí-kvadrát test.
Následující vzorce pro dolní a horní mez intervalu Wilsonova skóre s korekcí kontinuity jsou odvozeny od Newcombe (1998).[7]
Pokud však p = 0, musí být bráno jako 0; -li p = 1, je pak 1.
Jeffreysův interval
The Jeffreysův interval má Bayesiánskou derivaci, ale má dobré frekventované vlastnosti. Zejména má vlastnosti pokrytí, které jsou podobné vlastnostem Wilsonova intervalu, ale je to jeden z mála intervalů, jehož výhodou je rovný ocas (např. pro 95% interval spolehlivosti jsou obě pravděpodobnosti intervalu ležící nad nebo pod skutečnou hodnotou blízké 2,5%). Naproti tomu Wilsonův interval má systematické zkreslení, takže je vystředěn příliš blízko p = 0.5.[8]
Jeffreysův interval je Bayesian důvěryhodný interval získané při použití neinformativní Jeffreys před pro binomický podíl p. The Jeffreys před tímto problémem je Distribuce beta s parametry (1/2, 1/2), to je před konjugátem. Po pozorování X úspěchy v n pokusy, zadní distribuce pro p je Beta distribuce s parametry (X + 1/2, n – X + 1/2).
Když X ≠0 a X ≠ n, je Jeffreysův interval považován za 100(1 – α)% rovnoměrný zadní interval pravděpodobnosti, tj α / 2 a 1 – α / 2 kvantily distribuce beta s parametry (X + 1/2, n – X + 1/2). Tyto kvantily je třeba počítat numericky, i když je to s moderním statistickým softwarem poměrně jednoduché.
Aby se zabránilo pravděpodobnosti pokrytí s tendencí k nule, když p → 0 nebo 1, když X = 0 horní limit se počítá jako předtím, ale dolní limit je nastaven na 0 a kdy X = n spodní limit se počítá jako předtím, ale horní limit je nastaven na 1.[3]
Clopper – Pearsonův interval
Clopper – Pearsonův interval je časná a velmi běžná metoda pro výpočet binomických intervalů spolehlivosti.[9] Často se tomu říká „přesná“ metoda, protože je založena na kumulativních pravděpodobnostech binomického rozdělení (tj. Přesně na správném rozdělení spíše než na aproximaci). V případech, kdy známe velikost populace, však intervaly nemusí být nejmenší možné. Například pro populaci velikosti 20 se skutečným podílem 50% dává Clopper-Pearson [0,272, 0,728], která má šířku 0,456 (a kde jsou hranice 0,0280 od „dalších dosažitelných hodnot“ 6/20 a 14 / 20); zatímco Wilson's dává [0,299, 0,701], což má šířku 0,401 (a je 0,0007 od dalších dosažitelných hodnot).
Interval Clopper – Pearson lze zapsat jako
nebo ekvivalentně
s
kde 0 ≤ X ≤ n je počet úspěchů pozorovaných ve vzorku a Bin (n; θ) je binomická náhodná proměnná s n zkoušky a pravděpodobnost úspěchuθ.
Ekvivalentně můžeme říci, že interval Clopper – Pearson je s úrovní spolehlivosti -li je infimum těch, že následující testy hypotéz uspějí s významem :
- H0: s H.A:
- H0: s H.A: .
Kvůli vztahu mezi binomickou distribucí a beta distribuce „Clopper – Pearsonův interval je někdy prezentován v alternativním formátu, který využívá kvantily z distribuce beta.
kde X je počet úspěchů, n je počet pokusů a B(p; proti,w) je pth kvantil z distribuce beta s parametry tvaru proti a w.
Když je buď nebo , jsou k dispozici uzavřené výrazy pro intervalové meze: když interval je a kdy to je .[10]
Distribuce beta zase souvisí s F-distribuce takže třetí formulace Clopper – Pearsonova intervalu lze napsat pomocí F kvantilů:
kde X je počet úspěchů, n je počet pokusů a F(C; d1, d2) je C kvantil z F-distribuce s d1 a d2 stupně svobody.[11]
Clopper – Pearsonův interval je přesný interval, protože je založen přímo na binomickém rozdělení, nikoli na jakékoli aproximaci k binomickému rozdělení. Tento interval nikdy nemá menší než nominální pokrytí pro jakýkoli podíl populace, ale to znamená, že je obvykle konzervativní. Například skutečná míra pokrytí 95% intervalu Clopper – Pearson může být výrazně nad 95%, v závislosti na n aθ.[3] Interval tedy může být širší, než je třeba k dosažení 95% spolehlivosti. Naproti tomu stojí za zmínku, že jiné hranice spolehlivosti mohou být užší než jejich nominální šířka spolehlivosti, tj. Normální aproximační (nebo „standardní“) interval, Wilsonův interval,[6] Interval Agresti – Coull,[11] atd., s nominálním pokrytím 95% může ve skutečnosti pokrýt méně než 95%.[3]
Definici intervalu Clopper – Pearson lze také upravit tak, aby se získaly přesné intervaly spolehlivosti pro různá rozdělení. Lze jej například použít také v případě, že jsou vzorky odebírány bez nahrazení z populace známé velikosti, namísto opakovaných tahů binomické distribuce. V tomto případě by podkladovou distribucí byla hypergeometrická distribuce.
Interval Agresti – Coull
Interval Agresti – Coull je také dalším přibližným binomickým intervalem spolehlivosti.[11]
Dáno úspěchy v pokusy, definovat
a
Poté interval spolehlivosti pro darováno
kde je kvantil standardního normálního rozdělení, jako dříve (například vyžaduje 95% interval spolehlivosti , čímž produkuje ). Podle Hnědý, Cai a DasGupta,[3] brát místo 1,96 vytvoří interval „přidání 2 úspěchů a 2 selhání“, který dříve popsal Agresti a Coull.[11]
Tento interval lze shrnout jako použití nastavení středového bodu, Wilsonova intervalu skóre a poté se použije normální aproximace k tomuto bodu.[2][3]
Arcsinova transformace
Arcsine transformace má za následek vytažení konců distribuce.[12] I když dokáže stabilizovat rozptyl (a tedy intervaly spolehlivosti) proporcionálních dat, jeho použití bylo v několika kontextech kritizováno.[13]
Nechat X být počet úspěchů v n zkoušky a nechte p = X/n. Rozptyl p je
Pomocí arc sine transformujte rozptyl arcsine z p1/2 je[14]
Samotný interval spolehlivosti má tedy následující podobu:
kde je kvantil standardního normálního rozdělení.
Tuto metodu lze použít k odhadu rozptylu p ale jeho použití je problematické, když p je blízko 0 nebo 1.
tA přeměnit
Nechat p být podílem úspěchů. Pro 0 ≤ A ≤ 2,
Tato rodina je zevšeobecněním logitové transformace, což je zvláštní případ A = 1 a lze jej použít k transformaci proporcionální distribuce dat na přibližně normální distribuce. Parametr A je třeba odhadnout pro soubor dat.
Pravidlo tři - pro případ, že nejsou pozorovány žádné úspěchy
The pravidlo tří se používá k poskytnutí jednoduchého způsobu stanovení přibližného 95% intervalu spolehlivosti pro p, ve zvláštním případě, že žádný úspěch () byly pozorovány.[15] Interval je (0,3/n).
Podle symetrie lze očekávat pouze úspěchy (), interval je (1 − 3/n,1).
Porovnání různých intervalů
Existuje několik výzkumných prací, které porovnávají tyto a další intervaly spolehlivosti pro binomický podíl.[2][7][16][17] Agresti i Coull (1998)[11] a Ross (2003)[18] zdůrazněte, že přesné metody, jako je Clopper-Pearsonův interval, nemusí fungovat stejně dobře jako určité aproximace. Normální aproximace a její prezentace v učebnicích byla kritizována a mnoho statistiků se vyslovilo pro její nepoužívání.[3]
Z výše uvedených aproximací se ukázalo, že metody Wilsonova intervalu skóre (s korekcí kontinuity nebo bez ní) jsou nejpřesnější a nejrobustnější,[2][3][7] ačkoli někteří dávají přednost přístupu Agresti – Coull pro větší velikosti vzorků.[3]
Mnoho z těchto intervalů lze vypočítat v R pomocí balíčků jako "binom", nebo v Krajta pomocí balíčku „ebcic“ (Přesná binomická spolehlivost Interval Calculator).
Viz také
Reference
- ^ Sullivan, Lisa (2017-10-27). „Intervaly spolehlivosti“. Boston University School of Public Health.
- ^ A b C d Wallis, Sean A. (2013). „Binomické intervaly spolehlivosti a pohotovostní testy: matematické základy a vyhodnocení alternativních metod“ (PDF). Journal of Quantitative Linguistics. 20 (3): 178–208. doi:10.1080/09296174.2013.799918. S2CID 16741749.
- ^ A b C d E F G h i Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001). "Odhad intervalu pro binomický poměr". Statistická věda. 16 (2): 101–133. CiteSeerX 10.1.1.50.3025. doi:10.1214 / ss / 1009213286. PAN 1861069. Zbl 1059.62533.
- ^ Laplace, Pierre Simon (1812). Théorie analytique des probabilités (francouzsky). Ve. Courcier. str. 283.
- ^ Jak vypočítat standardní chybu poměru pomocí vážených dat?
- ^ A b Wilson, E. B. (1927). "Pravděpodobný závěr, zákon posloupnosti a statistický závěr". Journal of the American Statistical Association. 22 (158): 209–212. doi:10.1080/01621459.1927.10502953. JSTOR 2276774.
- ^ A b C Newcombe, R. G. (1998). "Oboustranné intervaly spolehlivosti pro jediný podíl: srovnání sedmi metod". Statistika v medicíně. 17 (8): 857–872. doi:10.1002 / (SICI) 1097-0258 (19980430) 17: 8 <857 :: AID-SIM777> 3.0.CO; 2-E. PMID 9595616.
- ^ Cai, TT (2005). "Jednostranné intervaly spolehlivosti v diskrétních distribucích". Journal of Statistical Planning and Inference. 131 (1): 63–88. doi:10.1016 / j.jspi.2004.01.005.
- ^ Clopper, C .; Pearson, E. S. (1934). Msgstr "Použití důvěryhodnosti nebo výchozích limitů ilustrovaných v případě dvojčlenu". Biometrika. 26 (4): 404–413. doi:10.1093 / biomet / 26.4.404.
- ^ Thulin, Måns (01.01.2014). "Náklady na použití přesných intervalů spolehlivosti pro binomický podíl". Elektronický statistický věstník. 8 (1): 817–840. arXiv:1303.1288. doi:10.1214 / 14-EJS909. ISSN 1935-7524. S2CID 88519382.
- ^ A b C d E Agresti, Alan; Coull, Brent A. (1998). "Přibližný je lepší než 'přesný' pro intervalový odhad binomických rozměrů". Americký statistik. 52 (2): 119–126. doi:10.2307/2685469. JSTOR 2685469. PAN 1628435.
- ^ Holland, Steven. „Transformace proporcí a procent. vrstvy.uga.edu. Citováno 2020-09-08.
- ^ Warton, David I .; Hui, Francis K. C. (leden 2011). „Arcsine je asinine: analýza proporcí v ekologii“. Ekologie. 92 (1): 3–10. doi:10.1890/10-0340.1. hdl:1885/152287. ISSN 0012-9658.
- ^ Shao J (1998) Matematická statistika. Springer. New York, New York, USA
- ^ Steve Simon (2010) „Interval spolehlivosti s nulovými událostmi“ The Hospital of Mercy Hospital, Kansas City, Mo. (webové stránky: „Ask Professor Mean at Statistická témata nebo lékařský výzkum Archivováno 15. října 2011 v Wayback Machine )
- ^ Reiczigel, J (2003). "Intervaly spolehlivosti pro binomický parametr: některé nové úvahy" (PDF). Statistika v medicíně. 22 (4): 611–621. doi:10.1002 / sim.1320. PMID 12590417.
- ^ Sauro J., Lewis J.R. (2005) "Porovnání Waldových, Adj-Waldových, přesných a Wilsonových kalkulaček intervalů" Archivováno 18. 06. 2012 na Wayback Machine. Sborník společnosti Human Factors and Ergonomics Society, 49. výroční zasedání (HFES 2005), Orlando, FL, s. 2100–2104
- ^ Ross, T. D. (2003). „Přesné intervaly spolehlivosti pro binomický podíl a odhad Poissonovy rychlosti“. Počítače v biologii a medicíně. 33 (6): 509–531. doi:10.1016 / S0010-4825 (03) 00019-2. PMID 12878234.