Binomická nerovnost součtu odchylek - Binomial sum variance inequality
The binomický součet odchylka nerovnost uvádí, že rozptyl součtu binomicky distribuované náhodné proměnné bude vždy menší nebo roven rozptylu binomické proměnné se stejnou n a str parametry. v teorie pravděpodobnosti a statistika, součet nezávislých binomických náhodných proměnných je samo o sobě binomickou náhodnou proměnnou, pokud všechny proměnné složek sdílejí stejné pravděpodobnost úspěchu. Pokud se pravděpodobnosti úspěchu liší, rozdělení pravděpodobnosti součtu není binomické.[1] Nedostatek jednotnosti v pravděpodobnosti úspěchu napříč nezávislými zkouškami vede k menší odchylce.[2][3][4][5][6] a je to zvláštní případ obecnější věty zahrnující očekávaná hodnota konvexních funkcí.[7] V některých statistických aplikacích lze použít standardní binomický odhad rozptylu, i když se pravděpodobnosti komponent liší, i když s odhadem rozptylu, který má vzestupný zaujatost.
Prohlášení o nerovnosti
Zvažte součet Z, ze dvou nezávislých binomických náhodných proměnných, X ~ B (m0, str0) a Y ~ B (m1, str1), kde Z = X + Y. Pak rozptyl Z je menší nebo roven jeho rozptylu za předpokladu, že str0 = str1, tedy pokud Z měl binomickou distribuci.[8] Symbolicky, .
Chtěli bychom to dokázat
Tuto nerovnost dokážeme nalezením výrazu pro Var (Z) a jeho nahrazení na levé straně, což ukazuje, že nerovnost vždy platí.
Li Z má binomickou distribuci s parametry n a str, pak očekávaná hodnota z Z darováno E[Z] = np a rozptyl Z darováno Var [Z] = np(1 – str). Pronájem n = m0 + m1 a dosazením E [Z] pro np dává
Náhodné proměnné X a Y jsou nezávislé, takže rozptyl součtu se rovná součtu odchylek, to je
K prokázání věty tedy stačí prokázat to
Nahrazení E [X] + E [Y] pro E [Z] dává
Vynásobením závorek a odečtením E [X] + E [Y] z obou stran se získá výtěžek
Vynásobením výnosů v závorkách
Odečtení E [X] a E [Y] od obou stran a obrácení nerovnosti dává
Rozšíření pravé strany dává
Vynásobením výnosy
Odpočet na pravé straně dává vztah
nebo ekvivalentně
Čtverec skutečného čísla je vždy větší nebo roven nule, takže to platí pro všechna nezávislá binomická rozdělení, která mohou X a Y mít. To je dostatečné k prokázání věty.
Ačkoli byl tento důkaz vyvinut pro součet dvou proměnných, lze jej snadno zobecnit na více než dvě. Kromě toho, pokud jsou známy jednotlivé pravděpodobnosti úspěchu, je známo, že varianta má podobu[6]
kde . Tento výraz také naznačuje, že odchylka je vždy menší než u binomické distribuce s , protože standardní výraz pro rozptyl je snížen o ns2kladné číslo.
Aplikace
Nerovnost může být užitečná v kontextu vícenásobné testování, kde mnoho statistické testy hypotéz jsou prováděny v rámci konkrétní studie. Každý test lze považovat za a Bernoulliho proměnná s pravděpodobností úspěchu str. Zvažte celkový počet pozitivních testů jako náhodnou proměnnou označenou S. Toto množství je důležité při odhadu míry falešných objevů (FDR), které kvantifikují nejistotu ve výsledcích testu. Pokud nulová hypotéza platí pro některé testy a alternativní hypotéza platí pro ostatní testy, pravděpodobnosti úspěchu se pravděpodobně budou mezi těmito dvěma skupinami lišit. Věta o odchylce rozptylu však uvádí, že pokud jsou testy nezávislé, rozptyl S nebude větší než by to bylo při binomické distribuci.
Reference
- ^ Butler, K '.; Stephens, M. (1993). "Rozdělení součtu binomických náhodných proměnných" (PDF). Technická zpráva č. 467. Katedra statistiky, Stanford University.
- ^ Nedelman, J a Wallenius, T., 1986. Bernoulliho pokusy, Poissonovy pokusy, překvapivé varianty a Jensenova nerovnost. Americký statistik, 40 (4): 286–289.
- ^ Feller, W. 1968. Úvod do teorie pravděpodobnosti a jejích aplikací (sv. 1, 3. vydání). New York: John Wiley.
- ^ Johnson, N. L. a Kotz, S. 1969. Diskrétní distribuce. New York: John Wiley
- ^ Kendall, M. a Stuart, A. 1977. Pokročilá teorie statistiky. New York: Macmillan.
- ^ A b Drezner, Zvi; Farnum, Nicholas (1993). Msgstr "Zobecněná binomická distribuce". Komunikace ve statistice - teorie a metody. 22 (11): 3051–3063. doi:10.1080/03610929308831202. ISSN 0361-0926.
- ^ Hoeffding, W. 1956. O rozdělení počtu úspěchů v nezávislých studiích. Annals of Mathematical Statistics (27): 713–721.
- ^ Millstein, J .; Volfson, D. (2013). "Výpočetně efektivní odhad spolehlivosti založený na permutaci pro FDR oblasti ocasu". Frontiers in Genetics. 4 (179): 1–11. doi:10.3389 / fgene.2013.00179. PMC 3775454. PMID 24062767.