Rybářské necentrální hypergeometrické rozdělení - Fishers noncentral hypergeometric distribution - Wikipedia

m1 = 80, m2 = 60, n = 100, ω = 0,01, ..., 1000
v teorie pravděpodobnosti a statistika, Fisherova necentrální hypergeometrická distribuce je zobecněním hypergeometrická distribuce kde jsou pravděpodobnosti vzorkování upraveny váhovými faktory. Lze jej také definovat jako podmíněné rozdělení ze dvou nebo více binomicky distribuované proměnné závislé na jejich pevném součtu.
Distribuci lze ilustrovat následujícím způsobem urnový model. Předpokládejme například, že urna obsahuje m1 červené koule a m2 bílé koule, celkem N = m1 + m2 koule. Každá červená koule má váhu ω1 a každá bílá koule má váhu ω2. Řekneme, že poměr šancí je ω = ω1 / ω2. Nyní bereme míčky náhodně takovým způsobem, že pravděpodobnost pořízení určité koule je úměrná její hmotnosti, ale nezávisí na tom, co se stane s ostatními míčky. Počet koulí pořízených konkrétní barvou následuje binomická distribuce. Pokud je celkový počet n je známo známé podmíněné rozložení počtu pořízených červených koulí n je Fisherova necentrální hypergeometrická distribuce. Abychom tuto distribuci vygenerovali experimentálně, musíme experiment opakovat, dokud se to nestane n koule.
Pokud chceme opravit hodnotu n před experimentem pak musíme brát koule jeden po druhém, dokud ne n koule. Míče proto již nejsou nezávislé. To dává mírně odlišnou distribuci známou jako Walleniusova necentrální hypergeometrická distribuce. Není zdaleka zřejmé, proč se tyto dvě distribuce liší. Viz položka pro necentrální hypergeometrické distribuce pro vysvětlení rozdílu mezi těmito dvěma distribucemi a diskusi o tom, kterou distribuci použít v různých situacích.
Obě distribuce jsou obě rovny (centrální) hypergeometrická distribuce když je poměr šancí 1.
Bohužel jsou obě distribuce v literatuře známé jako „necentrální hypergeometrická distribuce“. Je důležité upřesnit, která distribuce je míněna při použití tohoto názvu.
Nejprve dostalo jméno Fisherova necentrální hypergeometrická distribuce rozšířená hypergeometrická distribuce (Harkness, 1965) a někteří autoři tento název používají dodnes.
Jednorozměrná distribuce
Parametry | |||
---|---|---|---|
Podpěra, podpora | |||
PMF | kde | ||
Znamenat | , kde | ||
Režim | , kde , , . | ||
Rozptyl | , kde Pk je uveden výše. |
Pravděpodobnostní funkce, průměr a rozptyl jsou uvedeny v sousední tabulce.
Alternativní výraz distribuce má jak počet koulí pořízených každou barvou, tak počet koulí, které nejsou brány jako náhodné proměnné, čímž se výraz pro pravděpodobnost stává symetrickým.
Doba výpočtu funkce pravděpodobnosti může být vysoká, když je součet in P0 má mnoho termínů. Čas výpočtu lze zkrátit výpočtem výrazů v součtu rekurzivně vzhledem k výrazu pro y = X a ignorování zanedbatelných výrazů v ocasech (Liao a Rosen, 2001).
Průměr lze odhadnout pomocí:
- ,
kde , , .
Rozptyl lze odhadnout pomocí:
- .
Lepší aproximace průměru a rozptylu uvádějí Levin (1984, 1990), McCullagh a Nelder (1989), Liao (1992) a Eisinga a Pelzer (2011). Metody sedlového bodu pro přiblížení průměru a rozptyl navrhly Eisinga a Pelzer (2011), které nabízejí extrémně přesné výsledky.
Vlastnosti
Platí následující vztahy symetrie:
Vztah opakování:
Distribuce se laskavě nazývá „finchy-pig“, na základě výše uvedené zkratkové konvence.
Derivace
Univariační necentrální hypergeometrická distribuce může být odvozena alternativně jako podmíněné rozdělení v kontextu dvou binomicky distribuovaných náhodných proměnných, například při zvažování odpovědi na konkrétní léčbu u dvou různých skupin pacientů účastnících se klinického hodnocení. Důležitým uplatněním necentrální hypergeometrické distribuce v této souvislosti je výpočet přesných intervalů spolehlivosti pro poměr šancí srovnávajících odpověď na léčbu mezi oběma skupinami.
Předpokládat X a Y jsou binomicky distribuované náhodné proměnné počítající počet respondentů ve dvou odpovídajících velikostních skupinách mX a mY respektive
- .
Jejich poměr šancí je uveden jako
- .
Prevalence respondentů je plně definována z hlediska pravděpodobnosti , , které odpovídají zkreslení vzorkování v urnovém schématu výše, tj.
- .
Pokus lze shrnout a analyzovat z hlediska následující pohotovostní tabulky.
Léčba Skupina | odpovídač | neodpovídající | Celkový |
---|---|---|---|
X | X | . | mX |
Y | y | . | mY |
Celkový | n | . | N |
Ve stole, - odpovídá celkovému počtu respondentů napříč skupinami a - N k celkovému počtu pacientů přijatých do studie. Tečky označují odpovídající počty frekvencí, které již nejsou relevantní.
Distribuce vzorků respondérů ve skupině X je podmíněna výsledky studie a prevalencí, , je necentrální hypergeometrický:
Všimněte si, že jmenovatel je v podstatě jen čitatel, sečtený za všechny události společného prostoru vzorků pro které to platí . Podmínky nezávislé na X lze započítat ze součtu a zrušit pomocí čitatele.
Vícerozměrná distribuce
Parametry | |||
---|---|---|---|
Podpěra, podpora | |||
PMF | kde | ||
Znamenat | Průměr μi z Xi lze aproximovat pomocí kde r je jedinečné pozitivní řešení . |
Distribuci lze rozšířit na libovolný počet barev C kuliček v urně. Vícerozměrná distribuce se používá, když existují více než dvě barvy.
Pravděpodobnostní funkce a jednoduchá aproximace průměru jsou uvedeny vpravo. Lepší aproximace průměru a rozptylu uvádí McCullagh a Nelder (1989).
Vlastnosti
Pořadí barev je libovolné, aby bylo možné zaměnit libovolné barvy.
Váhy lze libovolně měnit:
- pro všechny
Barvy s nulovým číslem (mi = 0) nebo nulová hmotnost (ωi = 0) lze z rovnic vynechat.
Lze spojovat barvy se stejnou hmotností:
kde je (jednorozměrná, centrální) pravděpodobnost hypergeometrického rozdělení.
Aplikace
Fisherova necentrální hypergeometrická distribuce je užitečná pro modely zkresleného vzorkování nebo zkresleného výběru, kde jsou jednotlivé položky vzorkovány nezávisle na sobě bez konkurence. Předpětí nebo pravděpodobnost lze odhadnout z experimentální hodnoty průměru. Použití Walleniusova necentrální hypergeometrická distribuce místo toho, pokud jsou položky vzorkovány jeden po druhém s konkurencí.
Fisherova necentrální hypergeometrická distribuce se používá hlavně pro testy v kontingenční tabulky kde je požadováno podmíněné rozdělení pro pevné marže. To může být užitečné například pro testování nebo měření účinku léku. Viz McCullagh a Nelder (1989).
Software k dispozici
- FisherHypergeometricDistribution v Mathematica.
- Implementace pro Programovací jazyk R. je k dispozici jako balíček s názvem BiasedUrn. Zahrnuje jednorozměrné a vícerozměrné hromadné funkce pravděpodobnosti, distribuční funkce, kvantily, náhodná proměnná generující funkce, průměr a rozptyl.
- The R balík MCMCpack zahrnuje hmotnostní funkci jednorozměrné pravděpodobnosti a generující funkci náhodných proměnných.
- Systém SAS zahrnuje univariační pravděpodobnostní hromadnou funkci a distribuční funkci.
- Implementace v C ++ je k dispozici od www.agner.org.
- Metody výpočtu jsou popsány v Liao a Rosen (2001) a Fog (2008).
Viz také
- Noncentrální hypergeometrické distribuce
- Walleniusova necentrální hypergeometrická distribuce
- Hypergeometrická distribuce
- Urnové modely
- Předpjatý vzorek
- Zaujatost
- Pohotovostní tabulka
- Fisherův přesný test
Reference
Breslow, N.E .; Day, N.E. (1980), Statistické metody ve výzkumu rakovinyLyon: Mezinárodní agentura pro výzkum rakoviny.
Eisinga, R .; Pelzer, B. (2011), "Aproximace sedlového bodu k průměru a rozptylu rozšířené hypergeometrické distribuce" (PDF), Statistica Neerlandica, 65 (1), s. 22–31, doi:10.1111 / j.1467-9574.2010.00468.x.
Fog, A. (2007), Teorie náhodných čísel.
Fog, A. (2008), „Metody vzorkování pro Walleniova a Fisherova necentrální hypergeometrická distribuce“, Komunikace ve statistice, simulaci a výpočtu, 37 (2), s. 241–257, doi:10.1080/03610910701790236, S2CID 14904723.
Johnson, N.L .; Kemp, A. W .; Kotz, S. (2005), Jednorozměrné diskrétní distribuceHoboken, New Jersey: Wiley and Sons.
Levin, B. (1984), "Simple Improvements on Cornfield's Aproximation to the Mean of a Noncentral Hypergeometric random variable", Biometrika, 71 (3), s. 630–632, doi:10.1093 / biomet / 71.3.630.
Levin, B. (1990), „Oprava sedlového bodu v analýze podmíněné logistické pravděpodobnosti“, Biometrika, [Oxford University Press, Biometrika Trust], 77 (2), s. 275–285, doi:10.1093 / biomet / 77.2.275, JSTOR 2336805.
Liao, J. (1992), „Algoritmus pro průměr a rozptyl necentrální hypergeometrické distribuce“, Biometrie[Wiley, Mezinárodní biometrická společnost], 48 (3), s. 889–892, doi:10.2307/2532354, JSTOR 2532354.
Liao, J. G .; Rosen, O. (2001), „Rychlé a stabilní algoritmy pro výpočet a vzorkování z necentrální hypergeometrické distribuce“, Americký statistik, 55 (4), s. 366–369, doi:10.1198/000313001753272547, S2CID 121279235.
McCullagh, P .; Nelder, J. A. (1989), Zobecněné lineární modely, 2. vyd., Londýn: Chapman and Hall.