Hypergeometrická distribuce - Hypergeometric distribution
Funkce pravděpodobnostní hmotnosti ![]() | |||
Funkce kumulativní distribuce ![]() | |||
Parametry | |||
---|---|---|---|
Podpěra, podpora | |||
PMF | |||
CDF | kde je generalizovaná hypergeometrická funkce | ||
Znamenat | |||
Režim | |||
Rozptyl | |||
Šikmost | |||
Př. špičatost | |||
MGF | |||
CF |
v teorie pravděpodobnosti a statistika, hypergeometrická distribuce je diskrétní rozdělení pravděpodobnosti který popisuje pravděpodobnost úspěchy (náhodné losování, pro které má nakreslený objekt specifikovaný rys) v Kreslí, bez výměna, z konečné populace velikosti který obsahuje přesně objekty s touto funkcí, přičemž každý tah je buď úspěch, nebo neúspěch. Naproti tomu binomická distribuce popisuje pravděpodobnost úspěchy v Kreslí s výměna, nahrazení.
Definice
Funkce pravděpodobnostní hmotnosti
Hypergeometrické rozdělení charakterizují následující podmínky:
- Výsledek každého losování (prvky populace, ze které se odebírají vzorky) lze klasifikovat do jednoho z dvě vzájemně se vylučující kategorie (např. Pass / Fail nebo Employed / Unemployed).
- Pravděpodobnost úspěchu se při každém losování mění, protože každý los snižuje populaci (vzorkování bez náhrady z konečné populace).
A náhodná proměnná sleduje hypergeometrické rozdělení, pokud je funkce pravděpodobnostní hmotnosti (pmf) je dáno[1]
kde
- je velikost populace,
- je počet úspěšných států v populaci,
- je počet losování (tj. množství čerpané v každém pokusu),
- je počet pozorovaných úspěchů,
- je binomický koeficient.
The odpoledne je pozitivní, když .
Náhodná proměnná distribuovaná hypergeometricky s parametry , a je psáno a má funkce pravděpodobnostní hmotnosti výše.
Kombinatorické identity
Podle potřeby máme
což v zásadě vyplývá z Vandermondeova identita z kombinatorika.
Všimněte si také, že
Tuto identitu lze ukázat vyjádřením binomických koeficientů z hlediska faktoriálů a jejich přeuspořádáním, ale italso vyplývá ze symetrie problému. Zvažte dvě kola kreslení bez výměny. V prvním kole mimo neutrální kuličky jsou čerpány z urny bez výměny a zbarveny zeleně. Poté jsou barevné kuličky vráceny zpět. Ve druhém kole kuličky jsou kresleny bez náhrady a zbarveny červeně. Poté má počet kuliček s oběma barvami (tj. Počet kuliček, které byly nakresleny dvakrát) hypergeometrické rozdělení. Symetrie v a pramení ze skutečnosti, že obě kola jsou nezávislá a jedna mohla začít kreslením koule a nejprve je zbarvíte červeně.
Vlastnosti
Pracovní příklad
Klasická aplikace hypergeometrické distribuce je vzorkování bez náhrady. Přemýšlejte o urna se dvěma barvami kuličky, červená a zelená. Definujte kreslení zeleného mramoru jako úspěch a kreslení červeného mramoru jako neúspěch (analogicky k binomickému rozdělení). Pokud proměnná N popisuje počet všechny kuličky v urně (viz pohotovostní tabulka níže) a K. popisuje počet zelené kuličky, pak N − K. odpovídá počtu červené kuličky. V tomto příkladu X je náhodná proměnná jehož výsledek je k, počet zelených kuliček skutečně nakreslených v experimentu. Tuto situaci ilustruje následující pohotovostní tabulka:
tažené | není nakreslena | celkový | |
---|---|---|---|
zelené kuličky | k | K. − k | K. |
červené kuličky | n − k | N + k - n - K. | N - K. |
celkový | n | N - n | N |
Nyní předpokládejme (například), že v urně je 5 zelených a 45 červených kuliček. Stojíte vedle urny, zavřete oči a bez náhrady nakreslíte 10 kuliček. Jaká je pravděpodobnost, že přesně 4 z 10 jsou zelené? Všimněte si, že i když se díváme na úspěch / neúspěch, data nejsou přesně modelována pomocí binomická distribuce, protože pravděpodobnost úspěchu v každé studii není stejná, protože velikost zbývající populace se mění, když odstraňujeme každý mramor.
Tento problém shrnuje následující pohotovostní tabulka:
tažené | není nakreslena | celkový | |
---|---|---|---|
zelené kuličky | k = 4 | K. − k = 1 | K. = 5 |
červené kuličky | n − k = 6 | N + k - n - K. = 39 | N - K. = 45 |
celkový | n = 10 | N - n = 40 | N = 50 |
Pravděpodobnost přesného kreslení k zelené kuličky lze vypočítat podle vzorce
Proto v tomto příkladu spočítejte
Intuitivně bychom očekávali, že bude ještě nepravděpodobnější, že všech 10 zelených kuliček bude mezi 10 vylosovanými.
Podle očekávání je pravděpodobnost čerpání 5 zelených kuliček zhruba 35krát méně pravděpodobná než pravděpodobnost čerpání 4.
Symetrie
Výměna rolí zelených a červených kuliček:
Výměna rolí vytažených a nevytažených kuliček:
Výměna rolí zelených a nakreslených kuliček:
Tyto symetrie generují dihedrální skupina .
Pořadí losování
Pravděpodobnost nakreslení libovolné sady zelených a červených kuliček (hypergeometrické rozdělení) závisí pouze na počtu zelených a červených kuliček, nikoli na pořadí, ve kterém se objevují; tj. je to vyměnitelné rozdělení. Výsledkem je pravděpodobnost nakreslení zeleného mramoru v remíza je[2]
Toto je pravděpodobnost ex ante - to znamená, že je založena na neznámu výsledků předchozích losování.
Ocasní meze
Nechat a . Pak pro můžeme odvodit následující hranice:[3]
kde
je Kullback-Leiblerova divergence a používá se to .[4]
Li n je větší než N/ 2, může být užitečné použít symetrii k „invertování“ hranic, které vám poskytnou následující:[4][5]
Statistická inference
Hypergeometrický test
The hypergeometrický test používá hypergeometrickou distribuci k měření statistické významnosti odebrání vzorku skládajícího se ze specifického počtu úspěchy (z celkem čerpá) z populace velikosti obsahující úspěchy. V testu nadměrného zastoupení úspěchů ve vzorku se hypergeometrická hodnota p vypočítá jako pravděpodobnost náhodného vykreslení nebo více úspěchů populace v roce 2006 celkem čerpá. V testu nedostatečného zastoupení je hodnota p pravděpodobnost náhodného vykreslení nebo méně úspěchů.
Test založený na hypergeometrickém rozdělení (hypergeometrický test) je identický s odpovídající jednostrannou verzí Fisherův přesný test.[6] Recipročně lze p-hodnotu oboustranného Fisherova přesného testu vypočítat jako součet dvou příslušných hypergeometrických testů (další informace viz[7]).
Test se často používá k identifikaci, které subpopulace jsou ve vzorku nadměrně nebo nedostatečně zastoupeny. Tento test má širokou škálu aplikací. Například marketingová skupina by mohla pomocí testu porozumět své zákaznické základně testováním sady známých zákazníků na nadměrné zastoupení různých demografických podskupin (např. Ženy, lidé do 30 let).
Související distribuce
Nechat a .
- Li pak má Bernoulliho distribuce s parametrem .
- Nechat mít binomická distribuce s parametry a ; to modeluje počet úspěchů v analogickém problému vzorkování s výměna, nahrazení. Li a jsou velké v porovnání s , a není tedy blízko 0 nebo 1 a mají podobné distribuce, tj. .
- Li je velký, a jsou velké v porovnání s , a není tedy blízko 0 nebo 1
kde je standardní funkce normálního rozdělení
- Pokud se pravděpodobnost nakreslení zeleného nebo červeného mramoru nerovná (např. Protože zelené kuličky jsou větší / snadněji uchopitelné než červené kuličky), pak má necentrální hypergeometrická distribuce
- The beta-binomická distribuce je před konjugátem pro hypergeometrickou distribuci.
Následující tabulka popisuje čtyři distribuce související s počtem úspěchů v pořadí losování:
S náhradami | Žádné náhrady | |
---|---|---|
Vzhledem k počtu remíz | binomická distribuce | hypergeometrická distribuce |
Vzhledem k počtu poruch | negativní binomické rozdělení | negativní hypergeometrická distribuce |
Vícerozměrná hypergeometrická distribuce
Parametry | |||
---|---|---|---|
Podpěra, podpora | |||
PMF | |||
Znamenat | |||
Rozptyl |
Model modelu urna se zelenými a červenými kuličkami lze rozšířit na případ, kdy jsou více než dvě barvy kuliček. Pokud existují K.i barevné kuličky i v urně a bereš n kuličky náhodně bez výměny, pak počet kuliček každé barvy ve vzorku (k1, k2,..., kC) má vícerozměrné hypergeometrické rozdělení. To má stejný vztah k multinomiální distribuce že hypergeometrická distribuce má binomickou distribuci - multinomiální distribuce je distribucí „s náhradou“ a multivariační hypergeometrická distribuce je „bez nahrazení“ distribucí.
Vlastnosti této distribuce jsou uvedeny v sousední tabulce, kde C je počet různých barev a je celkový počet kuliček.
Příklad
Předpokládejme, že v urně je 5 černých, 10 bílých a 15 červených kuliček. Pokud je vybráno šest kuliček bez náhrady, je pravděpodobnost, že jsou vybrány přesně dva z každé barvy
Výskyt a aplikace
Aplikace na audit voleb

Volební audity typicky otestujte vzorek okrsků počítaných strojem, abyste zjistili, zda se ruční přepočítávání nebo stroj shodují s původními počty. Neshody vedou buď k sestavě, nebo k většímu přepočítání. Míry vzorkování jsou obvykle definovány zákonem, nikoli statistickým designem, takže pro zákonně definovanou velikost vzorku n, jaká je pravděpodobnost, že vám chybí problém, který je přítomen v K. okrsky, jako je hack nebo chyba? To je pravděpodobnost, že k = 0. Chyby jsou často nejasné a hacker může minimalizovat detekci tím, že ovlivní pouze několik okrsků, což stále ovlivní blízké volby, takže je pravděpodobný scénář pro K. být řádově 5% z N. Audity obvykle pokrývají 1% až 10% okrsků (často 3%),[8][9][10] takže mají vysokou šanci, že jim chybí problém. Například pokud je problém přítomen v 5 ze 100 okrsků, 3% vzorek má 86% pravděpodobnost, že k = 0, takže problém by nebyl zaznamenán, a pouze 14% pravděpodobnost výskytu problému ve vzorku (pozitivní k):
Vzorek by potřeboval 45 okrsků, aby měla pravděpodobnost pod 5% k = 0 ve vzorku, a proto mají pravděpodobnost více než 95% nalezení problému:
Aplikace na Texas Hold'em Poker
v hold'em hráči pokeru dělají to nejlepší, co mohou, kombinováním obou karet v ruce s 5 kartami (společnými kartami), které se nakonec objeví na stole. Balíček má 52 a v každé barvě je 13. Předpokládejme například, že hráč má v ruce 2 kluby a na stole jsou 3 karty, z nichž 2 jsou také kluby. Hráč by rád věděl, jak je pravděpodobné, že jedna z následujících 2 karet bude klubem, který splní flush.
(Všimněte si, že pravděpodobnost vypočítaná v tomto příkladu předpokládá, že nejsou známy žádné informace o kartách v rukou ostatních hráčů; avšak zkušení hráči pokeru mohou zvážit, jak ostatní hráči při sázení (check, call, raise nebo fold) zvažují pravděpodobnost pro každý scénář. Přesně řečeno, zde popsaný přístup k výpočtu pravděpodobnosti úspěchu je přesný ve scénáři, kde je u stolu pouze jeden hráč; ve hře pro více hráčů může být tato pravděpodobnost do určité míry upravena na základě sázkové hry oponentů .)
K dispozici jsou 4 kluby, takže 9 klubů je stále neviditelných. Zobrazeno je 5 karet (2 v ruce a 3 na stole), takže jsou stále neviditelné.
Pravděpodobnost, že jedna z následujících dvou otočených karet je klubová, lze vypočítat pomocí hypergeometrické metody s a . (přibližně 31,64%)
Pravděpodobnost, že obě následující dvě otočené karty jsou kluby, lze vypočítat pomocí hypergeometrické metody s a . (asi 3,33%)
Pravděpodobnost, že žádná z následujících dvou otočených karet nejsou kluby, lze vypočítat pomocí hypergeometrického s a . (asi 65,03%)
Viz také
- Noncentrální hypergeometrické distribuce
- Negativní hypergeometrická distribuce
- Multinomiální distribuce
- Vzorkování (statistika)
- Zobecněná hypergeometrická funkce
- Problém sběratelů kupónů
- Geometrické rozdělení
- Keno
- Dáma ochutnávající čaj
Reference
Citace
- ^ Rice, John A. (2007). Matematická statistika a analýza dat (Třetí vydání.). Duxbury Press. str. 42.
- ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf
- ^ Hoeffding, Wassily (1963), "Pravděpodobnostní nerovnosti pro součty omezených náhodných proměnných" (PDF), Journal of the American Statistical Association, 58 (301): 13–30, doi:10.2307/2282952, JSTOR 2282952.
- ^ A b „Another Tail of the Hypergeometric Distribution“. wordpress.com. 8. prosince 2015. Citováno 19. března 2018.
- ^ Serfling, Robert (1974), „Pravděpodobnostní nerovnosti pro součet při vzorkování bez náhrady“, Annals of Statistics, 2: 39–48, doi:10.1214 / aos / 1176342611.
- ^ Rivals, I .; Personnaz, L .; Taing, L .; Potier, M.-C (2007). „Obohacování nebo vyčerpání kategorie GO v rámci třídy genů: který test?“. Bioinformatika. 23 (4): 401–407. doi:10.1093 / bioinformatika / btl633. PMID 17182697.
- ^ K. Kazatel a N. Briggs. „Výpočet pro Fisherův přesný test: Interaktivní výpočetní nástroj pro Fisherův přesný test pravděpodobnosti pro 2 x 2 tabulky (interaktivní stránka)“.
- ^ Amanda Glazer a Jacob Spertus (2020-02-10). „Začněte šířit zprávy: Newyorský povolební audit má zásadní nedostatky“. SSRN 3536011. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ „Zákony o státním auditu“. Ověřené hlasování. 2017-02-10. Citováno 2018-04-02.
- ^ Národní konference státních zákonodárných sborů. „Povolební audity“. www.ncsl.org. Citováno 2018-04-02.
![]() | Tento článek obsahuje seznam obecných Reference, ale zůstává z velké části neověřený, protože postrádá dostatečné odpovídající vložené citace.Srpna 2011) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Zdroje
- Berkopec, Aleš (2007). „Algoritmus HyperQuick pro diskrétní hypergeometrickou distribuci“. Journal of Discrete Algorithms. 5 (2): 341–347. doi:10.1016 / j.jda.2006.01.001.
- Skala, M. (2011). Msgstr "Hypergeometrické nerovnosti ocasu: ukončení šílenství". arXiv:1311.5939 [math.PR ]. nepublikovaná poznámka