Negativní binomické rozdělení - Negative binomial distribution
Různé texty (a dokonce i různé části tohoto článku) přijímají mírně odlišné definice záporného binomického rozdělení. Lze je rozlišit podle toho, zda podpora začíná na k = 0 nebo v k = r, zda str označuje pravděpodobnost úspěchu nebo neúspěchu a zda r představuje úspěch nebo neúspěch,[1] je tedy zásadní určit konkrétní parametrizaci použitou v daném textu. | |||
Funkce pravděpodobnostní hmotnosti ![]() Oranžová čára představuje průměr, který se rovná 10 v každém z těchto grafů; zelená čára ukazuje směrodatnou odchylku. | |||
Zápis | |||
---|---|---|---|
Parametry | r > 0 - počet poruch, dokud není experiment zastaven (celé číslo, ale definici lze také rozšířit na skutečné ) str ∈ [0,1] - pravděpodobnost úspěchu v každém experimentu (reálná) | ||
Podpěra, podpora | k ∈ {0, 1, 2, 3,…} - počet úspěchů | ||
PMF | zahrnující a binomický koeficient | ||
CDF | the legalizovaná neúplná beta funkce | ||
Znamenat | |||
Režim | |||
Rozptyl | |||
Šikmost | |||
Př. špičatost | |||
MGF | |||
CF | |||
PGF | |||
Fisher informace | |||
Metoda momentů | |
v teorie pravděpodobnosti a statistika, negativní binomické rozdělení je diskrétní rozdělení pravděpodobnosti který modeluje počet úspěchů v posloupnosti nezávislých a identicky distribuovaných Bernoulliho zkoušky před zadaným (nenáhodným) počtem poruch (označeno r).[2] Například můžeme definovat válcování 6 na kostce jako selhání a válcování jakéhokoli jiného čísla jako úspěch a zeptat se, kolik úspěšných válců nastane, než uvidíme třetí selhání (r = 3). V takovém případě bude pravděpodobnostní rozdělení počtu ne-6, které se objeví, záporné binomické rozdělení.
The Pascal distribuce (po Blaise Pascal ) a Distribuce polya (pro George Pólya ) jsou speciální případy záporného binomického rozdělení. Konvence mezi inženýry, klimatology a dalšími je použít „záporný binomický“ nebo „Pascal“ pro případ zastavovacího času s celočíselnou hodnotou r, a pro skutečný případ použijte „Polya“.
Pro výskyty přidružených samostatných událostí, jako jsou vypuknutí tornáda, lze použít distribuce Polya k získání přesnějších modelů než Poissonovo rozdělení tím, že umožňuje rozdíl a střední odchylku, na rozdíl od Poissona. Negativní binomické rozdělení má rozptyl , přičemž rozdělení se v limitu stává identickým s Poissonem pro daný průměr . Díky tomu může být distribuce užitečná přehnaně rozptýleny alternativa k Poissonově rozdělení, například pro a robustní modifikace Poissonova regrese. V epidemiologii se používá k modelování přenosu nemocí na infekční nemoci, kde se pravděpodobný počet dalších infekcí může značně lišit od jednotlivce k jednotlivci i od prostředí k prostředí.[3] Obecněji to může být vhodné tam, kde události pozitivně korelovaly výskyty způsobující větší rozptyl než kdyby byly výskyty nezávislé, kvůli pozitivu kovariance období.
Termín „negativní binomický“ je pravděpodobně způsoben skutečností, že určitý binomický koeficient který se objeví ve vzorci pro funkce pravděpodobnostní hmotnosti distribuce lze zapsat jednodušeji se zápornými čísly.[4]
Definice
Předpokládejme, že existuje posloupnost nezávislých Bernoulliho zkoušky. Každá studie má tedy dva potenciální výsledky zvané „úspěch“ a „neúspěch“. V každé studii je pravděpodobnost úspěchu str a selhání je (1 -str). Sledujeme tuto sekvenci až do předdefinovaného čísla r došlo k úspěchu. Pak jsme viděli náhodný počet poruch, X, bude mít negativní binomický (nebo Pascal) rozdělení:
Při aplikaci na problémy v reálném světě, výsledky úspěch a selhání mohou nebo nemusí být výsledky, které obvykle považujeme za dobré a špatné. Předpokládejme, že jsme použili záporné binomické rozdělení k modelování počtu dní, kdy určitý stroj pracuje, než se porouchá. V tomto případě by „porucha“ byla výsledkem v den, kdy stroj pracoval správně, zatímco porucha by byla „úspěchem“. Použili jsme negativní binomické rozdělení k modelování počtu pokusů o gól, které sportovec provede před skórováním r gólů, pak by každý neúspěšný pokus byl „neúspěchem“ a vstřelení gólu by bylo „úspěchem“. Pokud hodíme mincí, pak záporné binomické rozdělení může dát počet ocasů („selhání“), s nimiž se pravděpodobně setkáme, než narazíme na určitý počet hlav („úspěchy“). V níže uvedené funkci pravděpodobnostní hmotnosti str je pravděpodobnost úspěchu a (1 -str) je pravděpodobnost selhání.
Funkce pravděpodobnostní hmotnosti
The funkce pravděpodobnostní hmotnosti záporného binomického rozdělení je
kde r je počet úspěchů, k je počet poruch a str je pravděpodobnost úspěchu. Zde je množství v závorkách binomický koeficient, a rovná se
Existují k selhání vybrané z k + r-1 vzorky spíše než k + r protože poslední z k + r vzorků je ze své podstaty úspěch.
Tuto veličinu lze alternativně zapsat následujícím způsobem s vysvětlením názvu „negativní binomický“:
Všimněte si, že podle posledního výrazu a binomická řada, pro každého 0 ≤ str < 1 a ,
proto se termíny funkce pravděpodobnostní hmotnosti skutečně sčítají k jedné, jak je uvedeno níže.
Chcete-li porozumět výše uvedené definici funkce pravděpodobnostní hmotnosti, nezapomeňte, že pravděpodobnost pro každou konkrétní posloupnost r úspěchy a k selhání je strr(1 − str)k, protože výsledky k + r pokusy se mají stát nezávisle. Protože rúspěch vždy přijde poslední, zbývá si vybrat k pokusy s neúspěchy ze zbývajících k + r - 1 pokusy. Výše uvedený binomický koeficient díky své kombinatorické interpretaci udává přesně počet všech těchto sekvencí délky k + r − 1.
Funkce kumulativní distribuce
The kumulativní distribuční funkce lze vyjádřit pomocí legalizovaná neúplná beta funkce:
Lze jej vyjádřit také pomocí kumulativní distribuční funkce z binomická distribuce:[5]
Alternativní formulace
Některé zdroje mohou definovat negativní binomické rozdělení mírně odlišně od primárního zde. Nejběžnější varianty jsou tam, kde je náhodná proměnná X počítá různé věci. Tyto varianty lze vidět v tabulce zde:
X se počítá ... | Funkce pravděpodobnostní hmotnosti | Vzorec | Alternativní vzorec (pomocí ekvivalentního binomického čísla) | Alternativní vzorec (zjednodušeno pomocí: ) | Podpěra, podpora | |
1 | k selhání, dané r úspěchy | [6][7][8] | [9][10][11][12] | |||
2 | n zkoušky, dané r úspěchy | [7][12][13][14][15] | ||||
3 | n zkoušky, dané r selhání | |||||
4 | r úspěchy, dané n pokusy | To je binomická distribuce: |
Každá z těchto definic negativního binomického rozdělení může být vyjádřena mírně odlišnými, ale ekvivalentními způsoby. První alternativní formulace je jednoduše ekvivalentní forma binomického koeficientu, to znamená: . Druhá alternativní formulace poněkud zjednodušuje výraz tím, že uznává, že celkový počet pokusů je prostě počet úspěchů a neúspěchů, tj .: . Tyto druhé formulace mohou být intuitivnější na pochopení, jsou však možná méně praktické, protože mají více výrazů.
- Definice kde X je počet k selhání které se vyskytují pro daný počet r úspěchy. Tato definice je velmi podobná primární definici použité v tomto článku, pouze ta k úspěchy a r selhání se mění při zvažování toho, co se počítá a co se dává. Všimněte si však, že str stále odkazuje na pravděpodobnost „úspěchu“.
- Definice kde X je počet n pokusy které se vyskytují pro daný počet r úspěchy. Tato definice je velmi podobná definici # 2, pouze ta r místo je uveden úspěch k selhání. Všimněte si však, že str stále odkazuje na pravděpodobnost „úspěchu“.
- Definici záporného binomického rozdělení lze rozšířit na případ, kdy je parametr r může přijmout pozitivní nemovitý hodnota. I když je nemožné si představit neceločíselný počet „poruch“, stále můžeme formálně definovat distribuci pomocí funkce pravděpodobnostní hmotnosti. Problém rozšíření definice na skutečnou hodnotu (pozitivní) r scvrkává na rozšíření binomického koeficientu na jeho protějšek se skutečnou hodnotou, na základě funkce gama:
- Po dosazení tohoto výrazu do původní definice to řekneme X má záporný dvojčlen (nebo Pólya) distribuce, pokud má a funkce pravděpodobnostní hmotnosti:
- Tady r je skutečné, kladné číslo.
Při negativní binomické regrese[16] distribuce je specifikována z hlediska svého průměru, , který pak souvisí s vysvětlujícími proměnnými jako v lineární regrese nebo jiný zobecněné lineární modely. Z výrazu pro průměr m, lze odvodit a . Poté tyto výrazy dosaďte do ten pro funkci pravděpodobnostní hmotnosti, když r má skutečnou hodnotu, poskytuje tuto parametrizaci funkce pravděpodobnostní hmotnosti z hlediskam:
Odchylku lze potom zapsat jako . Někteří autoři dávají přednost nastavení a vyjádřit rozptyl jako . V této souvislosti a v závislosti na autorovi buď parametr r nebo jeho reciproční α se označuje jako „disperzní parametr“, „tvarový parametr“ nebo „shlukovací koeficient“,[17] nebo „heterogenita“[16] nebo parametr „agregace“.[11] Termín „agregace“ se v ekologii používá zejména při popisu počtu jednotlivých organismů. Snížení parametru agregace r směrem k nule odpovídá rostoucí agregaci organismů; zvýšení o r směrem k nekonečnu odpovídá absenci agregace, jak lze popsat v Poissonova regrese.
- Někdy je distribuce parametrizována z hlediska svého průměru μ a rozptyl σ2:
Příklady
Prodej cukrovinek
Pat Collis je povinen prodávat sladkosti, aby získal peníze na exkurzi v 6. ročníku. V sousedství je třicet domů a Pat se nemá vrátit domů, dokud nebude prodáno pět cukráren. Dítě tedy chodí od dveří ke dveřím a prodává tyčinky. U každého domu je 0,6 pravděpodobnost prodeje jedné cukrárny a 0,4 pravděpodobnost prodeje nic.
Jaká je pravděpodobnost prodeje poslední tyčinky v restauraci nth Dům?
Úspěšný prodej cukrovinek v dostatečné míře je to, co definuje naše kritérium zastavení (na rozdíl od toho, že jsme jej neprodali), takže k v tomto případě představuje počet poruch a r představuje počet úspěchů. Připomeňme, že NegBin (r, str) distribuce popisuje pravděpodobnost k selhání a r úspěchy v k + r Bernoulli (str) zkoušky s úspěchem na posledním pokusu. Prodej pěti cukráren znamená získat pět úspěchů. Počet pokusů (tj. Domů), které tento test vyžaduje, je proto k + 5 = n. Náhodná proměnná, která nás zajímá, je počet domů, takže dosadíme k = n - 5 do hromadné funkce NegBin (5, 0,4) a získejte následující hromadnou funkci distribuce domů (pro n ≥ 5):
Jaká je pravděpodobnost, že Pat skončí v desátém domě?
Jaká je pravděpodobnost, že Pat skončí nebo před dosažením osmého domu?
Aby mohl skončit v osmém domě nebo před ním, musí Pat skončit v pátém, šestém, sedmém nebo osmém domě. Součet těchto pravděpodobností:
Jaká je pravděpodobnost, že Pat vyčerpá všech 30 domů v sousedství?
To lze vyjádřit jako pravděpodobnost, že Pat ne skončit na pátém přes třicátý dům:
Vzhledem k poměrně vysoké pravděpodobnosti, že Pat prodá každému domu (60 procent), je pravděpodobnost, že NE splní svůj úkol, mizivě nízká.
Délka pobytu v nemocnici
Nemocnice délka pobytu je příklad skutečných dat, která lze dobře modelovat se zápornou binomickou distribucí.[18]
Vlastnosti
Očekávání
Očekávaný celkový počet úspěchů v záporné binomické distribuci s parametry (r, str) je rp/(1 − str). Chcete-li to vidět, představte si, že se mnohokrát provede experiment simulující záporný dvojčlen. To znamená, že sada zkoušek se provádí do r jsou získána selhání, pak další sada pokusů a pak další atd. Zapište si počet pokusů provedených v každém experimentu: A, b, C, … a nastavit A + b + C + … = N. Nyní bychom očekávali asi Np úspěchy celkem. Řekněme, že byl experiment proveden n krát. Pak existují č selhání celkem. Čekali bychom tedy č = N(1 − str), tak N/n = r/(1 − str). Vidíš to N/n je pouze průměrný počet pokusů na experiment. To myslíme pod pojmem „očekávání“. Průměrný počet úspěchů na experiment je N/n − r = r/(1 − str) − r = rp/(1 − str). To souhlasí s průměrem uvedeným v rámečku na pravé straně této stránky.
Rozptyl
Při počítání počtu úspěchů daný počet r selhání je rozptylrp/(1 − str)2Při počítání počtu poruch před r-tý úspěch, varianta jer(1 − str)/str2.
Vztah k binomické větě
Předpokládat Y je náhodná proměnná s a binomická distribuce s parametry n a str. Převzít str + q = 1, s str, q ≥ 0, tedy
Použitím Newtonova binomická věta, toto lze stejně zapsat jako:
ve kterém je horní hranice součtu nekonečná. V tomto případě binomický koeficient
je definováno, když n je reálné číslo, nikoli pouze kladné celé číslo. Ale v našem případě binomického rozdělení je nulové, když k > n. Můžeme pak například říci
Nyní předpokládejme r > 0 a použijeme záporný exponent:
Pak jsou všechny termíny kladné a termín
je jen pravděpodobnost, že počet poruch před rten úspěch se rovná k, za předpokladu r je celé číslo. (Li r je záporné nečíselné číslo, takže exponent je kladné nečíselné číslo, pak jsou některé členy ve výše uvedeném součtu záporné, takže nemáme rozdělení pravděpodobnosti na množině všech nezáporných celých čísel.)
Nyní také povolujeme neceločíselné hodnoty r. Pak máme správné záporné binomické rozdělení, což je zobecnění Pascalovy distribuce, které se shoduje s Pascalovým rozdělením, když r je kladné celé číslo.
Připomeňme si to výše
- Součet nezávislých záporně-binomicky distribuovaných náhodných proměnných r1 a r2 se stejnou hodnotou parametru str je záporně-binomicky distribuován se stejným str ale s r-hodnotar1 + r2.
Tato vlastnost přetrvává, když je definice takto zobecněna, a poskytuje rychlý způsob, jak zjistit, že záporné binomické rozdělení je nekonečně dělitelný.
Vztah opakování
Následující relace opakování drží:
Související distribuce
- The geometrické rozdělení (na {0, 1, 2, 3, ...}) je speciální případ záporného binomického rozdělení s
- Negativní binomické rozdělení je zvláštním případem diskrétní fázová distribuce.
- Negativní binomické rozdělení je zvláštním případem diskrétního Složené Poissonovo rozdělení.
Poissonovo rozdělení
Zvažte posloupnost záporných binomických náhodných proměnných, kde je parametr zastavení r jde do nekonečna, zatímco pravděpodobnost úspěchu v každém pokusu, str, jde na nulu takovým způsobem, aby byl průměr distribuce konstantní. Označujeme to jako λ, parametr str bude str = λ/(r + λ)
Při této parametrizaci bude funkce pravděpodobnostní hmotnosti
Pokud vezmeme v úvahu limit jako r → ∞, druhý faktor bude konvergovat k jednomu a třetí k exponentové funkci:
což je hromadná funkce a Poissonovo distribuováno náhodná proměnná s očekávanou hodnotouλ.
Jinými slovy, alternativně parametrizované negativní binomické rozdělení konverguje k Poissonově rozdělení a r řídí odchylku od Poissona. Díky tomu je záporné binomické rozdělení vhodné jako robustní alternativa k Poissonu, který se blíží Poissonu pro velké r, ale který má větší rozptyl než Poisson pro malé r.
Směs gama – Poisson
Negativní binomické rozdělení také vzniká jako spojitá směs Poissonovo rozdělení (tj složené rozdělení pravděpodobnosti ) kde směšovací distribuce Poissonovy rychlosti je a gama distribuce. To znamená, že můžeme na negativní binomii pohlížet jako na Jed(λ) distribuce, kde λ je sama náhodná proměnná, distribuovaná jako gama distribuce s tvarem = r a měřítko θ = str/(1 − str) nebo odpovídajícím způsobem β = (1 − str)/str.
Chcete-li zobrazit intuici za tímto tvrzením, zvažte dva nezávislé Poissonovy procesy, „Success“ a „Failure“, s intenzitami str a 1 -str. Společně jsou procesy Úspěch a Neúspěch ekvivalentní jedinému Poissonovu procesu s intenzitou 1, kde je výskyt procesu úspěšný, pokud se objeví odpovídající nezávislý hod mincí s pravděpodobností str; jinak se jedná o selhání. Li r je počítané číslo, hody mincí ukazují, že počet úspěchů před rporucha následuje po záporném binomickém rozdělení s parametry r a str. Počet je však také počtem procesu úspěšného Poissona v náhodném čase T z rth výskyt v procesu selhání Poisson. Počet úspěchů sleduje Poissonovo rozdělení se střední hodnotou pT, kde T je čekací doba na r výskyty v Poissonově procesu intenzity 1 -str, tj., T je gama distribuován s parametrem tvaru r a intenzita 1 -str. Negativní binomické rozdělení je tedy ekvivalentní Poissonově rozdělení se střední hodnotou pT, kde se náhodně mění T je gama distribuován s parametrem tvaru r a intenzita (1 − str)/str. Následuje předchozí odstavec, protože λ = pT je gama distribuován s parametrem tvaru r a intenzita (1 − str)/str.
Následující formální odvození (na kterém nezávisí r je počítající číslo) potvrzuje intuici.
Z tohoto důvodu je negativní binomické rozdělení známé také jako rozdělení gama – Poisson (směs). Negativní binomické rozdělení bylo původně odvozeno jako limitující případ rozdělení gama-Poisson.[19]
Rozdělení součtu geometricky rozložených náhodných proměnných
Li Yr je náhodná proměnná sledující záporné binomické rozdělení s parametry r a stra poté podporovat {0, 1, 2, ...} Yr je součet r nezávislý proměnné následující za geometrické rozdělení (na {0, 1, 2, ...}) s parametrem str. V důsledku teorém centrálního limitu, Yr (správně zmenšen a posunut) je tedy přibližně normální pro dostatečně velkér.
Kromě toho, pokud Bs+r je náhodná proměnná následující za binomická distribuce s parametry s + r a 1 -str, pak
V tomto smyslu je negativní binomické rozdělení „inverzní“ k binomickému rozdělení.
Součet nezávislých záporně-binomicky distribuovaných náhodných proměnných r1 a r2 se stejnou hodnotou parametru str je záporně-binomicky distribuován se stejným str ale s r-hodnotar1 + r2.
Negativní binomické rozdělení je nekonečně dělitelný, tj. pokud Y má záporné binomické rozdělení, pak pro jakékoli kladné celé číslo nexistují nezávislé identicky distribuované náhodné proměnné Y1, ..., Yn jehož součet má stejné rozdělení jako Y má.
Reprezentace jako složená Poissonova distribuce
Negativní binomické rozdělení NB (r,str) lze reprezentovat jako a složené Poissonovo rozdělení: Nechte {Yn, n ∈ ℕ0} označují posloupnost nezávislé a identicky distribuované náhodné proměnné, z nichž každý má logaritmická distribuce Protokol (str), s funkcí pravděpodobnostní hmotnosti
Nechat N být náhodná proměnná, nezávislý sekvence, a předpokládejme, že N má Poissonovo rozdělení s průměrem λ = -r ln (1 - str). Pak náhodný součet
je NB (r,str) - distribuováno. Abychom to dokázali, vypočítáme funkce generující pravděpodobnost GX z X, což je složení funkcí generujících pravděpodobnost GN a GY1. Použitím
a
získáváme
což je funkce generující pravděpodobnost NB (r,str) rozdělení.
Následující tabulka popisuje čtyři distribuce související s počtem úspěchů v pořadí losování:
S náhradami | Žádné náhrady | |
---|---|---|
Vzhledem k počtu remíz | binomická distribuce | hypergeometrická distribuce |
Vzhledem k počtu poruch | negativní binomické rozdělení | negativní hypergeometrická distribuce |
(a, b, 0) třída distribucí
Negativní binomický člen, spolu s Poissonovým a binomickým rozdělením, je členem (a, b, 0) třída distribucí. Všechny tři tyto distribuce jsou speciální případy Distribuce Panjer. Jsou také členy Přirozená exponenciální rodina.
Statistická inference
Odhad parametrů
MVUE pro str
Předpokládat str není známo a je proveden experiment, kde je předem rozhodnuto, že vzorkování bude pokračovat až do r úspěchy se nacházejí. A dostatečná statistika pro experiment je k, počet poruch.
Při odhadu str, objektivní odhad minimální odchylky je
Odhad maximální pravděpodobnosti
The maximální pravděpodobnost odhad str je
ale toto je zkreslený odhad. Jeho inverzní (r + k)/r, je nestranný odhad 1 /str, nicméně.[20]
Odhad maximální pravděpodobnosti existuje pouze u vzorků, u kterých je rozptyl vzorku větší než průměr vzorku.[21] Funkce pravděpodobnosti pro N iid pozorování (k1, ..., kN) je
ze kterého vypočítáme funkci logaritmické pravděpodobnosti
Abychom našli maximum, vezmeme částečné derivace s ohledem na r a str a nastavte je rovné nule:
- a
kde
- je funkce digamma.
Řešení první rovnice pro str dává:
Dosazením do druhé rovnice získáme:
Tuto rovnici nelze vyřešit r v uzavřená forma. Pokud je požadováno numerické řešení, iterační technika, jako je Newtonova metoda může být použito. Případně algoritmus očekávání – maximalizace může být použito.[21]
Výskyt a aplikace
Čekací doba v Bernoulliho procesu
Pro zvláštní případ, kdy r je celé číslo, negativní binomické rozdělení je známé jako Pascal distribuce. Jedná se o rozdělení pravděpodobnosti určitého počtu neúspěchů a úspěchů v řadě nezávislé a identicky distribuované Bernoulliho zkoušky. Pro k + r Bernoulliho zkoušky s pravděpodobností úspěchu str, záporný dvojčlen dává pravděpodobnost k úspěchy a r selhání, s poruchou v posledním pokusu. Jinými slovy, záporné binomické rozdělení je rozdělení pravděpodobnosti počtu úspěchů před rth selhání v a Bernoulliho proces, s pravděpodobností str úspěchů v každé studii. Bernoulliho proces je oddělený časový proces, takže počet pokusů, neúspěchů a úspěchů je celá čísla.
Zvažte následující příklad. Předpokládejme, že opakovaně hodíme kostkou a považujeme 1 za „selhání“. Pravděpodobnost úspěchu v každém pokusu je 5/6. Počet úspěchů před třetím neúspěchem patří do nekonečné množiny {0, 1, 2, 3, ...}. Tento počet úspěchů je záporně binomicky distribuovaná náhodná proměnná.
Když r = 1 dostaneme rozdělení pravděpodobnosti počtu úspěchů před prvním neúspěchem (tj. Pravděpodobnost prvního selhání, ke kterému dojde na (k + 1) první pokus), což je a geometrické rozdělení:
Nadměrně rozptýlený Poisson
Negativní binomické rozdělení, zejména ve výše popsané alternativní parametrizaci, lze použít jako alternativu k Poissonově rozdělení. To je zvláště užitečné pro diskrétní data přes neomezený pozitivní rozsah, jehož vzorek rozptyl přesahuje vzorek znamenat. V takových případech jsou pozorování přehnaně rozptýleny s ohledem na Poissonovo rozdělení, pro které je průměr roven rozptylu. Poissonovo rozdělení tedy není vhodný model. Protože záporné binomické rozdělení má ještě jeden parametr než Poisson, lze druhý parametr použít k úpravě rozptylu nezávisle na průměru. Vidět Kumulanty některých diskrétních rozdělení pravděpodobnosti.
Toto se uplatňuje na roční počty EUR tropické cyklóny v Severní Atlantik nebo na měsíční až šestiměsíční počty zimního času extratropické cyklóny nad Evropou, u nichž je rozptyl větší než průměr.[22][23][24] V případě mírného nadměrného rozptylu to může přinést v podstatě podobné výsledky jako nadměrně rozptýlené Poissonovo rozdělení.[25][26]
Negativní binomická distribuce se také běžně používá k modelování dat ve formě diskrétních počtů přečtených sekvencí z vysoce výkonných experimentů sekvenování RNA a DNA.[27][28][29]
Dějiny
Tato distribuce byla poprvé studována v roce 1713 Montmortem jako distribuce počtu pokusů požadovaných v experimentu k získání daného počtu úspěchů.[30] To již dříve zmínil Pascal.[31]
Viz také
- Problém sběratelů kupónů
- Beta negativní binomická distribuce
- Rozšířená záporná binomická distribuce
- Negativní multinomiální distribuce
- Binomická distribuce
- Poissonovo rozdělení
- Exponenciální rodina
- Vektorový zobecněný lineární model
- Složené Poissonovo rozdělení
Reference
- ^ DeGroot, Morris H. (1986). Pravděpodobnost a statistika (Druhé vydání.). Addison-Wesley. str. 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205.
- ^ Weisstein, Eric. „Negativní binomické rozdělení“. Wolfram MathWorld. Wolfram Research. Citováno 11. října 2020.
- ^ např .: J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp a W.M. Getz (2005), Šíření a účinek individuálních variací na vznik nemoci, Příroda, 438, 355–359. doi:10.1038 / nature04153
Parametr overdisperze je obvykle označen písmenem spíše v epidemiologii než jako tady. - ^ Casella, George; Berger, Roger L. (2002). Statistická inference (2. vyd.). Thomson učení. p.95. ISBN 0-534-24312-6.
- ^ Morris K W (1963), Poznámka k přímému a inverznímu odběru vzorků, Biometrika, 50, 544--545.
- ^ „Mathworks: Negative Binomial Distribution“.
- ^ A b Cook, John D. „Poznámky k negativní binomické distribuci“ (PDF).
- ^ Saha, Abhishek. „Úvod do pravděpodobnosti / Základy pravděpodobnosti: Přednáška 14“ (PDF).
- ^ W., Weisstein, Eric. „Negativní binomické rozdělení“. mathworld.wolfram.com.
- ^ Institut SAS, "Negativní binomické rozdělení ", Funkce SAS (R) 9.4 a rutiny CALL: Reference, čtvrté vydání, SAS Institute, Cary, NC, 2016.
- ^ A b Crawley, Michael J. (2012). Kniha R. Wiley. ISBN 978-1-118-44896-0.
- ^ A b „Teorie množin: Sekce 3.2.5 - Negativní binomické rozdělení“ (PDF).
- ^ „Randomservices.org, kapitola 10: Bernoulliho procesy, část 4: negativní binomické rozdělení“.
- ^ „Stat Trek: Negative Binomial Distribution“.
- ^ Wroughton, Jacqueline. „Rozlišování mezi binomickým, hypergeometrickým a negativním binomickým rozdělením“ (PDF).
- ^ A b Hilbe, Joseph M. (2011). Negativní binomická regrese (Druhé vydání.). Cambridge, Velká Británie: Cambridge University Press. ISBN 978-0-521-19815-8.
- ^ Lloyd-Smith, J. O. (2007). „Odhad maximální věrohodnosti parametru záporného binomického rozptylu pro vysoce nadměrně rozptýlená data s aplikacemi na infekční choroby“. PLOS ONE. 2 (2): e180. Bibcode:2007PLoSO ... 2..180L. doi:10.1371 / journal.pone.0000180. PMC 1791715. PMID 17299582.
- ^ Carter, E.M., Potts, H.W.W. (4. dubna 2014). „Predikce délky pobytu z elektronického systému záznamu pacienta: primární příklad totální náhrady kolene“. BMC Lékařská informatika a rozhodování. 14: 26. doi:10.1186/1472-6947-14-26. PMC 3992140. PMID 24708853.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Greenwood, M .; Yule, G. U. (1920). „Zkoumání povahy rozdělení kmitočtů představujících více událostí se zvláštním zřetelem na vícenásobné ataky nemoci nebo opakované nehody“. J R Stat Soc. 83 (2): 255–279. doi:10.2307/2341080. JSTOR 2341080.
- ^ Haldane, J. B. S. (1945). "O metodě odhadu frekvencí". Biometrika. 33 (3): 222–225. doi:10.1093 / biomet / 33.3.222. hdl:10338.dmlcz / 102575. JSTOR 2332299. PMID 21006837.
- ^ A b Aramidis, K. (1999). Msgstr "Algoritmus EM pro odhad negativních binomických parametrů". Australský a novozélandský věstník statistik. 41 (2): 213–221. doi:10.1111 / 1467-842X.00075.
- ^ Villarini, G .; Vecchi, GA; Smith, J.A. (2010). „Modelování závislosti počtu tropických bouří v severoatlantické pánvi na klimatických indexech“. Měsíční přehled počasí. 138 (7): 2681–2705. Bibcode:2010MWRv..138,2681 V. doi:10.1175 / 2010MWR3315.1.
- ^ Mailier, P.J .; Stephenson, D.B .; Ferro, C.A.T .; Hodges, K.I. (2006). "Sériové shlukování extratropických cyklonů". Měsíční přehled počasí. 134 (8): 2224–2240. Bibcode:2006MWRv..134,2224M. doi:10,1175 / MWR3160.1.
- ^ Vitolo, R .; Stephenson, D.B .; Cook, Ian M .; Mitchell-Wallace, K. (2009). „Sériové seskupení intenzivních evropských bouří“. Meteorologische Zeitschrift. 18 (4): 411–424. Bibcode:2009MetZe..18..411V. doi:10.1127/0941-2948/2009/0393. S2CID 67845213.
- ^ McCullagh, Peter; Nelder, Johne (1989). Zobecněné lineární modely (Druhé vydání.). Boca Raton: Chapman and Hall / CRC. ISBN 978-0-412-31760-6.
- ^ Cameron, Adrian C .; Trivedi, Pravin K. (1998). Regresní analýza dat o počtu. Cambridge University Press. ISBN 978-0-521-63567-7.
- ^ Robinson, M.D .; Smyth, G.K. (2007). „Moderované statistické testy pro hodnocení rozdílů v četnosti značek“. Bioinformatika. 23 (21): 2881–2887. doi:10.1093 / bioinformatika / btm453. PMID 17881408.
- ^ Láska, Michael; Anders, Simon (14. října 2014). "Diferenciální analýza dat o počtu - balíček DESeq2" (PDF). Citováno 14. října 2014.
- ^ Chen, Yunshun; Davis, McCarthy (25. září 2014). "edgeR: diferenciální analýza exprese dat digitální exprese genů" (PDF). Citováno 14. října 2014.
- ^ Montmort PR de (1713) Essai d'analyse sur les jeux de hasard. 2nd vyd. Quillau, Paříž
- ^ Pascal B (1679) Varia Opera Mathematica. D. Petri de Fermat. Tolosae