v statistika, seskupená Dirichletova distribuce (GDD) je vícerozměrné zobecnění Dirichletova distribuce Poprvé to popsali Ng a kol. 2008.[1] Skupinová Dirichletova distribuce vzniká při analýze kategorických dat, kde některá pozorování mohou spadat do kterékoli ze sady jiných „ostrých“ kategorií. Například jeden může mít soubor dat skládající se z případů a kontrol za dvou různých podmínek. S úplnými údaji tvoří křížová klasifikace stavu onemocnění tabulku 2 (případ / kontrola) -x- (stav / žádný stav) s pravděpodobností buněk
| Léčba | Bez léčby |
Řízení | θ1 | θ2 |
Případy | θ3 | θ4 |
Pokud však údaje zahrnují, řekněme, neodpovídající, o nichž je známo, že jde o kontroly nebo případy, pak křížová klasifikace stavu onemocnění tvoří tabulku 2 x 3. Pravděpodobnost posledního sloupce je součtem pravděpodobností prvních dvou sloupců v každém řádku, např.
| Léčba | Bez léčby | Chybějící |
Řízení | θ1 | θ2 | θ1+ θ2 |
Případy | θ3 | θ4 | θ3+ θ4 |
GDD umožňuje úplný odhad pravděpodobností buněk za takových agregačních podmínek.[1]
Rozdělení pravděpodobnosti
Zvažte uzavřenou simplexní sadu
a
. Psaní
pro prvního
prvky člena
, distribuce
pro dva oddíly má funkci hustoty danou

kde
je funkce více proměnných beta.
Ng a kol[1] pokračoval definovat m rozdělení seskupené Dirichletovy skupiny s hustotou
dána

kde
je vektor celých čísel s
. Normalizační konstanta daná

Autoři dále používali tyto distribuce v kontextu tří různých aplikací v lékařské vědě.
Reference
- ^ A b C Ng, Kai Wang (2008). "Skupinová Dirichletova distribuce: Nový nástroj pro neúplnou kategorickou analýzu dat". Journal of Multivariate Analysis. 99: 490–509.