Dirichletův proces - Dirichlet process

Čerpá z Dirichletova procesu

{displaystyle operatorname {DP} (N (0,1), alpha)}

. Čtyři řádky používají různé alfa

{displaystyle alpha}

(shora dolů: 1, 10, 100 a 1000) a každý řádek obsahuje tři opakování stejného experimentu. Jak je patrné z grafů, čerpání z Dirichletova procesu jsou diskrétní distribuce a stávají se méně koncentrovanými (více rozprostřenými) s rostoucí

{displaystyle alpha}

. Grafy byly generovány pomocí proces lámání hůlky pohled na Dirichletův proces.

v teorie pravděpodobnosti, Dirichletovy procesy (po Peter Gustav Lejeune Dirichlet ) jsou rodinou stochastické procesy jehož realizace jsou rozdělení pravděpodobnosti. Jinými slovy, Dirichletův proces je rozdělení pravděpodobnosti, jehož rozsah je sám o sobě množinou rozdělení pravděpodobnosti. Často se používá v Bayesovský závěr popsat předchozí znalosti o distribuci náhodné proměnné —Jako je pravděpodobné, že náhodné proměnné jsou distribuovány podle toho či onoho konkrétního rozdělení.

Dirichletův proces je určen základní distribucí ${displaystyle H}$ a pozitivní reálné číslo ${displaystyle alpha}$ nazývá se parametr koncentrace (také známý jako parametr měřítka). Základní distribuce je očekávaná hodnota procesu, tj. Dirichletův proces kreslí distribuce „kolem“ základního rozdělení způsobem a normální distribuce kreslí reálná čísla kolem své střední hodnoty. I když je ale základní distribuce kontinuální, jsou distribuce čerpané z Dirichletova procesu téměř jistě oddělený. Parametr měřítka určuje, jak silná je tato diskretizace: v limitu ${displaystyle alpha ightarrow 0}$ , jsou všechny realizace soustředěny na jedinou hodnotu, zatímco jsou na hranici ${displaystyle alpha ightarrow infty}$ realizace se stávají kontinuálními. Mezi dvěma extrémy jsou realizace diskrétní distribuce se stále menší koncentrací ${displaystyle alpha}$ zvyšuje.

Na Dirichletův proces lze také pohlížet jako na nekonečně dimenzionální zobecnění Dirichletova distribuce. Stejným způsobem jako Dirichletova distribuce je před konjugátem pro kategorické rozdělení, Dirichletův proces je konjugát před nekonečným, neparametrické diskrétní distribuce. Obzvláště důležité použití Dirichletových procesů je jako předchozí pravděpodobnost distribuce v modely nekonečné směsi.

Dirichletův proces formálně představil Thomas Ferguson v roce 1973^[1]a od té doby byl použit v dolování dat a strojové učení, mimo jiné pro zpracování přirozeného jazyka, počítačové vidění a bioinformatika.

Úvod

Dirichletovy procesy se obvykle používají při modelování dat, která mají tendenci opakovat předchozí hodnoty takzvaným způsobem „rich rich richer“. Konkrétně předpokládejme, že generování hodnot ${displaystyle X_ {1}, X_ {2}, tečky}$ lze simulovat následujícím algoritmem.

Vstup:

{displaystyle H}

(rozdělení pravděpodobnosti zvané základní rozdělení),

{displaystyle alpha}

(volalo kladné reálné číslo parametr měřítka )

Pro

{displaystyle ngeq 1}

:

a) S pravděpodobností ${displaystyle {frac {alpha} {alpha + n-1}}}$ kreslit ${displaystyle X_ {n}}$ z ${displaystyle H}$ .

b) S pravděpodobností ${displaystyle {frac {n_ {x}} {alpha + n-1}}}$ soubor ${displaystyle X_ {n} = x}$ , kde ${displaystyle n_ {x}}$ je počet předchozích pozorování ${displaystyle x}$ .
(Formálně, ${displaystyle n_ {x}: = | {j: X_ {j} = x {ext {and}} j$ kde ${displaystyle | cdot |}$ označuje počet prvků v sadě.)

Ve stejné době, další společný model pro data je, že pozorování ${displaystyle X_ {1}, X_ {2}, tečky}$ se předpokládá, že jsou nezávislé a identicky distribuované (i.i.d.) podle nějaké (náhodné) distribuce ${displaystyle P}$ . Cílem zavedení Dirichletových procesů je být schopen popsat postup popsaný výše v tomto i.i.d. Modelka.

The ${displaystyle X_ {1}, X_ {2}, tečky}$ pozorování v algoritmu nejsou nezávislý, protože při generování další hodnoty musíme vzít v úvahu předchozí výsledky. Jsou to však vyměnitelné. Tuto skutečnost lze prokázat výpočtem společné rozdělení pravděpodobnosti pozorování a všimněte si, že výsledný vzorec závisí pouze na tom ${displaystyle x}$ hodnoty se vyskytují mezi pozorováními a kolik opakování mají. Kvůli této zaměnitelnosti de Finettiho věta o reprezentaci platí a znamená to, že pozorování ${displaystyle X_ {1}, X_ {2}, tečky}$ jsou podmíněně nezávislý vzhledem k (latentní) distribuci ${displaystyle P}$ . Tento ${displaystyle P}$ je náhodná proměnná sama o sobě a má distribuci. Tato distribuce (přes distribuce) se nazývá Dirichletův proces ( ${displaystyle operatorname {DP}}$ ). V souhrnu to znamená, že dostaneme ekvivalentní postup k výše uvedenému algoritmu:

Nakreslete distribuci ${displaystyle P}$ z ${displaystyle operatorname {DP} vlevo (H, alfa ight)}$
Kreslete pozorování ${displaystyle X_ {1}, X_ {2}, tečky}$ nezávisle na ${displaystyle P}$ .

V praxi se však kreslí konkrétní rozdělení ${displaystyle P}$ je nemožné, protože jeho specifikace vyžaduje nekonečné množství informací. Toto je v kontextu Bayesianů běžný jev neparametrické statistiky kde typickým úkolem je naučit se distribuce ve funkčních prostorech, které zahrnují efektivně nekonečně mnoho parametrů. Klíčovým poznatkem je, že v mnoha aplikacích se nekonečně dimenzionální distribuce objevují pouze jako zprostředkující výpočetní zařízení a nejsou vyžadovány ani pro počáteční specifikaci dřívějších přesvědčení, ani pro vyjádření konečné závěry.

Formální definice

Vzhledem k tomu, měřitelná množina S, základní rozdělení pravděpodobnosti H a pozitivní reálné číslo ${displaystyle alpha}$ , Dirichletův proces ${displaystyle operatorname {DP} (H, alpha)}$ je stochastický proces jehož ukázková cesta (nebo realizace, tj. nekonečná posloupnost náhodné variace čerpané z procesu) je rozdělení pravděpodobnosti S, takže platí následující. Pro jakoukoli měřitelnou konečnou rozdělit z S, označeno ${displaystyle {B_ {i}} _ {i = 1} ^ {n}}$ ,

{displaystyle {ext {if}} Xsim operatorname {DP} (H, alfa)}

{displaystyle {ext {then}} (X (B_ {1}), tečky, X (B_ {n})) sim operatorname {Dir} (alfa H (B_ {1}), tečky, alfa H (B_ {n })),}

kde ${displaystyle operatorname {adresář}}$ označuje Dirichletova distribuce a zápis ${displaystyle Xsim D}$ znamená, že náhodná proměnná ${displaystyle X}$ má distribuci ${displaystyle D}$ .

Alternativní pohledy

Existuje několik ekvivalentních pohledů na Dirichletův proces. Kromě výše uvedené formální definice lze Dirichletův proces definovat implicitně prostřednictvím de Finettiho věty, jak je popsáno v první části; tomu se často říká Proces čínské restaurace. Třetí alternativou je proces lámání hůlky, který definuje Dirichletův proces konstruktivně zápisem distribuce vzorkované z procesu jako ${displaystyle f (x) = součet _ {k = 1} ^ {infty} eta _ {k} delta _ {x_ {k}} (x)}$ , kde ${displaystyle {x_ {k}} _ {k = 1} ^ {infty}}$ jsou vzorky ze základní distribuce ${displaystyle H}$ , ${displaystyle delta _ {x_ {k}}}$ je funkce indikátoru soustředěný na ${displaystyle x_ {k}}$ (nula všude kromě ${displaystyle delta _ {x_ {k}} (x_ {k}) = 1}$ ) a ${displaystyle eta _ {k}}$ jsou definovány rekurzivním schématem, které opakovaně vzorkuje z beta distribuce ${displaystyle operatorname {Beta} (1, alpha)}$ .

Proces čínské restaurace

Animace procesu čínské restaurace s parametrem měřítka

{displaystyle alpha = 0,5}

. Tabulky se skryjí, jakmile již zákazníci tabulky nebudou moci být zobrazeni; každý stůl má však nekonečně mnoho míst. (Záznam interaktivní animace.^[2])

Široce používaná metafora pro Dirichletův proces je založena na tzv Proces čínské restaurace. Metafora je následující:

Představte si čínskou restauraci, do které zákazníci vstupují. Nový zákazník si sedne ke stolu s pravděpodobností úměrnou počtu zákazníků, kteří tam již sedí. Zákazník navíc otevře novou tabulku s pravděpodobností úměrnou parametru škálování ${displaystyle alpha}$ . Poté, co vstoupí nekonečně mnoho zákazníků, získá se rozdělení pravděpodobnosti na nekonečně mnoho zvolených tabulek. Toto rozdělení pravděpodobnosti přes tabulky je náhodný vzorek pravděpodobností pozorování získaných z Dirichletova procesu s parametrem měřítka ${displaystyle alpha}$ .

Pokud jeden přidruží čerpá ze základní míry ${displaystyle H}$ s každou tabulkou výsledná distribuce ve vzorovém prostoru ${displaystyle S}$ je náhodný vzorek procesu Dirichlet. Proces čínské restaurace souvisí s Schéma vzorkování urny Pólya který poskytuje vzorky z konečných Dirichletových distribucí.

Protože zákazníci sedí u stolu s pravděpodobností úměrnou počtu zákazníků, kteří již sedí u stolu, lze odvodit dvě vlastnosti DP:

Dirichletův proces vykazuje samonosnou vlastnost: Čím častěji byla daná hodnota vzorkována v minulosti, tím je pravděpodobnější, že bude vzorkována znovu.
I kdyby ${displaystyle H}$ je distribuce přes nespočetná sada, je nenulová pravděpodobnost, že dva vzorky budou mít přesně stejnou hodnotu, protože hmotnost pravděpodobnosti se soustředí na malý počet tabulek.

Proces lámání hůlky

Třetím přístupem k Dirichletovu procesu je takzvaný pohled na rozbití procesu. Pamatujte, že čerpání z Dirichletova procesu jsou distribuce přes množinu ${displaystyle S}$ . Jak již bylo zmíněno dříve, nakreslená distribuce je diskrétní s pravděpodobností 1. V pohledu procesu rozbíjení tyčinek explicitně používáme diskrétnost a dáváme funkce pravděpodobnostní hmotnosti této (náhodné) diskrétní distribuce jako:

{displaystyle f (heta) = součet _ {k = 1} ^ {infty} eta _ {k} cdot delta _ {heta _ {k}} (heta)}

kde ${displaystyle delta _ {heta _ {k}}}$ je funkce indikátoru který se hodnotí na nulu všude, kromě ${displaystyle delta _ {heta _ {k}} (heta _ {k}) = 1}$ . Protože toto rozdělení je náhodné samo o sobě, jeho hromadná funkce je parametrizována dvěma sadami náhodných proměnných: lokacemi ${displaystyle left {heta _ {k} ight} _ {k = 1} ^ {infty}}$ a odpovídající pravděpodobnosti ${displaystyle left {eta _ {k} ight} _ {k = 1} ^ {infty}}$ . V následujícím textu bez důkazu uvádíme, o jaké náhodné proměnné jde.

Místa ${displaystyle heta _ {k}}$ jsou nezávislé a identicky distribuovány podle ${displaystyle H}$ , základní distribuce Dirichletova procesu. Pravděpodobnosti ${displaystyle eta _ {k}}$ jsou dány postupem připomínajícím zlomení páčky jednotkové délky (odtud název):

{displaystyle eta _ {k} = eta '_ {k} cdot prod _ {i = 1} ^ {k-1} vlevo (1- eta' _ {i} ight)}

kde ${displaystyle eta '_ {k}}$ jsou nezávislé náhodné proměnné s beta distribuce ${displaystyle operatorname {Beta} (1, alpha)}$ . Podobnost s „rozbíjením hůlky“ lze vidět zvážením ${displaystyle eta _ {k}}$ jako délka kusu tyčinky. Začneme tyčovou jednotkou a v každém kroku odlomíme část zbývající tyčky podle ${displaystyle eta '_ {k}}$ a přiřadit tento odlomený kus ${displaystyle eta _ {k}}$ . Vzorec lze pochopit poznamenáním, že po prvním k - 1 hodnotám jsou přiřazeny jejich části, délka zbývající části páčky je ${displaystyle prod _ {i = 1} ^ {k-1} left (1- eta '_ {i} ight)}$ a tento kus je rozbit podle ${displaystyle eta '_ {k}}$ a bude přidělen ${displaystyle eta _ {k}}$ .

Menší ${displaystyle alpha}$ to znamená, že pro následující hodnoty (v průměru) zbude méně tyčinky, čímž se získá koncentrovanější distribuce.

Proces rozbíjení tyčinek je podobný konstrukci, ze které se postupně vzorkuje marginální beta distribuce za účelem vygenerování vzorku z a Dirichletova distribuce. Vidět ^[3] pro důkaz.

Schéma urny Pólya

Ještě další způsob, jak vizualizovat proces Dirichlet a proces čínské restaurace, je upravený Schéma urny Pólya někdy nazývaný Blackwell-MacQueen schéma vzorkování. Představte si, že začneme s urnou naplněnou ${displaystyle alpha}$ černé koule. Poté postupujeme následovně:

Pokaždé, když potřebujeme pozorování, nakreslíme z urny míč.
Pokud je míč černý, generujeme rovnoměrně novou (nečernou) barvu, označíme nový míč touto barvou, umístíme nový míč do urny spolu s míčem, který jsme nakreslili, a vrátíme barvu, kterou jsme vygenerovali.
Jinak označte novou kouli barvou koule, kterou jsme nakreslili, vložte novou kouli do urny spolu s koulí, kterou jsme nakreslili, a vraťte barvu, kterou jsme pozorovali.

Výsledná distribuce přes barvy je stejná jako distribuce přes tabulky v procesu čínské restaurace. Když navíc nakreslíme černou kouli, místo generování nové barvy místo toho vybereme náhodnou hodnotu ze základního rozdělení ${displaystyle H}$ a použijte tuto hodnotu k označení nové koule, výsledné rozdělení přes štítky bude stejné jako rozdělení přes hodnoty v Dirichletově procesu.

Použít jako předchozí distribuci

Dirichletův proces lze použít jako předchozí distribuci pro odhad rozdělení pravděpodobnosti, které generuje data. V této části uvažujeme o modelu

{displaystyle {egin {aligned} P & sim {extrm {DP}} (Malpha) X_ {1}, cdots, X_ {n} | P & {overset {extrm {iid}} {sim}} P.end {aligned}} }

Distribuce Dirichlet uspokojuje předchozí konjugace, zadní konzistence a Věta Bernstein – von Mises. ^[4]

Zadní konjugace

V tomto modelu je zadní distribuce opět Dirichletovým procesem. To znamená, že Dirichletův proces je a před konjugátem pro tento model. The zadní distribuce darováno

{displaystyle {egin {aligned} P | X_ {1}, cdots, X_ {n} sim {extrm {DP}} (alpha H + sum _ {i = 1} ^ {n} X_ {1}) end {aligned }}}

Zadní konzistence

Vezmeme-li častý z pohledu pravděpodobnosti věříme, že existuje skutečné rozdělení pravděpodobnosti ${displaystyle P_ {0}}$ který generoval data. Pak se ukázalo, že Dirichletův proces je konzistentní v slabá topologie, což znamená, že pro každé slabé sousedství ${displaystyle U}$ z ${displaystyle P_ {0}}$ , zadní pravděpodobnost ${displaystyle U}$ konverguje k ${displaystyle 1}$ .

Bernstein-Von Misesova věta

Za účelem interpretace důvěryhodných sad jako sad spolehlivosti a Věta Bernstein – von Mises je potřeba. V případě Dirichletova procesu porovnáváme zadní distribuci s empirický proces ${displaystyle mathbb {P} _ {n} = {frac {1} {n}} součet _ {i = 1} ^ {n} delta _ {X_ {i}}}$ . Předpokládat ${displaystyle {mathcal {F}}}$ je ${displaystyle P_ {0}}$ -Donskerova třída, tj.

{displaystyle {egin {aligned} {sqrt {(}} n) left (mathbb {P} _ {n} -P_ {0} ight) ightsquigarrow G_ {P_ {0}} konec {zarovnáno}}}

pro nějaký Brownův most ${displaystyle G_ {P_ {0}}}$ . Předpokládejme také, že existuje funkce ${displaystyle F}$ takhle ${displaystyle F (x) geq sup _ {fin {mathcal {F}}} f (x)}$ takhle ${displaystyle int F ^ {2} mathrm {d} H$ , pak, ${displaystyle P_ {0}}$ téměř jistě

{displaystyle {sqrt {n}} vlevo (P-mathbb {P} _ {n} ight) | X_ {1}, cdots, X_ {n} ightsquigarrow G_ {P_ {0}}.}

To znamená, že důvěryhodné množiny, které vytvoříte, jsou asymptotické sady spolehlivosti a Bayesiánská inference založená na Dirichletově procesu je asymptoticky také platná častá inference.

Použití v modelech směsí Dirichlet

Simulace 1000 pozorování získaných z modelu Dirichletovy směsi. Každé pozorování v klastru je kresleno nezávisle na vícerozměrné normální rozdělení

{displaystyle N (mu _ {k}, 1/4)}

. Klastr znamená

{displaystyle mu _ {k}}

jsou čerpány z distribuce G, která je sama čerpána z Dirichletova procesu s koncentračním parametrem

{displaystyle alpha = 0,5}

a základní distribuce

{displaystyle H = N (2,16)}

. Každý řádek představuje novou simulaci.

Abychom pochopili, jaké jsou Dirichletovy procesy a problém, který řeší, považujeme příklad shlukování dat. Je běžnou situací, že se předpokládá, že jsou datové body distribuovány hierarchicky, kdy každý datový bod patří do (náhodně vybraného) klastru a členové klastru jsou dále náhodně distribuováni v rámci tohoto klastru.

Příklad 1

Mohlo by nás například zajímat, jak budou lidé v nadcházejících volbách hlasovat o řadě otázek. Rozumným modelem pro tuto situaci může být klasifikace každého voliče jako liberála, konzervativce nebo umírněného a poté modelovat událost, kdy volič řekne „ano“ jakékoli konkrétní otázce, jako Bernoulliho náhodná proměnná s pravděpodobností závislou na tom, ke kterému politickému klastru patří. Při pohledu na to, jak se v předchozích letech hlasovalo o podobných právních předpisech, by bylo možné přizpůsobit prediktivní model pomocí jednoduchého klastrového algoritmu, jako je k-prostředky. Tento algoritmus však vyžaduje vědět předem počet klastrů, které generovaly data. V mnoha situacích to není možné určit předem, ai když můžeme rozumně předpokládat řadu klastrů, chtěli bychom tento předpoklad ještě ověřit. Například v příkladu hlasování výše nemusí být rozdělení na liberální, konzervativní a umírněné dostatečně vyladěno; atributy jako náboženství, třída nebo rasa mohou být také rozhodující pro modelování chování voličů, což má za následek více shluků v modelu.

Příklad 2

Jako další příklad by nás mohlo zajímat modelování rychlostí galaxií pomocí jednoduchého modelu za předpokladu, že rychlosti jsou seskupeny, například za předpokladu, že každá rychlost je rozdělena podle normální distribuce ${displaystyle v_ {i} sim N (mu _ {k}, sigma ^ {2})}$ , Kde ${displaystyle i}$ toto pozorování patří k ${displaystyle k}$ shluk galaxií se společnou očekávanou rychlostí. V tomto případě není zdaleka zřejmé, jak a priori určit, kolik klastrů (běžných rychlostí) by mělo být a jakýkoli model by byl velmi podezřelý a měl by být porovnán s údaji. Použitím Dirichletova procesu před distribucí prostředků klastru obcházíme potřebu výslovně předem určit, kolik klastrů existuje, ačkoli parametr koncentrace to stále implicitně řídí.

Zvažujeme tento příklad podrobněji. Prvním naivním modelem je předpokládat, že existují ${displaystyle K}$ shluky normálně distribuovaných rychlostí s běžně známými pevnými rozptyl ${displaystyle sigma ^ {2}}$ . Označující událost, kterou ${displaystyle i}$ toto pozorování je v ${displaystyle k}$ th cluster jako ${displaystyle z_ {i} = k}$ můžeme tento model napsat jako:

{displaystyle {egin {aligned} (v_ {i} mid z_ {i} = k, mu _ {k}) & sim N (mu _ {k}, sigma ^ {2}) operatorname {P} (z_ {i } = k) & = pi _ {k} ({oldsymbol {pi}} mid alpha) & sim operatorname {Dir} left ({frac {alpha} {K}} cdot mathbf {1} _ {K} ight) mu _ {k} & sim H (lambda) end {zarovnáno}}}

To znamená, předpokládáme, že data patří ${displaystyle K}$ odlišné shluky s prostředky ${displaystyle mu _ {k}}$ a to ${displaystyle pi _ {k}}$ je (neznámá) předchozí pravděpodobnost datového bodu patřícího k ${displaystyle k}$ th shluk. Předpokládáme, že nemáme žádné počáteční informace rozlišující klastry, které jsou zachyceny symetrickým předchozím ${displaystyle operatorname {Dir} left (alpha / Kcdot mathbf {1} _ {K} ight)}$ . Tady ${displaystyle operatorname {adresář}}$ označuje Dirichletova distribuce a ${displaystyle mathbf {1} _ {K}}$ označuje vektor délky ${displaystyle K}$ kde každý prvek je 1. Dále přiřadíme nezávislé a identické předchozí distribuce ${displaystyle H (lambda)}$ ke každému z klastrových prostředků, kde ${displaystyle H}$ může být libovolné parametrické rozdělení s parametry označenými jako ${displaystyle lambda}$ . Hyperparametry ${displaystyle alpha}$ a ${displaystyle lambda}$ jsou považovány za známé pevné konstanty, zvolené tak, aby odrážely naše předchozí přesvědčení o systému. Abychom pochopili souvislost s Dirichletovým procesem, přepíšeme tento model do ekvivalentní, ale podnětnější formy:

{displaystyle {egin {aligned} (v_ {i} mid {ilde {mu}} _ {i}) & sim N ({ilde {mu}} _ {i}, sigma ^ {2}) {ilde {mu} } _ {i} & sim G = součet _ {k = 1} ^ {K} pi _ {k} delta _ {mu _ {k}} ({ilde {mu}} _ {i}) ({oldsymbol { pi}} mid alpha) & sim operatorname {Dir} left ({frac {alpha} {K}} cdot mathbf {1} _ {K} ight) mu _ {k} & sim H (lambda) end {aligned}}}

Místo toho, abychom si představovali, že každému datovému bodu je nejprve přiřazen klastr a poté čerpán z distribuce přidružené k tomuto klastru, nyní myslíme na to, že každé pozorování je spojeno s parametrem ${displaystyle {ilde {mu}} _ {i}}$ čerpané z nějaké diskrétní distribuce ${displaystyle G}$ s podporou na ${displaystyle K}$ prostředek. To znamená, že nyní ošetřujeme ${displaystyle {ilde {mu}} _ {i}}$ jak jsou čerpány z náhodného rozdělení ${displaystyle G}$ a naše předchozí informace jsou začleněny do modelu distribucí přes distribuce ${displaystyle G}$ .

Přehrát média

Animace procesu shlukování pro jednorozměrná data pomocí Gaussových distribucí čerpaných z Dirichletova procesu. Histogramy klastrů jsou zobrazeny v různých barvách. Během procesu odhadu parametrů se vytvářejí a na datech rostou nové klastry. Legenda ukazuje barvy clusteru a počet datových bodů přiřazených každému clusteru.

Nyní bychom chtěli rozšířit tento model tak, aby fungoval bez předem určeného pevného počtu klastrů ${displaystyle K}$ . Matematicky to znamená, že bychom chtěli vybrat náhodné předchozí rozdělení ${displaystyle G ({ilde {mu}} _ {i}) = součet _ {k = 1} ^ {infty} pi _ {k} delta _ {mu _ {k}} ({ilde {mu}} _ { i})}$ kde hodnoty klastrů znamenají ${displaystyle mu _ {k}}$ jsou opět nezávisle distribuovány podle ${displaystyle Hleft (lambda ight)}$ a distribuce skončila ${displaystyle pi _ {k}}$ je symetrický nad nekonečnou sadou shluků. To je přesně to, čeho model dosahuje:

{displaystyle {egin {aligned} (v_ {i} mid {ilde {mu}} _ {i}) & sim N ({ilde {mu}} _ {i}, sigma ^ {2}) {ilde {mu} } _ {i} & sim G G & sim operatorname {DP} (H (lambda), alfa) konec {zarovnáno}}}

S tímto v ruce můžeme lépe porozumět výpočetním výhodám Dirichletova procesu. Předpokládejme, že jsme chtěli kreslit ${displaystyle n}$ pozorování z naivního modelu přesně ${displaystyle K}$ shluky. Jednoduchým algoritmem pro to by bylo kreslení ${displaystyle K}$ hodnoty ${displaystyle mu _ {k}}$ z ${displaystyle H (lambda)}$ , distribuce ${displaystyle pi}$ z ${displaystyle operatorname {Dir} left (alpha / Kcdot mathbf {1} _ {K} ight)}$ a poté pro každé pozorování nezávisle vzorek shluku ${displaystyle k}$ s pravděpodobností ${displaystyle pi _ {k}}$ a hodnota pozorování podle ${displaystyle Nleft (mu _ {k}, sigma ^ {2} ight)}$ . Je snadné vidět, že tento algoritmus nefunguje v případě, že povolíme nekonečné shluky, protože by to vyžadovalo vzorkování nekonečného rozměrného parametru ${displaystyle {oldsymbol {pi}}}$ . Stále je však možné odebrat vzorky pozorování ${displaystyle v_ {i}}$ . Lze např. použijte níže popsanou čínskou restauraci a vypočítejte pravděpodobnost pro použité klastry a nový klastr, který má být vytvořen. Tím se vyhnete nutnosti výslovně specifikovat ${displaystyle {oldsymbol {pi}}}$ . Jiná řešení jsou založena na zkrácení klastrů: Zavádí se (vysoká) horní hranice skutečného počtu klastrů a čísla klastrů vyšší než dolní hranice se považují za jeden klastr.

Montáž výše popsaného modelu na základě pozorovaných údajů ${displaystyle D}$ znamená najít zadní distribuce ${displaystyle pleft ({oldsymbol {pi}}, {oldsymbol {mu}} mid Dight)}$ nad pravděpodobnostmi klastru a jejich přidruženými prostředky. V nekonečném dimenzionálním případě je zjevně nemožné výslovně zapsat zadní. Je však možné odebrat vzorky z této zadní části pomocí upravené Gibbsův vzorkovač.^[5] Toto je kritická skutečnost, díky níž je Dirichletův proces užitečný dříve odvození.

Aplikace Dirichletova procesu

Dirichletovy procesy se často používají v Bayesian neparametrické statistiky. „Neparametrický“ zde neznamená model bez parametrů, spíše model, ve kterém reprezentace rostou, protože je pozorováno více dat. Bayesovské neparametrické modely si získaly značnou popularitu v oblasti strojové učení z důvodu výše zmíněné flexibility, zejména v neřízené učení. V bayesovském neparametrickém modelu nejsou předchozí a zadní distribuce parametrické distribuce, ale stochastické procesy.^[6] Skutečnost, že Dirichletovo rozdělení je rozdělení pravděpodobnosti na simplexní množin nezáporných čísel, která se sčítají k jednomu, je dobrým kandidátem na modelování distribucí přes distribuce nebo distribucí přes funkce. Neparametrická povaha tohoto modelu navíc z něj činí ideálního kandidáta na problémy s klastrováním, kde je předem neznámý počet klastrů. Kromě toho byl Dirichletův proces také použit k vývoji směsi expertních modelů v kontextu supervizovaných algoritmů učení (nastavení regrese nebo klasifikace). Například směsi Gaussianských expertů na procesy, kde z údajů musí být odvozen počet požadovaných expertů.^[7]^[8]

Protože čerpání z Dirichletova procesu jsou diskrétní, je důležité je použít jako předchozí pravděpodobnost v modely nekonečné směsi. V tomto případě, ${displaystyle S}$ je parametrická sada distribucí komponent. Generativní proces tedy spočívá v tom, že se vzorek čerpá z Dirichletova procesu, a pro každý datový bod se zase hodnota čerpá z této distribuce vzorku a použije se jako distribuce komponent pro daný datový bod. Skutečnost, že neexistuje žádné omezení počtu odlišných složek, které mohou být generovány, činí tento druh modelu vhodným pro případ, kdy počet složek směsi není předem dobře definován. Například nekonečná směs Gaussianova modelu,^[9] stejně jako související regresní modely směsi, např.^[10]

Nekonečná povaha těchto modelů je také propůjčuje zpracování přirozeného jazyka aplikace, kde je často žádoucí zacházet se slovní zásobou jako s nekonečnou, diskrétní sadou.

Dirichletův proces lze také použít pro neparametrické testování hypotéz, tj. K vývoji Bayesiánských neparametrických verzí klasických neparametrických testů hypotéz, např. podepsat test, Wilcoxonův test součtu, Wilcoxonův podepsaný test Například Bayesovské neparametrické verze Wilcoxonova testu součtu a Wilcoxonova testu se znaménkem byly vyvinuty pomocí nepřesný Dirichletův proces, předchozí Dirichletův proces neznalosti.^{[Citace je zapotřebí ]}

Související distribuce

The Pitman – Yorův proces je zevšeobecněním Dirichletova procesu, aby se přizpůsobily ocasům zákonů moci
The hierarchický Dirichletův proces rozšiřuje běžný Dirichletův proces pro modelování seskupených dat.

Reference

^ Ferguson, Thomas (1973). „Bayesiánská analýza některých neparametrických problémů“. Annals of Statistics. 1 (2): 209–230. doi:10.1214 / aos / 1176342360. PAN 0350949.
^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/crp.html?parameters=0.5&dp=1#
^ Paisley, John. Jednoduchý důkaz o lámání konstrukce Dirichletova procesu. Technická zpráva, Princetonská univerzita, Katedra informatiky, 2010.
^ Aad van der Vaart, Subhashis Ghosal (2017). Základy bayesovského neparametrického závěru. Cambridge University Press. ISBN 978-0-521-87826-5.
^ Sudderth, Erik (2006). Grafické modely pro vizuální rozpoznávání a sledování objektů (PDF) (Ph.D.). MIT Stiskněte.
^ Nils Lid Hjort Chris Holmes, Peter Müller a Stephen G. Walker (2010). Bayesiánská neparametrie. Cambridge University Press. ISBN 978-0-521-51346-3.CS1 maint: více jmen: seznam autorů (odkaz)
^ Sotirios P. Chatzis, „Latentní variabilní Gaussův procesní model s Pitman-Yorskými procesními prioritami pro klasifikaci více tříd,“ Neurocomputing, sv. 120, s. 482-489, listopad 2013. [1]
^ Sotirios P. Chatzis, Yiannis Demiris, „Neparametrické směsi Gaussových procesů s chováním podle zákona o moci,“ IEEE Transactions on Neural Networks and Learning Systems, sv. 23, č. 12, s. 1862-1871, prosinec 2012. [2]
^ Rasmussen, Carl (2000). „Nekonečný Gaussův model směsi“ (PDF). Pokroky v systémech zpracování neurálních informací. 12: 554–560.
^ Sotirios P. Chatzis, Dimitrios Korkinof a Yiannis Demiris, „Neparametrický bayesovský přístup k učení robotů pomocí demonstrace,“ Robotics and Autonomous Systems, sv. 60, č. 6, s. 789–802, červen 2012. [3]

externí odkazy

[1] Ferguson, Thomas (1973). „Bayesiánská analýza některých neparametrických problémů“. Annals of Statistics. 1 (2): 209–230. doi:10.1214 / aos / 1176342360. PAN 0350949.

[2] ttp://topicmodels.west.uni-koblenz.de/ckling/tmt/crp.html?parameters=0.5&dp=1#

[3] Paisley, John. Jednoduchý důkaz o lámání konstrukce Dirichletova procesu. Technická zpráva, Princetonská univerzita, Katedra informatiky, 2010.

[4] Aad van der Vaart, Subhashis Ghosal (2017). Základy bayesovského neparametrického závěru. Cambridge University Press. ISBN 978-0-521-87826-5.

[5] Sudderth, Erik (2006). Grafické modely pro vizuální rozpoznávání a sledování objektů (PDF) (Ph.D.). MIT Stiskněte.

[6] Nils Lid Hjort Chris Holmes, Peter Müller a Stephen G. Walker (2010). Bayesiánská neparametrie. Cambridge University Press. ISBN 978-0-521-51346-3.CS1 maint: více jmen: seznam autorů (odkaz)

[7] Sotirios P. Chatzis, „Latentní variabilní Gaussův procesní model s Pitman-Yorskými procesními prioritami pro klasifikaci více tříd,“ Neurocomputing, sv. 120, s. 482-489, listopad 2013. [1]

[8] Sotirios P. Chatzis, Yiannis Demiris, „Neparametrické směsi Gaussových procesů s chováním podle zákona o moci,“ IEEE Transactions on Neural Networks and Learning Systems, sv. 23, č. 12, s. 1862-1871, prosinec 2012. [2]

[9] Rasmussen, Carl (2000). „Nekonečný Gaussův model směsi“ (PDF). Pokroky v systémech zpracování neurálních informací. 12: 554–560.

[10] Sotirios P. Chatzis, Dimitrios Korkinof a Yiannis Demiris, „Neparametrický bayesovský přístup k učení robotů pomocí demonstrace,“ Robotics and Autonomous Systems, sv. 60, č. 6, s. 789–802, červen 2012. [3]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Stochastické procesy
Diskrétní čas	Bernoulliho proces Proces větvení Proces čínské restaurace Galton – Watsonův proces Nezávislé a identicky distribuované náhodné proměnné Markovův řetězec Moranský proces Náhodná procházka Smyčka vymazána Vyhýbání se sobě Předpojatý Maximální entropie
Nepřetržitý čas	Aditivní proces Besselův proces Proces narození - smrti čistý porod Brownův pohyb Most Výlet Frakční Geometrický Meandr Cauchyho proces Kontaktní proces Náhodná chůze v nepřetržitém čase Coxův proces Difúzní proces Empirický proces Fellerův proces Fleming – Viotův proces Proces gama Geometrický proces Proces lovu Interakční částicové systémy Je to difúze Proces Skoková difúze Proces skoku Lévyho proces Místní čas Markovův aditivní proces McKean – Vlasov proces Proces Ornstein – Uhlenbeck Poissonův proces Sloučenina Nehomogenní Evoluce Schramm – Loewner Semimartingale Sigma-martingale Stabilní proces Superproces Telegrafický proces Variační gama proces Wienerův proces Vídeňská klobása
Oba	Proces větvení Galves – Löcherbachův model Gaussův proces Skrytý Markovův model (HMM) Markov proces Martingale Rozdíly Místní Sub- Super- Náhodný dynamický systém Regenerativní proces Proces obnovy Stochastické řetězce s pamětí proměnné délky bílý šum
Pole a další	Dirichletův proces Gaussovo náhodné pole Gibbsova míra Hopfieldův model Isingův model Pottsův model Booleovská síť Markovovo náhodné pole Perkolace Pitman – Yorův proces Bodový proces Kormidelník jed Náhodné pole Náhodný graf
Modely časových řad	Autoregresní model podmíněné heteroskedasticity (ARCH) Autoregresní model integrovaného klouzavého průměru (ARIMA) Autoregresní (AR) model Autoregresní model s klouzavým průměrem (ARMA) Zobecněný model autoregresní podmíněné heteroskedasticity (GARCH) Model s klouzavým průměrem (MA)
Finanční modely	Black – Derman – Toy Černá - Karasinski Black – Scholes Chen Konstantní pružnost odchylky (CEV) Cox – Ingersoll – Ross (CIR) Garman – Kohlhagen Heath – Jarrow – Morton (HJM) Hestone Ho-Lee Trup – bílý LIBOR trh Rendleman – Bartter Volatilita SABR Vašíček Wilkie
Pojistně-matematické modely	Bühlmann Cramér – Lundberg Proces rizika Sparre – Anderson
Řazení modelů do fronty	Hromadně Tekutina Zobecněná síť front M / G / 1 M / M / 1 M / M / c
Vlastnosti	Càdlàg cesty Kontinuální Kontinuální cesty Ergodický Vyměnitelné Feller kontinuální Gauss – Markov Markov Míchání Po částech deterministický Předvídatelný Postupně měřitelné Self-podobné Stacionární Časově reverzibilní
Limitní věty	Teorém centrálního limitu Donskerova věta Doobovy martingale věty o konvergenci Ergodická věta Věta Fisher – Tippett – Gnedenko Princip velké odchylky Zákon velkých čísel (slabý / silný) Zákon iterovaného logaritmu Maximální ergodická věta Sanovova věta
Nerovnosti	Burkholder – Davis – Gundy Doobův martingale Kunita – Watanabe
Nástroje	Cameron – Martinův vzorec Konvergence náhodných proměnných Doléans-Dade exponenciální Věta o Doobově rozkladu Věta o rozkladu Doob – Meyer Doobova volitelná zastavovací věta Dynkinův vzorec Feynman – Kacův vzorec Filtrace Girsanovova věta Infinitezimální generátor Je to integrální Itôovo lemma Karhunen – Loève_theorem Kolmogorovova věta o spojitosti Kolmogorovova věta o rozšíření Lévy – Prochorovova metrika Malliavinův počet Martingaleova věta o reprezentaci Volitelná zastavovací věta Prochorovova věta Kvadratická variace Princip reflexe Skorokhod integrál Skorokhodova věta o reprezentaci Skorokhod prostor Snellova obálka Stochastická diferenciální rovnice Tanaka Čas zastavení Stratonovichův integrál Jednotná integrovatelnost Obvyklé hypotézy Wienerův prostor Klasický Abstraktní
Disciplíny	Pojistněmatematická matematika Teorie řízení Ekonometrie Ergodická teorie Teorie extrémních hodnot (EVT) Teorie velkých odchylek Matematické finance Matematická statistika Teorie pravděpodobnosti Teorie řazení Teorie obnovy Teorie ruin Zpracování signálu Statistika Systém na čipu design Stochastická analýza Analýza časových řad Strojové učení
Seznam témat Kategorie