The Algoritmus GHK (Geweke, Hajivassiliou a Keane)[1] je vzorkování důležitosti metoda pro simulaci pravděpodobností volby v vícerozměrný probitový model. Tyto simulované pravděpodobnosti lze použít k obnovení odhadů parametrů z rovnice maximalizované pravděpodobnosti pomocí kterékoli z obvyklých dobře známých metod maximalizace (Newtonova metoda, BFGS, atd.). Vlak[2] má dobře zdokumentované kroky pro implementaci tohoto algoritmu pro model multinomiální probit. Co bude následovat, bude platit pro binární multivariační probitový model.
Zvažte případ, kdy se člověk pokouší vyhodnotit pravděpodobnost volby
kde
a kde můžeme vzít
jako volby a
jako jednotlivci nebo pozorování,
je průměr a
je kovarianční matice modelu. Pravděpodobnost pozorování volby
je

Kde
a,
![{ displaystyle A_ {j} = { begin {cases} (- infty, 0] & y_ {j} = 0 (0, infty) & y_ {j} = 1 end {cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3a38b27c96032c1abf5d7b979d922b8144830765)
Ledaže
je malý (menší nebo rovný 2) neexistuje integrální řešení pro výše definované integrály (některé práce byly provedeny s
[3]). Alternativou k vyhodnocení těchto integrálů v uzavřené formě nebo pomocí kvadraturních metod je použití simulace. GHK je simulační metoda pro simulaci výše uvedené pravděpodobnosti pomocí metod vzorkování důležitosti.
Hodnocení
je zjednodušeno rozpoznáním latentního datového modelu
lze přepsat pomocí Choleského faktorizace,
. To dává
Kde
podmínky jsou distribuovány
.
Pomocí této faktorizace a skutečnosti, že
jsou distribuovány nezávisle na sobě, lze simulovat tahy ze zkráceného vícerozměrného normálního rozdělení pomocí tažení z jednorozměrného náhodného normálu.
Například pokud je oblast zkrácení
má dolní a horní limity rovné
(včetně a, b =
) poté se úkol stane

Poznámka:
, nahrazující:

Přeskupení výše,

Nyní vše, co musíte udělat, je iterativně čerpat ze zkráceného jednorozměrného normálního rozdělení s výše uvedenými hranicemi. Toho lze dosáhnout inverzní metodou CDF a za zmínku, že zkrácené normální rozdělení je dáno,

Kde
bude číslo mezi 0 a 1, protože výše je CDF. To naznačuje generování náhodných tahů ze zkrácené distribuce, kterou je třeba vyřešit
dávat,

kde
a
a
je standardní normální CDF. S takovými tahy lze rekonstruovat
jeho zjednodušenou rovnicí pomocí Choleského faktorizace. Tyto remízy budou podmíněny remízy přicházejícími dříve a pomocí vlastností normálů bude produkt podmíněných souborů PDF společnou distribucí
,

Kde
je vícerozměrné normální rozdělení.
Protože
podmíněno
je omezen na sadu
podle nastavení pomocí Choleského faktorizace to víme
je zkrácený multivariační normál. Distribuční funkce a zkrácen normální je,

Proto,
má distribuci,

kde
je standardní normální pdf pro výběr
.
Protože
výše uvedená standardizace činí každý termín průměrnou odchylkou 0.
Nechme jmenovatele
a čitatel
kde
je vícerozměrné normální PDF.
Vrátíme-li se k původnímu cíli, vyhodnotíme

Pomocí vzorkování důležitosti můžeme vyhodnotit tento integrál,

To je dobře aproximováno
.
Reference