Tento článek je o modelování několika korelovaných binárních výsledků. Modelování jedné události s více výsledky najdete v části
multinomiální probit .
v statistika a ekonometrie , vícerozměrný probitový model je zobecněním probit model slouží k odhadu několika korelovaných binárních výsledků společně. Pokud se například předpokládá, že rozhodnutí o vyslání alespoň jednoho dítěte do veřejné školy a rozhodnutí o hlasování ve prospěch rozpočtu školy jsou ve vzájemném vztahu (obě rozhodnutí jsou binární), pak by pro společnou předpovědi byl vhodný model vícerozměrného probitu. dvě možnosti na základě konkrétního jednotlivce. Tento přístup byl původně vyvinut společností Siddhártha Chib a Edward Greenberg.[1]
Příklad: bivariate probit V běžném probitově modelu existuje pouze jedna binárně závislá proměnná Y { displaystyle Y} a tak jen jeden latentní proměnná Y ∗ { displaystyle Y ^ {*}} se používá. Naproti tomu v modelu bivariate probit existují dvě binárně závislé proměnné Y 1 { displaystyle Y_ {1}} a Y 2 { displaystyle Y_ {2}} , takže existují dvě latentní proměnné: Y 1 ∗ { displaystyle Y_ {1} ^ {*}} a Y 2 ∗ { displaystyle Y_ {2} ^ {*}} Předpokládá se, že každá pozorovaná proměnná přebírá hodnotu 1 právě tehdy, pokud její podkladová spojitá latentní proměnná přebírá kladnou hodnotu:
Y 1 = { 1 -li Y 1 ∗ > 0 , 0 v opačném případě , { displaystyle Y_ {1} = { begin {cases} 1 & { text {if}} Y_ {1} ^ {*}> 0, 0 & { text {jinak}}, end {případy}} } Y 2 = { 1 -li Y 2 ∗ > 0 , 0 v opačném případě , { displaystyle Y_ {2} = { begin {cases} 1 & { text {if}} Y_ {2} ^ {*}> 0, 0 & { text {jinak}}, end {případy}} } s
{ Y 1 ∗ = X 1 β 1 + ε 1 Y 2 ∗ = X 2 β 2 + ε 2 { displaystyle { begin {cases} Y_ {1} ^ {*} = X_ {1} beta _ {1} + varepsilon _ {1} Y_ {2} ^ {*} = X_ {2} beta _ {2} + varepsilon _ {2} end {cases}}} a
[ ε 1 ε 2 ] ∣ X ∼ N ( [ 0 0 ] , [ 1 ρ ρ 1 ] ) { displaystyle { begin {bmatrix} varepsilon _ {1} varepsilon _ {2} end {bmatrix}} mid X sim { mathcal {N}} left ({ begin {bmatrix} 0 0 end {bmatrix}}, { begin {bmatrix} 1 & rho rho & 1 end {bmatrix}} right)} Přizpůsobení modelu dvojrozměrného probitu zahrnuje odhad hodnot β 1 , β 2 , { displaystyle beta _ {1}, beta _ {2},} a ρ { displaystyle rho} . K tomu je pravděpodobnost modelu musí být maximalizována . Tato pravděpodobnost je
L ( β 1 , β 2 ) = ( ∏ P ( Y 1 = 1 , Y 2 = 1 ∣ β 1 , β 2 ) Y 1 Y 2 P ( Y 1 = 0 , Y 2 = 1 ∣ β 1 , β 2 ) ( 1 − Y 1 ) Y 2 P ( Y 1 = 1 , Y 2 = 0 ∣ β 1 , β 2 ) Y 1 ( 1 − Y 2 ) P ( Y 1 = 0 , Y 2 = 0 ∣ β 1 , β 2 ) ( 1 − Y 1 ) ( 1 − Y 2 ) ) { displaystyle { begin {aligned} L ( beta _ {1}, beta _ {2}) = { Big (} prod & P (Y_ {1} = 1, Y_ {2} = 1 mid beta _ {1}, beta _ {2}) ^ {Y_ {1} Y_ {2}} P (Y_ {1} = 0, Y_ {2} = 1 mid beta _ {1}, beta _ {2}) ^ {(1-Y_ {1}) Y_ {2}} [8pt] & {} qquad P (Y_ {1} = 1, Y_ {2} = 0 mid beta _ {1}, beta _ {2}) ^ {Y_ {1} (1-Y_ {2})} P (Y_ {1} = 0, Y_ {2} = 0 mid beta _ {1} , beta _ {2}) ^ {(1-Y_ {1}) (1-Y_ {2})} { Big)} end {zarovnáno}}} Nahrazení latentních proměnných Y 1 ∗ { displaystyle Y_ {1} ^ {*}} a Y 2 ∗ { displaystyle Y_ {2} ^ {*}} v pravděpodobnostních funkcích a získávání protokolů dává
∑ ( Y 1 Y 2 ln P ( ε 1 > − X 1 β 1 , ε 2 > − X 2 β 2 ) + ( 1 − Y 1 ) Y 2 ln P ( ε 1 < − X 1 β 1 , ε 2 > − X 2 β 2 ) + Y 1 ( 1 − Y 2 ) ln P ( ε 1 > − X 1 β 1 , ε 2 < − X 2 β 2 ) + ( 1 − Y 1 ) ( 1 − Y 2 ) ln P ( ε 1 < − X 1 β 1 , ε 2 < − X 2 β 2 ) ) . { displaystyle { begin {aligned} sum & { Big (} Y_ {1} Y_ {2} ln P ( varepsilon _ {1}> - X_ {1} beta _ {1}, varepsilon _ {2}> - X_ {2} beta _ {2}) [4pt] & {} quad {} + (1-Y_ {1}) Y_ {2} ln P ( varepsilon _ { 1} <- X_ {1} beta _ {1}, varepsilon _ {2}> - X_ {2} beta _ {2}) [4pt] & {} quad {} + Y_ {1 } (1-Y_ {2}) ln P ( varepsilon _ {1}> - X_ {1} beta _ {1}, varepsilon _ {2} <- X_ {2} beta _ {2} ) [4pt] & {} quad {} + (1-Y_ {1}) (1-Y_ {2}) ln P ( varepsilon _ {1} <- X_ {1} beta _ { 1}, varepsilon _ {2} <- X_ {2} beta _ {2}) { Big)}. End {zarovnáno}}} Po nějakém přepsání se funkce pravděpodobnosti protokolu stane:
∑ ( Y 1 Y 2 ln Φ ( X 1 β 1 , X 2 β 2 , ρ ) + ( 1 − Y 1 ) Y 2 ln Φ ( − X 1 β 1 , X 2 β 2 , − ρ ) + Y 1 ( 1 − Y 2 ) ln Φ ( X 1 β 1 , − X 2 β 2 , − ρ ) + ( 1 − Y 1 ) ( 1 − Y 2 ) ln Φ ( − X 1 β 1 , − X 2 β 2 , ρ ) ) . { displaystyle { begin {aligned} sum & { Big (} Y_ {1} Y_ {2} ln Phi (X_ {1} beta _ {1}, X_ {2} beta _ {2 }, rho) [4pt] & {} quad {} + (1-Y_ {1}) Y_ {2} ln Phi (-X_ {1} beta _ {1}, X_ {2 } beta _ {2}, - rho) [4pt] & {} quad {} + Y_ {1} (1-Y_ {2}) ln Phi (X_ {1} beta _ { 1}, - X_ {2} beta _ {2}, - rho) [4pt] & {} quad {} + (1-Y_ {1}) (1-Y_ {2}) ln Phi (-X_ {1} beta _ {1}, - X_ {2} beta _ {2}, rho) { Big)}. End {zarovnáno}}} Všimněte si, že Φ { displaystyle Phi} je kumulativní distribuční funkce z rozdělit normální rozdělení . Y 1 { displaystyle Y_ {1}} a Y 2 { displaystyle Y_ {2}} ve funkci log-likelihood jsou sledovány proměnné rovné jedné nebo nule.
Vícerozměrný probit V obecném případě y i = ( y 1 , . . . , y j ) , ( i = 1 , . . . , N ) { displaystyle mathbf {y_ {i}} = (y_ {1}, ..., y_ {j}), (i = 1, ..., N)} kde můžeme vzít j { displaystyle j} jako volby a i { displaystyle i} jako jednotlivci nebo pozorování, pravděpodobnost pozorování volby y i { displaystyle mathbf {y_ {i}}} je
Pr ( y i | X i β , Σ ) = ∫ A J ⋯ ∫ A 1 F N ( y i ∗ | X i β , Σ ) d y 1 ∗ … d y J ∗ Pr ( y i | X i β , Σ ) = ∫ 1 y ∗ ∈ A F N ( y i ∗ | X i β , Σ ) d y i ∗ { displaystyle { begin {aligned} Pr ( mathbf {y_ {i}} | mathbf {X_ {i} beta}, Sigma) = & int _ {A_ {J}} cdots int _ {A_ {1}} f_ {N} ( mathbf {y} _ {i} ^ {*} | mathbf {X_ {i} beta}, Sigma) dy_ {1} ^ {*} tečky dy_ {J} ^ {*} Pr ( mathbf {y_ {i}} | mathbf {X_ {i} beta}, Sigma) = & int mathbb {1} _ {y ^ { *} in A} f_ {N} ( mathbf {y} _ {i} ^ {*} | mathbf {X_ {i} beta}, Sigma) d mathbf {y} _ {i} ^ {*} end {zarovnáno}}} Kde A = A 1 × ⋯ × A J { displaystyle A = A_ {1} krát cdots krát A_ {J}} a,
A j = { ( − ∞ , 0 ] y j ∗ = 0 ( 0 , ∞ ) y j ∗ = 1 { displaystyle A_ {j} = { begin {cases} (- infty, 0] & y_ {j} ^ {*} = 0 (0, infty) & y_ {j} ^ {*} = 1 konec {případů}}} Funkce log-pravděpodobnosti v tomto případě by byla ∑ i = 1 N log Pr ( y i | X i β , Σ ) { displaystyle sum _ {i = 1} ^ {N} log Pr ( mathbf {y_ {i}} | mathbf {X_ {i} beta}, Sigma)}
Až na J ≤ 2 { displaystyle J leq 2} typicky neexistuje žádné uzavřené řešení integrálů v rovnici pravděpodobnosti log. Místo toho lze k simulaci pravděpodobnosti volby použít simulační metody. Mezi metody využívající vzorkování důležitosti patří Algoritmus GHK (Geweke, Hajivassilou, McFadden a Keane),[2] AR (přijmout-odmítnout), Sternova metoda. K tomuto problému existují také přístupy MCMC, včetně CRB (Chibova metoda s Rao-Blackwellization), CRT (Chib, Ritter, Tanner), ARK (jádro přijmout-odmítnout) a ASK (jádro adaptivního vzorkování).[3] . V Probit-LMM je navržen variační přístup k škálování velkých datových souborů (Mandt, Wenzel, Nakajima et al.).[4]
Reference ^ Chib, Siddhartha; Greenberg, Edward (červen 1998). "Analýza vícerozměrných modelů probitů" . Biometrika . 85 (2): 347–361. CiteSeerX 10.1.1.198.8541 . doi :10.1093 / biomet / 85.2.347 - prostřednictvím Oxford Academic. ^ Hajivassiliou, Vassilis (1994). "Kapitola 40 Klasické metody odhadu pro modely LDV pomocí simulace". Příručka ekonometrie . 4 : 2383–2441. doi :10.1016 / S1573-4412 (05) 80009-1 . ISBN 9780444887665 . ^ Jeliazkov, Ivan (2010). "Pohledy MCMC na odhad simulované pravděpodobnosti". Pokroky v ekonometrii . 26 : 3–39. doi :10.1108 / S0731-9053 (2010) 0000026005 . ISBN 978-0-85724-149-8 . ^ Mandt, Stephan; Wenzel, Florian; Nakajima, Shinichi; John, Cunningham; Lippert, Christoph; Kloft, Marius (2017). "Sparse probit lineární smíšený model" (PDF) . Strojové učení . 106 (9–10): 1–22. arXiv :1507.04777 . doi :10.1007 / s10994-017-5652-6 . Další čtení Greene, William H., Ekonometrická analýza , sedmé vydání, Prentice-Hall, 2012.