Odhad maximálního skóre - Maximum score estimator - Wikipedia

v statistika a ekonometrie, odhad maximálního skóre je neparametrické odhadce pro diskrétní volba modely vyvinuté Charles Manski v roce 1975. Na rozdíl od multinomiální probit a multinomiální logit odhadů, nevytváří žádné předpoklady o rozdělení nepozorovatelné části nástroj. Jeho statistické vlastnosti (zejména jeho asymptotická distribuce ) jsou komplikovanější než multinomiální modely probit a logit statistická inference obtížný. K řešení těchto problémů Joel Horowitz navrhl variantu nazvanou vyhlazený odhad maximálního skóre.

Nastavení

Při modelování diskrétní volba problémů se předpokládá, že výběr je určen porovnáním skryté latentní užitečnosti.[1] Populaci agentů označte jako T a společná volba nastavená pro každého agenta jako C. Pro agenta , označit její výběr jako , což se rovná 1, pokud je to možné i je zvoleno a 0 jinak. Předpokládejme, že latentní užitečnost je ve vysvětlujících proměnných lineární a existuje aditivum chyba odezvy. Pak pro agenta ,

a

kde a jsou q-dimenzionální pozorovatelné proměnné o agentovi a výběru a a jsou faktory vstupující do rozhodnutí agenta, které ekonometr nedodržuje. Konstrukce pozorovatelných proměnných je velmi obecná. Například pokud C je tedy soubor různých značek kávy zahrnuje vlastnosti obou agenta t, jako je věk, pohlaví, příjem a etnická příslušnost a káva i, například cena, chuť a zda je místní nebo dovážená. Předpokládají se všechny chybové výrazy i.i.d. a musíme to odhadnout který charakterizuje účinek různých faktorů na volbu agenta.

Parametrické odhady

Obvykle je na chybový termín uložen nějaký konkrétní distribuční předpoklad, takový jako parametr je odhadnuto parametricky. Například pokud se předpokládá, že rozdělení chybového členu je normální, pak je model jen a multinomiální probit Modelka;[2] pokud se předpokládá, že je a Gumbelova distribuce, pak se model stane a multinomiální logitový model. The parametrický model [3] je vhodný pro výpočet, ale nemusí být konzistentní jakmile je distribuce chybového termínu specifikována.[4]

Binární odpověď

Předpokládejme například, že C obsahuje pouze dvě položky. Toto je latentní reprezentace užitku[5] a binární volba Modelka. V tomto modelu je na výběr: , kde jsou dva vektory vysvětlujících proměnných, a jsou i.i.d. chyby odezvy,

jsou latentní užitečnost výběru volby 1 a 2. Poté protokol funkce pravděpodobnosti lze uvést jako:

Pokud je vynucen nějaký distribuční předpoklad o chybě odezvy, bude mít funkce pravděpodobnosti logu zastoupení v uzavřené formě.[2] Například pokud se předpokládá, že chyba odpovědi bude distribuována jako: , pak lze funkci pravděpodobnosti přepsat jako:

kde je kumulativní distribuční funkce (CDF) pro standard normální distribuce. Tady, i když nemá reprezentaci uzavřené formy, její derivát ano. To je probit model.

Tento model je založen na distribučním předpokladu o termínu chyby odezvy. Přidání konkrétního předpokladu distribuce do modelu může způsobit, že model bude výpočetně traktovatelný kvůli existenci reprezentace uzavřené formy. Pokud je však distribuce chybového členu neurčena, budou odhady založené na předpokladu distribuce nekonzistentní.

Základní myšlenkou modelu bez distribuce je nahradit dva členy pravděpodobnosti ve funkci log-likelihood jinými váhami. Obecnou formu funkce log-likelihood lze zapsat jako:

Odhad maximálního skóre

Aby byl odhadovatel robustnější než distribuční předpoklad, navrhl Manski (1975) a neparametrický model odhadnout parametry. V tomto modelu označte počet prvků sady výběru jako J, celkový počet agentů jako N, a je posloupnost reálných čísel. Odhad maximálního skóre [6] je definován jako:

Tady, je pořadí části jistoty základní užitečnosti výběru i. Intuice v tomto modelu spočívá v tom, že když je hodnocení vyšší, bude volbě přiřazena větší váha.

Za určitých podmínek může být odhad maximálního skóre slabý konzistentní, ale jeho asymptotické vlastnosti jsou velmi komplikované.[7] Tato otázka pochází hlavně zhladkost objektivní funkce.

Binární příklad

V binárním kontextu lze odhadovat maximální skóre jako:

kde

a a jsou dvě konstanty v (0,1). Intuice tohoto váhového schématu spočívá v tom, že pravděpodobnost volby závisí na relativním pořadí jisté části nástroje.

Vyhlazený odhad maximálního skóre

Horowitz (1992) navrhl odhadce vyhlazeného maximálního skóre (SMS), který má mnohem lepší asymptotické vlastnosti.[8] Základní myšlenkou je nahradit funkci nevyhlazené hmotnosti s vyhlazeným. Definujte hladký funkce jádra K. splňující následující podmínky:

  1. je ohraničen přes reálná čísla
  2. a

Zde je funkce jádra analogická s CDF, jehož PDF je symetrický kolem 0. Potom je odhad SMS definován jako:

kde je posloupnost přísně kladných čísel a . Tady je intuice stejná jako při konstrukci tradičního odhadu maximálního skóre: agent si spíše vybere volbu, která má vyšší pozorovanou část latentní užitečnosti. Za určitých podmínek je vyhlazený odhad maximálního skóre konzistentní, a co je důležitější, má asymptotické normální rozdělení. Lze tedy implementovat veškeré obvyklé statistické testování a odvozování založené na asymptotické normálnosti.[9]

Reference

  1. ^ Další informace viz: Smith, Michael D. a Brynjolfsson, Erik, Consumer Decision-Making at an Internet Shopbot (říjen 2001). Pracovní dokument MIT Sloan School of Management č. 4206-01.
  2. ^ A b Wooldridge, J. (2002). Ekonometrická analýza dat průřezu a panelu. Cambridge, Massachusetts: MIT Press. str.457–460. ISBN  978-0-262-23219-7.
  3. ^ Konkrétní příklad viz: Tetsuo Yai, Seiji Iwakura, Shigeru Morichi, Multinomiální probit se strukturovanou kovariancí pro chování při volbě trasy, Dopravní výzkum Část B: Metodika, svazek 31, číslo 3, červen 1997, strany 195-207, ISSN 0191 -2615
  4. ^ Jin Yan (2012), „Vyhlazený odhad maximálního skóre pro modely multinomiální diskrétní volby“, pracovní dokument.
  5. ^ Walker, Joan; Ben-Akiva, Moshe (2002). Msgstr "Zobecněný náhodný užitný model". Matematické sociální vědy. 43 (3): 303–343. doi:10.1016 / S0165-4896 (02) 00023-9.
  6. ^ Manski, Charles F. (1975). "Odhad maximálního skóre stochastického užitného modelu volby". Journal of Econometrics. 3 (3): 205–228. CiteSeerX  10.1.1.587.6474. doi:10.1016/0304-4076(75)90032-9.
  7. ^ Kim, Jeankyung; Pollard, David (1990). „Asymptotika kořenové kostky“. Annals of Statistics. 18 (1): 191–219. doi:10.1214 / aos / 1176347498. JSTOR  2241541.
  8. ^ Horowitz, Joel L. (1992). "Vyhlazený odhad maximálního skóre pro model binární odezvy". Econometrica. 60 (3): 505–531. doi:10.2307/2951582. JSTOR  2951582.
  9. ^ Studii průzkumu naleznete v práci: Jin Yan (2012), „Vyhlazený odhad maximálního skóre pro modely multinomiální diskrétní volby“.

Další čtení