Poissonova regrese - Poisson regression
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
v statistika, Poissonova regrese je zobecněný lineární model druh regresní analýza slouží k modelování počítat data a kontingenční tabulky. Poissonova regrese předpokládá proměnnou odezvy Y má Poissonovo rozdělení a předpokládá logaritmus jeho očekávaná hodnota lze modelovat lineární kombinací neznámého parametry. Poissonův regresní model je někdy známý jako a log-lineární model, zvláště když se používá k modelování pohotovostních tabulek.
Negativní binomická regrese je populární zobecnění Poissonovy regrese, protože uvolňuje vysoce restriktivní předpoklad, že rozptyl se rovná průměru vytvořenému Poissonovým modelem. Tradiční model negativní binomické regrese, běžně známý jako NB2, je založen na distribuci směsi Poisson-gama. Tento model je populární, protože modeluje Poissonovu heterogenitu s distribucí gama.
Poissonovy regresní modely jsou zobecněné lineární modely s logaritmem jako (kanonický) funkce propojení a Poissonovo rozdělení funkce jako předpokládané rozdělení pravděpodobnosti odpovědi.
Regresní modely
Li je vektorem nezávislé proměnné, pak model získá podobu
kde a . Někdy je to psáno kompaktněji jako
kde X je nyní (n + 1) -dimenzionální vektor skládající se z n nezávislé proměnné spojené do jedničky. Tady θ je prostě α zřetězeno na β.
Když je tedy uveden Poissonův regresní model θ a vstupní vektor X, je predikovaný průměr sdruženého Poissonova rozdělení dán vztahem
Li Yi jsou nezávislý pozorování s odpovídajícími hodnotami Xi proměnných prediktoru θ lze odhadnout na maximální pravděpodobnost. Odhady maximální pravděpodobnosti postrádají a uzavřený výraz a musí být nalezeny numerickými metodami. Pravděpodobnostní povrch pro maximální pravděpodobnost Poissonovy regrese je vždy konkávní, takže Newton – Raphson nebo jiné metody založené na gradientu jsou vhodné techniky odhadu.
Odhad parametrů založený na maximální pravděpodobnosti
Vzhledem k souboru parametrů θ a vstupní vektor Xprůměr předpokládané hodnoty Poissonovo rozdělení, jak je uvedeno výše, je dáno
a tedy Poissonovo rozdělení funkce pravděpodobnostní hmotnosti darováno
Nyní předpokládejme, že jsme dostali datovou sadu skládající se z m vektory , spolu se sadou m hodnoty . Pak pro danou sadu parametrů θ, pravděpodobnost dosažení tohoto konkrétního souboru dat je dána vztahem
Metodou maximální pravděpodobnost, chceme najít sadu parametrů θ díky tomu je tato pravděpodobnost co největší. Za tímto účelem je rovnice nejprve přepsána jako a funkce pravděpodobnosti ve smyslu θ:
Všimněte si, že výraz na pravá strana se ve skutečnosti nezměnilo. Se vzorcem v této formě je obvykle obtížné pracovat; místo toho se používá logaritmická pravděpodobnost:
Všimněte si, že parametry θ se v součtu objeví pouze v prvních dvou termínech každého termínu. Vzhledem k tomu, že nás zajímá pouze hledání nejlepší hodnoty pro θ můžeme upustit yi! a jednoduše napište
Abychom našli maximum, musíme vyřešit rovnici který nemá žádné uzavřené řešení. Negativní logaritmická pravděpodobnost, , je konvexní funkce, a tak standardní konvexní optimalizace techniky jako klesání lze použít k nalezení optimální hodnoty θ.
Poissonova regrese v praxi
Poissonova regrese může být vhodná, když je závislá proměnná například počet Události například příchod telefonního hovoru do call centra.[1] Události musí být nezávislé v tom smyslu, že příchod jednoho hovoru nezpůsobí další více či méně pravděpodobné, ale pravděpodobnost událostí za jednotku času se chápe jako souvislost s proměnnými, jako je denní doba.
„Expozice“ a offset
Poissonova regrese může být také vhodná pro data rychlosti, kde rychlost je počet událostí dělený nějakou mírou této jednotky vystavení (konkrétní jednotka pozorování). Biologové například mohou spočítat počet druhů stromů v lese: událostmi by byla pozorování stromů, expozice by byla jednotkovou plochou a míra by byla počtem druhů na jednotku plochy. Demografové mohou modelovat úmrtnost v geografických oblastech jako počet úmrtí dělený osobo-rokem. Obecněji lze sazby událostí vypočítat jako události za jednotku času, což umožňuje, aby se pozorovací okno pro každou jednotku lišilo. V těchto příkladech je expozice respektive jednotková plocha, osobo-roky a jednotkový čas. V Poissonově regrese je to řešeno jako offset, kde proměnná expozice vstupuje na pravou stranu rovnice, ale s odhadem parametru (pro log (expozici)) omezeným na 1.
z čehož vyplývá
Ofset v případě a GLM v R lze dosáhnout pomocí offset ()
funkce:
glm(y ~ offset(log(vystavení)) + X, rodina=jed(odkaz=log) )
Přehnanost a nulová inflace
Charakteristika Poissonovo rozdělení je, že jeho průměr se rovná jeho rozptylu. Za určitých okolností bude zjištěno, že pozorované rozptyl je větší než průměr; toto je známé jako nadměrný rozptyl a označuje, že model není vhodný. Častým důvodem je vynechání příslušných vysvětlujících proměnných nebo závislých pozorování. Za určitých okolností lze problém overdisperze vyřešit použitím kvazi-pravděpodobnost odhad nebo a negativní binomické rozdělení namísto.[2][3]
Ver Hoef a Boveng popsali rozdíl mezi kvazi-Poissonovou (nazývanou také overdisperze s kvazi-pravděpodobností) a záporným binomickým (ekvivalentní gama-Poissonově) takto: E(Y) = μ, kvazi-Poissonův model předpokládá var (Y) = θμ zatímco gama-Poisson předpokládá var (Y) = μ(1 + κμ), kde θ je parametr kvazi-Poissonova overdisperze a κ je tvarový parametr negativní binomické rozdělení. U obou modelů se parametry odhadují pomocí Opakovaně vyvažoval nejméně čtverců. U kvazi-Poissona jsou váhy μ/θ. U záporného binomia jsou váhy μ/(1 + κμ). S velkým μ a podstatná extra-Poissonova variace, jsou záporné binomické hmotnosti omezeny na 1 /κ. Ver Hoef a Boveng diskutovali o příkladu, kde si vybrali mezi těmito dvěma vynesením průměrných zbytkových zbytků vs. průměr.[4]
Dalším běžným problémem s Poissonovou regresí jsou nadbytečné nuly: pokud v práci existují dva procesy, jeden určující, zda jsou nulové události nebo nějaké události, a Poissonův proces určující, kolik událostí existuje, bude více nul, než by Poissonova regrese předpovědět. Příkladem může být distribuce cigaret vykouřených za hodinu členy skupiny, kde jsou někteří jedinci nekuřáci.
jiný zobecněné lineární modely tak jako negativní binomický model nebo model s nulovým nafouknutím může v těchto případech fungovat lépe.
Použití při analýze přežití
Poissonova regrese vytváří proporcionální modely rizik, jedna třída analýza přežití: viz modely proporcionálních rizik pro popis modelů Cox.
Rozšíření
Regularizovaná Poissonova regrese
Při odhadu parametrů pro Poissonovu regresi se obvykle snaží najít hodnoty pro θ které maximalizují pravděpodobnost vyjádření formy
kde m je počet příkladů v datové sadě a je funkce pravděpodobnostní hmotnosti z Poissonovo rozdělení se střední hodnotou nastavenou na . K tomuto optimalizačnímu problému lze přidat regularizaci namísto maximalizace[5]
pro nějakou pozitivní konstantu . Tato technika, podobně jako hřebenová regrese, může snížit nadměrné vybavení.
Viz také
- Model s nulovým nafouknutím
- Poissonovo rozdělení
- Poissonův model s pevným účinkem
- Odhad instrumentálních proměnných § Poissonova regrese
Reference
- ^ Greene, William H. (2003). Ekonometrická analýza (Páté vydání.). Prentice-Hall. str.740 –752. ISBN 978-0130661890.
- ^ Paternoster R, Brame R (1997). „Více cest k delikvenci? Test vývojových a obecných teorií zločinu“. Kriminologie. 35: 45–84. doi:10.1111 / j.1745-9125.1997.tb00870.x.
- ^ Berk R, MacDonald J (2008). "Overdisperze a Poissonova regrese". Časopis kvantitativní kriminologie. 24 (3): 269–284. doi:10.1007 / s10940-008-9048-4.
- ^ Ver Hoef, JAY M .; Boveng, Peter L. (01.01.2007). „Quasi-Poisson vs. Negativní binomická regrese: Jak bychom měli modelovat údaje o přehnaném počtu?“. Ekologie. 88 (11): 2766–2772. doi:10.1890/07-0043.1. Citováno 2016-09-01.
- ^ Perperoglou, Aris (08.09.2011). "Přizpůsobení údajů o přežití penalizované Poissonově regrese". Statistické metody a aplikace. Springer Nature. 20 (4): 451–462. doi:10.1007 / s10260-011-0172-1. ISSN 1618-2510.
Další čtení
- Cameron, A. C .; Trivedi, P. K. (1998). Regresní analýza dat o počtu. Cambridge University Press. ISBN 978-0-521-63201-0.
- Christensen, Ronald (1997). Log-lineární modely a logistická regrese. Springer Texts in Statistics (druhé vydání). New York: Springer-Verlag. ISBN 978-0-387-98247-2. PAN 1633357.
- Gouriéroux, Christian (2000). „Ekonometrie diskrétních pozitivních proměnných: Poissonův model“. Ekonometrie kvalitativních závislých proměnných. New York: Cambridge University Press. 270–83. ISBN 978-0-521-58985-7.
- Greene, William H. (2008). Msgstr "Modely pro počty událostí a dobu trvání". Ekonometrická analýza (8. vydání). Horní sedlo: Prentice Hall. str.906 –944. ISBN 978-0-13-600383-0.
- Hilbe, J. M. (2007). Negativní binomická regrese. Cambridge University Press. ISBN 978-0-521-85772-7.
- Jones, Andrew M .; et al. (2013). Msgstr "Modely pro počítání dat". Aplikovaná ekonomie zdravotnictví. London: Routledge. str. 295–341. ISBN 978-0-415-67682-3.