Vektorový zobecněný lineární model - Vector generalized linear model
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
v statistika, třída vektorové zobecněné lineární modely (VGLM) bylo navrženo rozšířit rozsah modelů zajišťovaných zobecněné lineární modely (GLMZejména umožňují VGLM proměnné odezvy mimo klasické exponenciální rodina a pro více než jeden parametr. Každý parametr (nemusí to být nutně průměr) lze transformovat pomocí a funkce propojeníRámec VGLM je také dostatečně velký, aby přirozeně pojal více odpovědí; těchto několik nezávislých odpovědí, z nichž každá vychází z konkrétního statistického rozdělení s pravděpodobně odlišnými hodnotami parametrů.
Vektorové zobecněné lineární modely jsou podrobně popsány v Yee (2015).[1]Přijatý centrální algoritmus je iterativně vyvažované nejméně čtverce metoda,pro maximální pravděpodobnost odhad obvykle všech parametrů modelu. Zejména Fisherovo skóre je implementováno takovými, které pro většinu modelů používají první a očekávané druhé deriváty funkce log-likelihood.
Motivace
GLM v podstatě pokrývají jednoparametrické modely z klasiky exponenciální rodina a zahrnují 3 z nejdůležitějších statistických regresních modelů: lineární model, Poissonovu regresi pro počty a logistickou regresi pro binární odpovědi. Exponenciální rodina je však pro běžnou analýzu dat příliš omezující. Například pro počty nulová inflace „Pravidelně se setkáváme s nulovým zkrácením a nadměrným rozptylem a provizorní úpravy provedené v binomických a Poissonových modelech ve formě kvazi-binomických a kvazi-Poissonových lze považovat za ad hoc a neuspokojivé.nulový nafouknutý Poisson regrese, nulová Poissonova (překážková) regrese, pozitivní Poissonova regrese anegativní binomický Jako další příklad je u lineárního modelu rozptyl normálního rozdělení odsunut jako parametr měřítka a je s ním často zacházeno jako s obtěžujícím parametrem (pokud je vůbec považován za parametr). Rámec VGLM však rozptyl umožňuje modelovat pomocí kovariancí.
Jako celek lze volně uvažovat o VGLM jako o GLM, které zpracovávají mnoho modelů mimo klasickou exponenciální rodinu a nejsou omezeny na odhad jednoho průměru. vážené nejmenší čtverce během IRLS, jeden používá zobecněné nejmenší čtverce zvládnout korelaci mezi M lineární prediktory.
Data a notace
Předpokládáme, že odpověď nebo výsledek nebo závislá proměnná (s), , se předpokládá, že jsou generovány z konkrétního rozdělení. Většina distribucí je jednorozměrná, takže a příklad je dvojrozměrné normální rozdělení.
Někdy zapisujeme data jako pro . Každý z n pozorování jsou považována za nezávislá .v jsou známé pozitivní předchozí váhy a často .
Jsou vysvětleny vysvětlující nebo nezávislé proměnné nebo kdy i je potřeba, jako .Obvykle existuje zachytit, v jakém případě nebo .
Ve skutečnosti to rámec VGLM umožňuje S odpovědi, každá dimenze .Ve výše uvedeném S = 1. Proto rozměr je obecnější . Jeden zpracovává S odpovědi podle kódu suchas vglm (cbind (y1, y2, y3) ~ x2 + x3, ..., data = mydata)
pro S = 3. Pro zjednodušení má většina tohoto článku S = 1.
Součásti modelu
VGLM se obvykle skládá ze čtyř prvků:
- 1. Funkce hustoty pravděpodobnosti nebo funkce hmotnosti pravděpodobnosti z nějakého statistického rozdělení, které má logaritmickou pravděpodobnost , první deriváty a očekávaná informační matice které lze vypočítat. Model je nutný k uspokojení obvyklých Podmínky pravidelnosti MLE.
- 2. Lineární prediktory popsané níže pro modelování každého parametru ,
- 3. Funkce propojení takhle
- 4. Omezovací matice pro každý s úplným sloupcem a známým.
Lineární prediktory
Každý lineární prediktor je veličina, která do modelu zahrnuje informace o nezávislých proměnných. Symbol (řecký "eta ") označuje lineární prediktor a dolní index j se používá k označení jten jeden. Týká se to jth parametr vysvětlujících proměnných a je vyjádřena jako lineární kombinace (tedy „lineární“) neznámých parametrů tj. regresních koeficientů .
The jth parametr, , rozdělení závisí na nezávislých proměnných, přes
Nechat být vektorem všech lineárních prediktorů. (Pro pohodlí to vždy necháme být dimenze M).Tím pádem Všechno kovariáty zahrnující potenciálně ovlivnit Všechno parametry prostřednictvím lineárních prediktorů . Později dovolíme zobecnit lineární prediktory na aditivní prediktory, což je součet hladkých funkcí každého z nich a každá funkce je odhadnuta z dat.
Funkce propojení
Každá funkce odkazu poskytuje vztah mezi lineárním prediktorem a parametrem distribuce. Existuje mnoho běžně používaných funkcí odkazů a jejich výběr může být poněkud libovolný. Má smysl pokusit se přizpůsobit doména funkce propojení s rozsah hodnoty parametru distribuce. Všimněte si, že umožňuje pro každý parametr jinou funkci propojení. Mají podobné vlastnosti jako s zobecněné lineární modely mezi běžné funkce odkazu patří například logit odkaz na parametry v a log odkaz na kladné parametry. The VGAM
balíček má funkci identitylink ()
pro parametry, které mohou nabývat kladných i záporných hodnot.
Omezovací matice
Obecněji rámec VGLM umožňuje jakékoli lineární omezení mezi regresními koeficienty každého lineárního prediktoru. Například můžeme chtít nastavit některé tak, aby se rovnaly 0, nebo omezit některé z nich tak, aby byly stejné. My máme
Kde jsou matice omezení.Každá matice omezení je známá a předem specifikovaná a má M řádky a mezi 1 a M sloupce. Prvky matic omezení mají konečnou hodnotu a často mají jen 0 nebo 1. Například hodnota 0 tento prvek efektivně vynechá, zatímco a 1 jej zahrnuje. U některých modelů je běžné, že rovnoběžnost předpoklad, což znamená, že pro , a pro některé modely, pro Zvláštní případ, kdy pro všechny je známý jako triviální omezení; všechny koeficienty regrese se odhadují a nesouvisí je známý jako pouze zachytit parametr, pokud jv řadě všech jsou rovny pro , tj., rovná se pouze odposlechu. Parametry pouze pro zachycení jsou tedy modelovány co nejjednodušší, jako skalární.
Neznámé parametry, , se obvykle odhadují metodou maximální pravděpodobnost Všechny regresní koeficienty lze vložit do matice následovně:
Zařízení xij
S ještě obecněji lze povolit hodnotu proměnné mít pro každou jinou hodnotu Například pokud je každý lineární prediktor pro jiný časový bod, pak by jeden mohl mít časově proměnnou kovariantu. Například v modely s diskrétní volbou, jeden má podmiňovací způsob logitové modely,vnořené logitové modely,zobecněný logit modely a podobně, rozlišovat mezi určitými variantami a přizpůsobit multinomický model logit, např. možnosti dopravy. Proměnná, jako je cena, se liší v závislosti na výběru, například taxi je dražší než autobus, což je dražší než chůze xij
zařízení VGAM
umožňuje generalizovat na .
Nejobecnější vzorec je
Tady je volitelné offset; které translatesto být matice v praxi. The VGAM
balíček má xij
argument, který umožňuje zadání postupných prvků diagonální matice.
Software
Yee (2015)[1] popisuje R implementace balíčku v tzv. VGAM.[2]V současné době tento software vyhovuje přibližně 150 modelům / distribucím. Funkce centrálního modelování jsou vglm ()
a vgam ()
.v rodina
argumentu je přiřazeno a Funkce rodiny VGAM,např., rodina = negbinomiální
pro negativní binomický regrese,rodina = poissonff
pro jed regrese,rodina = propodds
pro proporcionální lichý model nebokumulativní logitový model pro pořadovou kategorickou regresi.
Kování
Maximální pravděpodobnost
Maximalizujeme logaritmickou pravděpodobnost
Kde jsou pozitivní a známé předchozí váhy.v maximální pravděpodobnost odhady lze zjistit pomocí iterativně vyvažované nejméně čtverce pomocí algoritmu Fisher dává gól metoda s aktualizacemi formuláře:
kde je Fisher informace matice při iteraci A.Je také nazýván očekávaná informační maticenebo EIM.
VLM
Pro výpočet je (malý) modelová matice zkonstruováno z RHS vzorce v vglm ()
a matice omezení jsou kombinovány a tvoří a velký matice modelu. IRLS se aplikuje na tento velký X. Tato matice je známá jako VLMmatrix, protože vektorový lineární model je základní problém nejmenších čtverců, který se řeší. VLM je vážená vícerozměrná regrese, kde matice variance-kovarianční matice pro každý řádek matice odezvy není nutně stejná a je známa. (V klasické vícerozměrné regrese mají všechny chyby stejnou matici variance-kovariance a není známa). Zejména VLM minimalizuje vážený součet čtverců
Toto množství je při každé iteraci IRLS minimalizováno pracovní odpovědi (také známý jako pseudoodpověď a upravenozávislé vektory) jsou
Kde jsou známé jako pracovní váhy nebo matice pracovní hmotnosti. Jsou symetrické a kladně definitivní. Použití EIM pomáhá zajistit, aby všechny byly ve většině prostoru parametrů kladně definitivní (a nejen jejich součet). Naproti tomu použití Newton – Raphsona by znamenalo, že budou použity pozorované informační matice, které mají tendenci být v určité podmnožině prostoru parametrů kladně konečné.
Výpočtově Choleský rozklad se používá k převrácení matic pracovní hmotnosti a k převodu celkové hmotnosti zobecněné nejmenší čtverce problém do obyčejné nejmenší čtverce problém.
Příklady
Zobecněné lineární modely
Samozřejmě, všechny zobecněné lineární modely jsou speciální případy VGLM. Ale často odhadujeme všechny parametry úplně maximální pravděpodobnost spíše než pomocí metody momentů pro parametr měřítka.
Objednaná kategorická odpověď
Pokud je proměnná odezvy ordinální měření s M + 1 úrovně, pak se může hodit modelová funkce formuláře:
- kde
pro Různé odkazy G vést k modely proporcionálních kurzů nebo objednaný probit modely, např VGAM
rodinná funkce kumulativní (link = probit)
přiřadí probit odkaz na kumulativní pravděpodobnosti, proto se tomuto modelu říká také kumulativní model probituObecně se jim říká kumulativní modely odkazů.
Pro kategorické a multinomické distribuce jsou přizpůsobené hodnoty (M + 1) -vector of probencies, with the property that all probencies add up to 1. Every probability indicate the likelihood of occurs of one of the M + 1 možné hodnoty.
Neuspořádaná kategorická odpověď
Pokud je proměnná odpovědi a jmenovité měření, nebo data nesplňují předpoklady objednaného modelu, pak se může hodit model v následující podobě:
pro Výše uvedený odkaz se někdy nazývá multilogit odkaz a model se nazývá multinomiální logit Je běžné zvolit první nebo poslední úroveň odpovědi jakoodkaz nebo základní linie skupina; výše používá poslední úroveň VGAM
rodinná funkce multinomiální ()
odpovídá výše uvedenému modelu a má argument nazvaný refLevel
které lze přiřadit úrovni použité pro referenční skupinu.
Počítat data
Provádí klasická teorie GLM Poissonova regrese pro počítat data. Odkazem je obvykle logaritmus, který je známý jako kanonický odkazFunkce rozptylu je úměrná průměru:
kde parametr disperze je obvykle fixováno přesně na jednu. Pokud tomu tak není, výsledný kvazi-pravděpodobnost model je často popisován jako Poisson s nadměrný rozptyl nebo kvazi-Poisson; pak se běžně odhaduje metodou momentů a jako takové intervaly spolehlivosti pro je obtížné získat.
Naproti tomu VGLM nabízejí mnohem bohatší sadu modelů pro zvládnutí nadměrného rozptylu vzhledem k Poissonovi, např. negativní binomický distribuce a několik jejích variant. Dalším modelem regrese počtu je zobecněné Poissonovo rozdělení. Další možné modely jsou distribuce zeta a Distribuce Zipf.
Rozšíření
Zobecněné lineární modely se sníženým pořadím
RR-VGLM jsou VGLM, kde podmnožina B matice je z nižší hodnost.Ztráta obecnosti předpokládejme, že je oddíl kovariančního vektoru. Pak část B matice odpovídající je ve formě kde a jsou tenké matice (tj. s R sloupce), např. vektory, pokud jsou v pořadí R = 1. RR-VGLM potenciálně nabízejí několik výhod při použití na určité modely a datové sady. Za prvé, pokud M a p jsou velké, pak je počet regresních koeficientů, které jsou odhadovány pomocí VGLM, velký (). Pak RR-VGLM mohou enormně snížit počet odhadovaných regresních koeficientů, pokud R je nízká, např. R = 1 nebo R = 2. Příkladem modelu, kde je to obzvláště užitečné, je RR-multinomiální logitový model, také známý jako stereotypní model.Za druhé, je R-vektor latentní proměnné a často je lze užitečné interpretovat R = 1 pak můžeme psát aby latentní proměnná obsahovala zatížení vysvětlujících proměnných. Je vidět, že RR-VGLM přijímají optimální lineární kombinace a potom je VGLM přizpůsoben vysvětlujícím proměnným . Za třetí, a biplot lze vyrobit, pokud R '= 2, což umožňuje vizualizaci modelu.
Je možné ukázat, že RR-VGLM jsou jednoduše VGLM, kde matice omezení pro proměnné v jsou neznámé a je třeba je odhadnout pro tyto proměnné. R-VGLM lze odhadnout pomocí střídavý algoritmus, který opravuje a odhady a pak opravit a odhady , atd.
V praxi jsou nutná určitá omezení jedinečnosti a / nebo . v VGAM
, rrvglm ()
funkce používá rohová omezení ve výchozím nastavení, což znamená, že nahoře R řádky je nastaven na . RR-VGLM byly navrženy v roce 2003.[3]
Dva na jednoho
Zvláštní případ RR-VGLM je, když R = 1 a M = 2. To je zmenšení rozměrů od 2 parametrů do 1 parametru. Pak to lze ukázat
kde prvky a jsou odhadovány. Ekvivalentně
Tento vzorec poskytuje spojení a . Vyvolává vztah mezi dvěma parametry modelu, který může být užitečný, například pro modelování vztahu střední odchylky. Někdy existuje určitá volba linkových funkcí, proto nabízí malou flexibilitu při spojování dvou parametrů, např. Logit, probit, cauchit nebo cloglog link pro parametry v jednotkovém intervalu. Výše uvedený vzorec je zvláště užitečný pro negativní binomické rozdělení, takže RR-NB má rozptylovou funkci
Tomu se říká NB-P varianta některých autorů. The a jsou odhadnuty a je také možné pro ně získat přibližné intervaly spolehlivosti.
Mimochodem může být také vybaveno několik dalších užitečných variant NB pomocí výběru správné kombinace matic omezení. Například, Pozn − 1, Pozn − 2 (negbinomiální ()
výchozí), Pozn − H; viz Yee (2014)[4] a tabulka 11.3 Yee (2015).[1]
RCIM
Podtřída modely interakce řádek-sloupec(RCIM) byly rovněž navrženy; jedná se o speciální typ RR-VGLM. RCIM se vztahují pouze na matici Y odpověď a neexistují explicitní vysvětlující proměnné Namísto toho jsou proměnné indikátoru pro každý řádek a sloupec explicitně nastaveny a objednávkaRinterakce formuláře Zvláštní případy tohoto typu modelu zahrnují Goodman RC asociační modela metodika kvazivariačních odchylek, jak ji provádí qvcalc
Balíček R.
RCIM lze definovat jako RR-VGLM aplikovaný na Y s
Pro asociační model Goodman RC máme takže pokud R = 0 pak je to Poissonova regrese přizpůsobená matici počtů s efekty řádků a sloupců; toto má podobný nápad jako obousměrný ANOVA model bez interakce.
Dalším příkladem RCIM je if je odkaz identity a parametr je medián a model odpovídá asymetrické Laplaceově distribuci; pak je neinterakční RCIM podobný technice zvané střední polština.
v VGAM
, rcim ()
a grc ()
funkce odpovídají výše uvedeným modelům. A také Yee a Hadi (2014)[5]ukázat, že RCIM lze použít k přizpůsobení neomezených kvadratických ordinačních modelů datům druhů; toto je příklad nepřímého gradientní analýza vvysvěcení (téma statistické ekologie).
Vektorové generalizované aditivní modely
Vektorové generalizované aditivní modely (VGAM) jsou významným rozšířením VGLM, ve kterých je lineární prediktor není omezen na lineární v kovariátách ale je součet vyhlazovací funkce aplikován na :
kde Tyto jsou M aditivní prediktory.Každá plynulá funkce se odhaduje z údajů. VGLM tedy jsou řízený modelem zatímco VGAM jsou řízeno datyV současné době jsou v. Implementovány pouze vyhlazovací splajny VGAM
balíček M > 1 ve skutečnosti jsou vektorové splajny, které odhadují funkce komponent v Samozřejmě lze použít regresní spline s VGLM. Motivace za VGAM je podobná jako u Hastie a Tibshirani (1990)[6]andWood (2017).[7]VGAM byly navrženy v roce 1996.[8]
V současné době se pracuje na odhadu VGAM pomocí P-splajny Eilers a Marx (1996).[9]To umožňuje několik výhod oproti používání vyhlazovací splajny a vektor backfitting, například možnost snadnějšího provádění automatického výběru parametrů vyhlazení.
Zobecněné lineární modely kvadratického vektoru se sníženým pořadím
Přidávají kvadratický v latentní proměnné do třídy RR-VGLM. Výsledkem je zvonovitá křivka, kterou lze přizpůsobit každé odpovědi, jako funkce latentní proměnné. R = 2, jeden má povrchy ve tvaru zvonu jako funkci 2latentních proměnných --- něco podobného a rozdělit normální rozdělení Konkrétní aplikace QRR-VGLM najdete v ekologie, v oboru vícerozměrná analýza volala vysvěcení.
Jako konkrétní příklad QRR-VGLM s hodnocením 1 zvažte Poissonova data s S druh. Model pro druh s je Poissonova regrese
pro . Parametrizace zcela vpravo, která používá symboly má zvláštní ekologický význam, protože se vztahují k danému druhu hojnost, optimální a tolerance resp. Například tolerance je měřítkem šířky výklenku a velká hodnota znamená, že tento druh může žít v široké škále prostředí. Ve výše uvedené rovnici by člověk potřeboval za účelem získání křivky ve tvaru zvonu.
QRR-VGLM vyhovují Gaussovým ordinačním modelům podle odhadu maximální pravděpodobnosti a jsou příkladem přímá gradientová analýza.v CQO ()
funkce v VGAM
balíček aktuálně volá optim ()
hledat optimální , a vzhledem k tomu, že je snadné vypočítat skóre stránek a vhodně se k nim hodit zobecněný lineární model Funkce je pojmenována podle zkratky CQO, což znamenáomezené kvadratické vysvěcení: omezený je pro přímou analýzu gradientu (existují proměnné prostředí a jejich lineární kombinace se považuje za latentní proměnnou) a kvadratický je pro kvadratickou formu v latentních proměnných na Bohužel QRR-VGLM jsou citlivé na odlehlé hodnoty v obou odpovědných a vysvětlujících proměnných a jsou výpočetně nákladné a mohou poskytnout spíše místní řešení než globální řešení. QRR-VGLM byly navrženy v roce 2004.[10]
Viz také
- zobecněné lineární modely
- R (software)
- Regresní analýza
- Statistický model
- Přirozená exponenciální rodina
Reference
- ^ A b C Yee, T. W. (2015). Vektorové generalizované lineární a aditivní modely: S implementací v R. New York, USA: Springer. ISBN 978-1-4939-2817-0.
- ^ "Vektorové zobecněné lineární modely". 2016-01-18.
- ^ Yee, T. W .; Hastie, T. J. (2003). "Zobecněné lineární modely se sníženým pořadím". Statistické modelování. 3 (1): 15–41. CiteSeerX 10.1.1.36.3700. doi:10.1191 / 1471082x03st045oa.
- ^ Yee, T. W. (1996). "Zobecněné lineární modely se sníženým pořadím se dvěma lineárními prediktory". Výpočetní statistika a analýza dat. 71: 889–902. doi:10.1016 / j.csda.2013.01.012.
- ^ Yee, T. W .; Hadi, A. F. (2014). "Modely interakce mezi řádky a sloupci s implementací R.". Výpočetní statistika. 29 (6): 1427–1445. doi:10.1007 / s00180-014-0499-9.
- ^ Hastie, T. J .; Tibshirani, R. J. (1990). Zobecněné aditivní modely. London: Chapman and Hall.
- ^ Wood, S. N. (2017). Zobecněné aditivní modely: Úvod do R. (druhé vydání). London: Chapman and Hall. ISBN 9781498728331.
- ^ Yee, T. W .; Wild, C. J. (1996). Msgstr "Vektorové generalizované aditivní modely". Journal of the Royal Statistical Society, Series B. 58 (3): 481–493.
- ^ Eilers, P. H. C .; Marx, B. D. (1996). "Flexibilní vyhlazení s B-drážkami a pokutami". Statistická věda. 11 (2): 89–121. CiteSeerX 10.1.1.47.4521. doi:10.1214 / ss / 1038425655.
- ^ Yee, T. W. (2004). "Nová technika pro maximální pravděpodobnost kanonického Gaussova svěcení". Ekologické monografie. 74 (4): 685–701. doi:10.1890/03-0078.
Další čtení
- Hilbe, Joseph (2011). Negativní binomická regrese (2. vyd.). Cambridge: Cambridge University Press. ISBN 978-0-521-19815-8.