Kvantilní regrese - Quantile regression
![]() | Tento článek může vyžadovat vyčištění setkat se s Wikipedií standardy kvality.Prosinec 2010) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
Kvantilní regrese je typ regresní analýza používá se ve statistice a ekonometrii. Vzhledem k tomu, že metoda nejmenších čtverců odhaduje podmíněné znamenat proměnné odezvy napříč hodnotami proměnných prediktorů, kvantilní regrese odhaduje podmíněné medián (nebo jiný kvantily ) proměnné odpovědi. Kvantilová regrese je rozšíření lineární regrese používané, když nejsou splněny podmínky lineární regrese.
Výhody a aplikace
Jednou z výhod kvantilní regrese ve srovnání s běžnou regrese nejmenších čtverců je, že odhady kvantilové regrese jsou robustnější vůči odlehlým hodnotám v měření odezvy. Hlavní přitažlivost kvantilové regrese však jde dále a je výhodná, když jsou předmětem zájmu podmíněné kvantilové funkce. Různá opatření centrální tendence a statistická disperze může být užitečné pro získání komplexnější analýzy vztahu mezi proměnnými.[1]
v ekologie byla navržena a použita kvantilová regrese jako způsob, jak objevit užitečnější prediktivní vztahy mezi proměnnými v případech, kdy neexistuje žádný vztah nebo existuje jen slabý vztah mezi prostředky těchto proměnných. Potřeba a úspěch kvantilní regrese v ekologii byla přičítána složitost interakcí mezi různými faktory vedoucími k data s nestejnou variací jedné proměnné pro různé rozsahy jiné proměnné.[2]
Další aplikace kvantilové regrese je v oblastech růstových grafů, kde se k testování abnormálního růstu běžně používají percentilové křivky.[3][4]
Matematika
Matematické formy vyplývající z kvantilové regrese jsou odlišné od forem vznikajících v metoda nejmenších čtverců. Metoda nejmenších čtverců vede k zvážení problémů v vnitřní produktový prostor, zahrnující projekce do podprostorů, a tak lze problém minimalizace čtvercových chyb snížit na problém v numerická lineární algebra. Kvantilní regrese nemá tuto strukturu a místo toho vede k problémům v lineární programování které lze vyřešit pomocí simplexní metoda.
Dějiny
Myšlenka odhadu střední regrese sklon, hlavní teorém o minimalizaci součtu absolutních odchylek a geometrický algoritmus pro konstrukci střední regrese byl navržen v roce 1760 Ruđer Josip Bošković, a Jezuitský katolík kněz z Dubrovníku.[1]:4[5] Zajímal se o elipticitu Země, vycházel z návrhu Isaaca Newtona, že jeho rotace by mohla způsobit její vyboulení na rovník s odpovídajícím zploštěním na pólech.[6] Nakonec vytvořil první geometrický postup pro stanovení rovník rotující planeta od tří pozorování povrchového prvku. Ještě důležitější pro kvantilovou regresi byl, že dokázal vyvinout první důkaz kritéria nejméně absolutního kritéria a předcházel nejmenším čtvercům zavedeným Legendre v roce 1805 o padesát let.[7]
Ostatní myslitelé začali stavět na Boškovićově myšlence, jako např Pierre-Simon Laplace, který vyvinul takzvanou „metodickou situaci“. To vedlo k Francis Edgeworth medián množného čísla[8] - geometrický přístup k mediánové regrese - a je považován za předchůdce simplexní metoda.[7] Díla Boškoviće, Laplaceova a Edgewortha byla uznána jako předehra k Roger Koenker příspěvky k kvantilové regrese.
Mediánové regresní výpočty pro větší datové soubory jsou ve srovnání s metodou nejmenších čtverců poměrně zdlouhavé, a proto historicky generuje nedostatek popularity mezi statistiky až do širokého přijetí počítačů ve druhé polovině 20. století.
Kvantily
Nechat být náhodná proměnná se skutečnou hodnotou s kumulativní distribuční funkce . The th kvantil Y je dán vztahem
kde
Definujte funkce ztráty tak jako , kde je funkce indikátoru.
Specifický kvantil lze nalézt minimalizací očekávané ztráty s ohledem na :[1](str. 5–6)
To lze prokázat výpočtem derivace očekávané ztráty pomocí aplikace Leibnizovo integrální pravidlo, nastavení na 0 a nechat být řešením
Tato rovnice se redukuje na
a pak do
Proto je th kvantil náhodné proměnné Y.
Příklad
Nechat být diskrétní náhodná proměnná, která nabývá hodnot 1,2, .., 9 se stejnou pravděpodobností. Úkolem je najít medián Y, a tedy hodnotu je vybrán. Očekávaná ztráta, L(u), je
Od té doby je konstanta, lze ji vyjmout z funkce očekávané ztráty (to platí pouze v případě, že ). Pak v u=3,
Předpokládejme to u se zvyšuje o 1 jednotku. Poté se očekávaná ztráta změní o o změně u do 4. Pokud, u= 5, očekávaná ztráta je
a jakákoli změna v u zvýší očekávanou ztrátu. Tím pádem u= 5 je medián. Tabulka níže ukazuje očekávanou ztrátu (děleno ) pro různé hodnoty u.
u | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Očekávaná ztráta | 36 | 29 | 24 | 21 | 20 | 21 | 24 | 29 | 36 |
Intuice
Zvážit a nechte q být počáteční odhad pro . Očekávaná ztráta hodnocena na q je
Abychom minimalizovali očekávanou ztrátu, přesuneme hodnotu q trochu zjistit, zda očekávaná ztráta poroste nebo poklesne. Předpokládejme, že porosteme q o 1 jednotku. Pak by došlo ke změně očekávané ztráty
První člen rovnice je a druhý člen rovnice je . Proto je změna funkce očekávané ztráty negativní právě tehdy , to je právě tehdy q je menší než medián. Podobně, pokud redukujeme q o 1 jednotku, změna funkce očekávané ztráty je záporná právě tehdy q je větší než medián.
Abychom minimalizovali funkci očekávané ztráty, zvýšili bychom (snížili) L(q) pokud q je menší (větší) než medián, dokud q dosáhne mediánu. Myšlenkou minimalizace je spočítat počet bodů (vážených hustotou), které jsou větší nebo menší než q a pak se přesunout q do bodu, kdy q je větší než % bodů.
Ukázkový kvantil
The ukázkový kvantil lze získat řešením následujícího problému s minimalizací
- , kde funkce je funkce nakloněné absolutní hodnoty. Intuice je stejná jako u populačního kvantilu.
Podmíněný kvantil a kvantilní regrese
Předpokládejme podmíněná kvantilová funkce je . Vzhledem k distribuční funkci , lze získat řešením
Vyřešení analogového vzorku dává odhad .
Výpočet
Problém minimalizace lze přeformulovat jako a lineární programování problém
kde
- ,
Simplexní metody[1]:181 nebo vnitřní bodové metody[1]:190 lze použít k řešení problému lineárního programování.
Asymptotické vlastnosti
Pro , za určitých pravidelných podmínek, je asymptoticky normální:
kde
- a
Přímý odhad asymptotické variance-kovarianční matice není vždy uspokojivý. Odvození parametrů kvantilní regrese lze provést pomocí regresních testů pořadí nebo pomocí metod bootstrap.[9]
Ekvivariance
Vidět invariantní odhad pro pozadí na invariance nebo viz ekvivariance.
Škálovatelnost
Pro všechny a
Posun ekvivariance
Pro všechny a
Rovnocennost s reparametrizací designu
Nechat být kdokoli nesingulární matice a
Invariance k monotónním transformacím
Li je neklesající funkce na 'R, následující invariance majetek platí:
Příklad (1):
Li a , pak . Střední regrese nemá od té doby stejnou vlastnost
Bayesovské metody kvantilní regrese
Protože kvantilová regrese obvykle nepředpokládá parametrickou pravděpodobnost podmíněného rozdělení Y | X, fungují Bayesovské metody s funkční pravděpodobností. Výhodnou volbou je asymetrická pravděpodobnost Laplacian,[10] protože režim výsledného zadku pod plochým předcházejícím je obvyklým odhadem kvantilové regrese. Zadní závěr je však třeba interpretovat opatrně. Yang, Wang a He[11] poskytla úpravu zadní odchylky pro platný závěr. Kromě toho Yang a He[12] ukázal, že je možné mít asymptoticky platný zadní závěr, pokud je pracovní pravděpodobnost zvolena jako empirická.
Metody strojového učení pro kvantilní regrese
Kromě jednoduché lineární regrese existuje několik metod strojového učení, které lze rozšířit na kvantilovou regresi. Přepnutí ze čtvercové chyby na nakloněnou funkci ztráty absolutní hodnoty umožňuje, aby se algoritmy učení založené na gradientním sestupu naučily specifikovaný kvantil místo střední hodnoty. To znamená, že můžeme použít všechny nervová síť a hluboké učení algoritmy kvantilní regrese.[13][14] U kvantitativní regrese jsou k dispozici také algoritmy učení založené na stromech (viz např. Kvantilní regrese lesy[15], jako jednoduché zobecnění Náhodné lesy ).
Cenzurovaná kvantilní regrese
Pokud proměnná odpovědi podléhá cenzuře, podmíněný průměr není identifikovatelný bez dalších distribučních předpokladů, ale podmíněný kvantil je často identifikovatelný. Pro nedávné práce na cenzurované kvantilní regrese viz: Portnoy[16]a Wang a Wang[17]
Příklad (2):
Nechat a . Pak . Toto je model cenzurované kvantilní regrese: odhadované hodnoty lze získat bez jakýchkoli distribučních předpokladů, ale za cenu výpočetní obtížnosti,[18] některým se lze vyhnout použitím jednoduchého třístupňového cenzurovaného postupu kvantilní regrese jako aproximace.[19]
Pro náhodnou cenzuru na proměnných odezvy byla cenzurovaná kvantilová regrese Portnoye (2003)[16] poskytuje konzistentní odhady všech identifikovatelných kvantilových funkcí na základě vhodného zvážení každého cenzurovaného bodu.
Implementace
Četné statistické softwarové balíčky zahrnují implementace kvantilové regrese:
- Matlab funkce
kvantový
[20] - Názory, od verze 6.[Citace je zapotřebí ]
- gretl má
kvantový
příkaz.[21] - R nabízí několik balíčků, které implementují kvantilovou regresi
kvantový
podle Roger Koenker,[22] ale takégbm
,[23]quantregForest
[24],qrnn
[25] aqgam
[26] - Krajta, přes
Scikit-zahrada
[27] astatsmodels
[28] - SAS přes
proc quantreg
(ver. 9.2) aproc quantselect
(ver. 9.3).[29] - Stata prostřednictvím
qreg
příkaz.[30][31] - Vowpal Wabbit, přes
--loss_function kvantil
.[32] - Statistické modely balíček pro Python, přes
QuantReg
[33] - Mathematica balík
QuantileRegression.m
[34] hostováno v projektu MathematicaForPrediction na GitHubu.
Reference
- ^ A b C d E Koenker, Roger (2005). Kvantilní regrese. Cambridge University Press. str.146 –7. ISBN 978-0-521-60827-5.CS1 maint: ref = harv (odkaz)
- ^ Cade, Brian S .; Poledne, Barry R. (2003). „Jemný úvod do kvantilové regrese pro ekology“ (PDF). Hranice v ekologii a životním prostředí. 1 (8): 412–420. doi:10.2307/3868138. JSTOR 3868138.
- ^ Wei, Y .; Pere, A .; Koenker, R .; On, X. (2006). "Metody kvantilní regrese pro referenční růstové grafy". Statistika v medicíně. 25 (8): 1369–1382. doi:10.1002 / sim.2271. PMID 16143984.CS1 maint: ref = harv (odkaz)
- ^ Wei, Y .; On, X. (2006). "Grafy podmíněného růstu (s diskusemi)". Annals of Statistics. 34 (5): 2069–2097 a 2126–2131. arXiv:matematika / 0702634. doi:10.1214/009053606000000623.CS1 maint: ref = harv (odkaz)
- ^ Stigler, S. (1984). „Boscovich, Simpson a rukopisná poznámka z roku 1760 o přizpůsobení lineárnímu vztahu“. Biometrika. 71 (3): 615–620. doi:10.1093 / biomet / 71.3.615.
- ^ Koenker, Roger (2005). Kvantilní regrese. Cambridge: Cambridge University Press. str.2. ISBN 9780521845731.
- ^ A b Furno, Marilena; Vistocco, Domenico (2018). Kvantilní regrese: Odhad a simulace. Hoboken, NJ: John Wiley & Sons. str. xv. ISBN 9781119975281.
- ^ Koenker, Roger (srpen 1998). „Galton, Edgeworth, Frisch a vyhlídky na kvantilní regresi v ekonomii“ (PDF). UIUC.edu. Citováno 22. srpna 2018.
- ^ Kocherginsky, M .; On, X .; Mu, Y. (2005). "Intervaly praktické spolehlivosti pro regresní kvantily". Journal of Computational and Graphical Statistics. 14 (1): 41–55. doi:10.1198 / 106186005X27563.
- ^ Kozumi, H .; Kobayashi, G. (2011). „Gibbsovy metody vzorkování pro Bayesovu kvantilovou regresi“ (PDF). Journal of Statistical Computation and Simulation. 81 (11): 1565–1578. doi:10.1080/00949655.2010.496117.
- ^ Yang, Y .; Wang, H. X .; On, X. (2016). „Zadní závěr v Bayesovské kvantilní regrese s pravděpodobností asymetrické Laplaceovy“. Mezinárodní statistický přehled. 84 (3): 327–344. doi:10.1111 / insr.12114. hdl:2027.42/135059.
- ^ Yang, Y .; On, X. (2010). "Bayesiánská empirická pravděpodobnost kvantilní regrese". Annals of Statistics. 40 (2): 1102–1131. arXiv:1207.5378. doi:10.1214 / 12-AOS1005.
- ^ Petneházi, Gábor (2019-08-21). „QCNN: Kvantilní konvoluční neurální síť“. arXiv:1908.07978 [cs.LG ].
- ^ Rodrigues, Filipe; Pereira, Francisco C. (2018-08-27). „Mimo očekávání: Hluboká společná střední a kvantilní regrese pro časoprostorové problémy“. arXiv:1808.08798 [stat ].
- ^ Meinshausen, Nicolai (2006). „Kvantilní regresní lesy“ (PDF). Journal of Machine Learning Research. 7 (6): 983–999.
- ^ A b Portnoy, S.L. (2003). "Cenzurované regresní kvantily". Journal of the American Statistical Association. 98 (464): 1001–1012. doi:10.1198/016214503000000954.
- ^ Wang, H.; Wang, L. (2009). "Lokálně vážená cenzurovaná kvantilní regrese". Journal of the American Statistical Association. 104 (487): 1117–1128. CiteSeerX 10.1.1.504.796. doi:10.1198 / jasa.2009.tm08230.
- ^ Powell, James L. (1986). "Cenzurované regresní kvantily". Journal of Econometrics. 32 (1): 143–155. doi:10.1016/0304-4076(86)90016-3.
- ^ Černozhukov, Victor; Hong, Han (2002). „Třístupňová cenzurovaná kvantilní regrese a mimomanželské záležitosti“. J. Amer. Statist. Doc. 97 (459): 872–882. doi:10.1198/016214502388618663.
- ^ "quantreg (x, y, tau, order, Nboot) - výměna souborů - MATLAB Central". www.mathworks.com. Citováno 2016-02-01.
- ^ „Gretl Command Reference“ (PDF). Dubna 2017.
- ^ "quantreg: Kvantilní regrese". R Projekt. 2018-12-18.
- ^ „gbm: Zobecněné zesílené regresní modely“. R Projekt. 2019-01-14.
- ^ "quantregForest: kvantilní regrese lesy". R Projekt. 2017-12-19.
- ^ „qrnn: Neuronové sítě kvantilní regrese“. R Projekt. 2018-06-26.
- ^ „qgam: modely hladké aditivní kvantilní regrese“. R Projekt. 2019-05-23.
- ^ „Kvantilní regresní lesy“. Scikit-zahrada. Citováno 3. ledna 2019.
- ^ "Statsmodels: Quantile Regression". Statistické modely. Citováno 15. listopadu 2019.
- ^ „Úvod do kvantilové regrese a procedury QUANTREG“ (PDF). Podpora SAS.
- ^ "qreg - kvantilní regrese" (PDF). Manuál Stata.
- ^ Cameron, A. Colin; Trivedi, Pravin K. (2010). „Kvantilní regrese“. Mikroekonomie pomocí Stata (Přepracované vydání.). College Station: Stata Press. 211–234. ISBN 978-1-59718-073-3.
- ^ „JohnLangford / vowpal_wabbit“. GitHub. Citováno 2016-07-09.
- ^ "Kvantilová regrese". statsmodels.org. Citováno 3. ledna 2019.
- ^ „QuantileRegression.m“. MathematicaForPrediction. Citováno 3. ledna 2019.
Další čtení
- Angrist, Joshua D.; Pischke, Jörn-Steffen (2009). „Kvantilní regrese“. Převážně neškodná ekonometrie: empirický společník. Princeton University Press. 269–291. ISBN 978-0-691-12034-8.
- Koenker, Roger (2005). Kvantilní regrese. Cambridge University Press. ISBN 978-0-521-60827-5.CS1 maint: ref = harv (odkaz)