Ordinální regrese - Ordinal regression
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
v statistika, ordinální regrese (nazývané také "pořadová klasifikace") je typ regresní analýza slouží k předpovídání pořadová proměnná, tj. proměnná, jejíž hodnota existuje v libovolném měřítku, kde je významné pouze relativní řazení mezi různými hodnotami. Lze jej považovat za přechodný problém mezi regresí a klasifikace.[1][2] Příklady ordinální regrese jsou objednal logit a objednaný probit. Pořádová regrese se často objevuje v společenské vědy, například při modelování preferenčních úrovní člověka (na stupnici od 1–5 pro „velmi špatné“ přes „vynikající“), stejně jako v vyhledávání informací. v strojové učení, lze také nazvat ordinální regrese hodnocení učení.[3][A]
Lineární modely pro ordinální regrese
Ordinální regrese lze provést pomocí a zobecněný lineární model (GLM), který odpovídá jak koeficientovému vektoru, tak množině prahové hodnoty do datové sady. Předpokládejme, že jeden má sadu pozorování, reprezentovanýchp vektory X1 přes Xn, s přidruženými odpovědi y1 přes yn, kde každý yi je pořadová proměnná na škále 1, ..., K.. Pro jednoduchost a bez ztráty obecnosti předpokládáme y je neklesající vektor, tj. yi yi + 1. K těmto údajům se hodí délkap vektor koeficientu w a soubor prahových hodnot θ1, ..., θK.−1 s majetkem, který θ1 < θ2 < ... < θK.−1. Tato sada prahových hodnot rozdělí řádek reálného čísla na K. disjunktní segmenty, odpovídající K. úrovně odezvy.
Model lze nyní formulovat jako
nebo kumulativní pravděpodobnost odpovědi y být nanejvýš i je dána funkcí σ (inverzní funkce propojení ) aplikovaný na lineární funkci X. Existuje několik možností σ; the logistická funkce
dává objednal logit model, při použití probit funkce dává objednaný probit Modelka. Třetí možností je použití exponenciální funkce
který dává model proporcionálních rizik.[4]
Latentní variabilní model
Probitovou verzi výše uvedeného modelu lze ospravedlnit za předpokladu existence skutečné hodnoty latentní proměnná (nepozorované množství) y *, určeno[5]
kde ε je normálně distribuováno s nulovou střední a jednotkovou odchylkou, podmíněné na X. Proměnná odezvy y výsledky z "neúplného měření" z y *, kde jeden určuje pouze interval, do kterého y * pády:
Definování θ0 = -∞ a θK. = ∞, výše lze shrnout jako y = k kdyby a jen kdyby θk−1 < y* ≤ θk.
Z těchto předpokladů lze odvodit podmíněné rozdělení y tak jako[5]
kde Φ je kumulativní distribuční funkce standardního normálního rozdělení a přebírá roli funkce inverzní vazby σ. The logaritmická pravděpodobnost modelu pro jeden příklad tréninku Xi, yi nyní lze uvést jako[5]
(za použití Iverson držák [yi = k].) Log-likelihood of ordered logit model is analogous, using the logistic function instead of Φ.[6]
Alternativní modely
Ve strojovém učení byly navrženy alternativy k latentně proměnným modelům ordinální regrese. Prvním výsledkem byla PRank, varianta perceptron algoritmus, který našel několik paralelních hyperplánů oddělujících různé řady; jeho výstupem je váhový vektor w a seřazený vektor K.−1 prahové hodnoty θ, jako v objednaných modelech logit / probit. Pravidlem predikce pro tento model je výstup nejmenší pozice k takhle šx < θk.[7]
Jiné metody se spoléhají na princip učení s velkou rezervou, který je také základem podporovat vektorové stroje.[8][9]
Další přístup uvádějí Rennie a Srebro, kteří si v objednaném logitu a objednaných probitových modelech uvědomují, že „ani jen vyhodnocení pravděpodobnosti prediktoru není přímočaré“, a proto navrhuje přizpůsobení běžných regresních modelů přizpůsobením běžných ztrátové funkce z klasifikace (např ztráta závěsu a ztráta protokolu ) na řadový případ.[10]
Software
ORCA (Ordinal Regression and Classification Algorithms) is a Octave / MATLAB framework including a wide set of ordinal regression methods.[11]
Balíčky R, které poskytují metody ordinální regrese, zahrnují MASS[12] a ordinální[13].
Viz také
Poznámky
- ^ Nesmí být zaměňována s naučit se hodnotit.
Reference
- ^ Winship, Christopher; Mare, Robert D. (1984). „Regresní modely s řadovými proměnnými“ (PDF). Americký sociologický přehled. 49 (4): 512–525. doi:10.2307/2095465. JSTOR 2095465.
- ^ Gutiérrez, P. A .; Pérez-Ortiz, M .; Sánchez-Monedero, J .; Fernández-Navarro, F .; Hervás-Martínez, C. (leden 2016). "Ordinal Regression Methods: Survey and Experimental Study". Transakce IEEE na znalostní a datové inženýrství. 28 (1): 127–146. doi:10.1109 / TKDE.2015.2457911. hdl:10396/14494. ISSN 1041-4347.
- ^ Shashua, Amnon; Levin, Anat (2002). Hodnocení s principem velké marže: Dva přístupy. NIPS.
- ^ McCullagh, Peter (1980). Msgstr "Regresní modely pro pořadová data". Journal of the Royal Statistical Society. Řada B (metodická). 42 (2): 109–142.
- ^ A b C Wooldridge, Jeffrey M. (2010). Ekonometrická analýza dat průřezu a panelu. MIT Stiskněte. str. 655–657. ISBN 9780262232586.
- ^ Agresti, Alan (23. října 2010). „Modelování běžných kategoriálních dat“ (PDF). Citováno 23. července 2015.
- ^ Crammer, Koby; Singer, Yoram (2001). Žert s hodnocením. NIPS.
- ^ Chu, Wei; Keerthi, S. Sathiya (2007). Msgstr "Podporovat vektorovou pořadovou regresi". Neurální výpočet. 19 (3): 792–815. CiteSeerX 10.1.1.297.3637. doi:10.1162 / neco.2007.19.3.792. PMID 17298234.
- ^ Herbrich, Ralf; Graepel, Thore; Obermayer, Klaus (2000). „Hranice velké marže pro ordinální regresi“. Pokroky v klasifikátorech velkých marží. MIT Stiskněte. str. 115–132.
- ^ Rennie, Jason D. M .; Srebro, Nathan (2005). Funkce ztráty pro úrovně preferencí: Regrese s diskrétními objednanými štítky (PDF). Proc. IJCAI Multidisciplinární seminář o pokroku v manipulaci s preferencemi.
- ^ orca: Ordinal Regression and Classification Algorithms, AYRNA, 2017-11-21, vyvoláno 2017-11-21
- ^ „Modern Applied Statistics with S, 4th ed“. www.stats.ox.ac.uk. Citováno 2020-07-15.
- ^ Christensen, Rune Haubo B. (06.06.2020), runehaubo / pořadové číslo, vyvoláno 2020-07-15
Další čtení
- Agresti, Alan (2010). Analýza pořadových kategoriálních údajů. Hoboken, NJ: Wiley. ISBN 978-0470082898.
- Greene, William H. (2012). Ekonometrická analýza (Sedmé vydání). Boston: Pearson Education. 824–842. ISBN 978-0-273-75356-8.
- Hardin, James; Hilbe, Josephe (2007). Zobecněné lineární modely a rozšíření (2. vyd.). College Station: Stata Press. ISBN 978-1-59718-014-6.