Perspektivy regularizace na strojích s podporou vektorů - Regularization perspectives on support-vector machines

Perspektivy regularizace na strojích s podporou vektorů poskytnout způsob tlumočení podpůrné vektorové stroje (SVM) v kontextu jiných algoritmů strojového učení. Algoritmy SVM kategorizují vícerozměrný data s cílem přizpůsobit tréninková sada data dobře, ale také se vyhnout nadměrné vybavení, takže řešení zevšeobecňuje do nových datových bodů. Regulace Cílem algoritmů je také přizpůsobit data tréninkové sady a zabránit nadměrnému vybavení. Dělají to výběrem fitovací funkce, která má malou chybu na tréninkové sadě, ale také není příliš komplikovaná, kde komplikované funkce jsou funkce s vysokou normy v některých funkční prostor. Konkrétně Tichonovova regularizace algoritmy vybírají funkci, která minimalizuje součet chyby tréninkové sady plus normu funkce. Chyba tréninkové sady lze vypočítat pomocí různých ztrátové funkce. Například, regularizované nejmenší čtverce je zvláštní případ regularizace Tichonova pomocí druhá ztráta chyby jako ztrátová funkce.^[1]

Perspektivy regularizace na strojích s podporou vektorů interpretují SVM jako zvláštní případ Tikhonovovy regularizace, konkrétně Tikhonovovy regularizace s ztráta závěsu pro funkci ztráty. To poskytuje teoretický rámec, pomocí kterého lze analyzovat algoritmy SVM a porovnat je s jinými algoritmy se stejnými cíli: zevšeobecnit bez nadměrné vybavení. SVM poprvé navrhl v roce 1995 Corinna Cortes a Vladimír Vapnik a geometricky orámován jako metoda hledání hyperplanes které se mohou oddělit vícerozměrný data do dvou kategorií.^[2] Tato tradiční geometrická interpretace SVM poskytuje užitečnou intuici o tom, jak SVM fungují, ale je těžké ji spojit s jinými strojové učení techniky, jak se vyhnout přeplnění, jako regulace, předčasné zastavení, řídkost a Bayesovský závěr. Jakmile však bylo zjištěno, že SVM je také speciální případ Tikhonovovy regularizace, regularizační pohledy na SVM poskytly teorii nezbytnou k přizpůsobení SVM v širší třídě algoritmů.^[1]^[3]^[4] To umožnilo podrobné srovnání mezi SVM a jinými formami Tikhonovovy regularizace a teoretické základy, proč je výhodné použít funkci ztráty SVM, ztrátu závěsu.^[5]

Teoretické základy

V statistická teorie učení framework, an algoritmus je strategie pro výběr a funkce ${ displaystyle f colon mathbf {X} to mathbf {Y}}$ dostal tréninkovou sadu ${ displaystyle S = {(x_ {1}, y_ {1}), ldots, (x_ {n}, y_ {n}) }}$ vstupů ${ displaystyle x_ {i}}$ a jejich štítky ${ displaystyle y_ {i}}$ (štítky jsou obvykle ${ displaystyle pm 1}$ ). Regulace strategie se vyhnout nadměrné vybavení výběrem funkce, která vyhovuje datům, ale není příliš složitá. Konkrétně:

{ displaystyle f = { underset {f in { mathcal {H}}} { operatorname {argmin}}} left {{ frac {1} {n}} sum _ {i = 1} ^ {n} V (y_ {i}, f (x_ {i})) + lambda | f | _ { mathcal {H}} ^ {2} vpravo },}

kde ${ displaystyle { mathcal {H}}}$ je prostor hypotézy^[6] funkcí, ${ displaystyle V colon mathbf {Y} krát mathbf {Y} do mathbb {R}}$ je funkce ztráty, ${ displaystyle | cdot | _ { mathcal {H}}}$ je norma o hypotézovém prostoru funkcí a ${ displaystyle lambda v mathbb {R}}$ je parametr regularizace.^[7]

Když ${ displaystyle { mathcal {H}}}$ je reprodukce jádra Hilbertova prostoru, existuje a funkce jádra ${ displaystyle K colon mathbf {X} krát mathbf {X} do mathbb {R}}$ to lze napsat jako ${ displaystyle n krát n}$ symetrický pozitivní-definitivní matice ${ displaystyle mathbf {K}}$ . Podle reprezentativní věta,^[8]

{ displaystyle f (x_ {i}) = součet _ {j = 1} ^ {n} c_ {j} mathbf {K} _ {ij}, { text {and}} | f | _ { mathcal {H}} ^ {2} = langle f, f rangle _ { mathcal {H}} = sum _ {i = 1} ^ {n} sum _ {j = 1} ^ { n} c_ {i} c_ {j} K (x_ {i}, x_ {j}) = c ^ {T} mathbf {K} c.}

Speciální vlastnosti ztráty závěsu

Funkce ztráty závěsu a chybné klasifikace

Nejjednodušší a nejintuitivnější funkcí ztráty pro kategorizaci je ztráta při nesprávné klasifikaci nebo ztráta 0–1, což je 0, pokud ${ displaystyle f (x_ {i}) = y_ {i}}$ a 1 pokud ${ displaystyle f (x_ {i}) neq y_ {i}}$ , tj Funkce Heaviside step na ${ displaystyle -y_ {i} f (x_ {i})}$ . Tato funkce ztráty však není konvexní, což velmi komplikuje výpočetní minimalizaci problému regularizace. Hledáme tedy konvexní náhražky ztráty 0–1. Ztráta závěsu, ${ displaystyle V { big (} y_ {i}, f (x_ {i}) { big)} = { big (} 1-yf (x) { big)} _ {+}}$ , kde ${ displaystyle (s) _ {+} = max (s, 0)}$ , poskytuje takové a konvexní relaxace. Ztráta závěsu je ve skutečnosti nejtěsnější konvexní horní hranice na funkci ztráty při chybné klasifikaci 0–1,^[4] as nekonečnými daty vrací Bayes -optimální řešení:^[5]^[9]

{ displaystyle f_ {b} (x) = { začátek {případů} 1, & p (1 mid x)> p (-1 mid x), - 1, & p (1 mid x)

Derivace

Ukázalo se, že problém s regularizací Tichonova je ekvivalentní s tradičními formulacemi SVM vyjádřením ve smyslu ztráty závěsu.^[10] Se ztrátou závěsu

{ displaystyle V { big (} y_ {i}, f (x_ {i}) { big)} = { big (} 1-yf (x) { big)} _ {+},}

kde ${ displaystyle (s) _ {+} = max (s, 0)}$ , stává se problém regularizace

{ displaystyle f = { underset {f in { mathcal {H}}} { operatorname {argmin}}} left {{ frac {1} {n}} sum _ {i = 1} ^ {n} { big (} 1-yf (x) { big)} _ {+} + lambda | f | _ { mathcal {H}} ^ {2} right }.}

Vynásobením ${ displaystyle 1 / (2 lambda)}$ výnosy

{ displaystyle f = { underset {f in { mathcal {H}}} { operatorname {argmin}}} left {C sum _ {i = 1} ^ {n} { big (} 1-yf (x) { big)} _ {+} + { frac {1} {2}} | f | _ { mathcal {H}} ^ {2} right }}

s ${ displaystyle C = 1 / (2 lambda n)}$ , což odpovídá standardnímu problému minimalizace SVM.

Poznámky a odkazy

^ ^A ^b Rosasco, Lorenzo. „Regularizované nejmenší čtverce a podpora vektorových strojů“ (PDF).
^ Cortes, Corinna; Vladimir Vapnik (1995). „Support-Vector Networks“. Strojové učení. 20 (3): 273–297. doi:10.1007 / BF00994018.
^ Rifkin, Ryan (2002). Všechno staré je znovu nové: Nový pohled na historické přístupy ve strojovém učení (PDF). MIT (disertační práce).
^ ^A ^b Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.
^ ^A ^b Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A. (květen 2004). "Jsou funkce ztráty stejné?" Neurální výpočet. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.CS1 maint: používá parametr autoři (odkaz)
^ Prostor hypotézy je sada funkcí používaných k modelování dat v problému se strojovým učením. Každá funkce odpovídá hypotéze o struktuře dat. Funkce v prostoru hypotézy obvykle tvoří a Hilbertův prostor funkcí s normou vytvořenou ze ztrátové funkce.
^ Informace o výběru parametru najdete například v Wahba, Grace; Yonghua Wang (1990). "Kdy je optimální regulační parametr necitlivý na volbu ztrátové funkce". Komunikace ve statistice - teorie a metody. 19 (5): 1685–1700. doi:10.1080/03610929008830285.
^ Vidět Scholkopf, Bernhard; Ralf Herbrich; Alex Smola (2001). Věta zobecněného zástupce. Teorie výpočetního učení: Přednášky v informatice. Přednášky z informatiky. 2111. 416–426. CiteSeerX 10.1.1.42.8617. doi:10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.
^ Lin, Yi (červenec 2002). „Podpora vektorových strojů a Bayesova pravidla v klasifikaci“ (PDF). Těžba dat a vyhledávání znalostí. 6 (3): 259–275. doi:10.1023 / A: 1015469627679.
^ Podrobné odvození viz Rifkin, Ryan (2002). Všechno staré je znovu nové: Nový pohled na historické přístupy ve strojovém učení (PDF). MIT (disertační práce).

Evgeniou, Theodoros; Massimiliano Pontil; Tomaso Poggio (2000). „Regularizační sítě a podpora vektorových strojů“ (PDF). Pokroky ve výpočetní matematice. 13 (1): 1–50. doi:10.1023 / A: 1018946025316.
Joachims, Thorsten. „SVMlight“. Archivovány od originál dne 19. 4. 2015. Citováno 2012-05-18.
Vapnik, Vladimir (1999). Podstata teorie statistického učení. New York: Springer-Verlag. ISBN 978-0-387-98780-4.

[rosasco1-1] A ^b Rosasco, Lorenzo. „Regularizované nejmenší čtverce a podpora vektorových strojů“ (PDF).

[2] Cortes, Corinna; Vladimir Vapnik (1995). „Support-Vector Networks“. Strojové učení. 20 (3): 273–297. doi:10.1007 / BF00994018.

[3] Rifkin, Ryan (2002). Všechno staré je znovu nové: Nový pohled na historické přístupy ve strojovém učení (PDF). MIT (disertační práce).

[Lee_2012_67–81-4] A ^b Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.

[Rosasco_2004_1063–1076-5] A ^b Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A. (květen 2004). "Jsou funkce ztráty stejné?" Neurální výpočet. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.CS1 maint: používá parametr autoři (odkaz)

[6] Prostor hypotézy je sada funkcí používaných k modelování dat v problému se strojovým učením. Každá funkce odpovídá hypotéze o struktuře dat. Funkce v prostoru hypotézy obvykle tvoří a Hilbertův prostor funkcí s normou vytvořenou ze ztrátové funkce.

[7] Informace o výběru parametru najdete například v Wahba, Grace; Yonghua Wang (1990). "Kdy je optimální regulační parametr necitlivý na volbu ztrátové funkce". Komunikace ve statistice - teorie a metody. 19 (5): 1685–1700. doi:10.1080/03610929008830285.

[8] Vidět Scholkopf, Bernhard; Ralf Herbrich; Alex Smola (2001). Věta zobecněného zástupce. Teorie výpočetního učení: Přednášky v informatice. Přednášky z informatiky. 2111. 416–426. CiteSeerX 10.1.1.42.8617. doi:10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.

[9] Lin, Yi (červenec 2002). „Podpora vektorových strojů a Bayesova pravidla v klasifikaci“ (PDF). Těžba dat a vyhledávání znalostí. 6 (3): 259–275. doi:10.1023 / A: 1015469627679.

[10] Podrobné odvození viz Rifkin, Ryan (2002). Všechno staré je znovu nové: Nový pohled na historické přístupy ve strojovém učení (PDF). MIT (disertační práce).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]