Statistická teorie učení - Statistical learning theory

Statistická teorie učení je rámec pro strojové učení kresba z polí statistika a funkční analýza.^[1]^[2] Teorie statistického učení se zabývá problémem nalezení prediktivní funkce založené na datech. Teorie statistického učení vedla k úspěšným aplikacím v oblastech, jako je počítačové vidění, rozpoznávání řeči, a bioinformatika.

Úvod

Cílem učení je porozumění a predikce. Učení spadá do mnoha kategorií, včetně učení pod dohledem, neřízené učení, online učení, a posilování učení. Z pohledu teorie statistického učení se nejlépe rozumí učení pod dohledem.^[3] Kontrolované učení zahrnuje učení se od tréninková sada dat. Každý bod tréninku je dvojice vstup-výstup, kde se vstup mapuje na výstup. Problém učení spočívá v odvození funkce, která se mapuje mezi vstupem a výstupem, takže naučenou funkci lze použít k předpovědi výstupu z budoucího vstupu.

V závislosti na typu výstupu jsou kontrolované problémy s učením buď problémy s regrese nebo problémy klasifikace. Pokud má výstup souvislý rozsah hodnot, jedná se o regresní problém. Použitím Ohmův zákon jako příklad lze provést regresi s napětím jako vstupem a proudem jako výstupem. Regrese by zjistila funkční vztah mezi napětím a proudem ${ displaystyle R}$ , takový, že

{ displaystyle V = IR}

Problémy s klasifikací jsou ty, pro které bude výstupem prvek z diskrétní sady štítků. Klasifikace je pro aplikace strojového učení velmi běžná. v Rozpoznávání obličeje například obraz tváře osoby by byl vstup a výstupní štítek by bylo jméno této osoby. Vstup by byl reprezentován velkým vícerozměrným vektorem, jehož prvky představují pixely na obrázku.

Po načtení funkce založené na datech tréninkové sady je tato funkce ověřena na testovací sadě dat, což jsou data, která se v tréninkové sadě neobjevila.

Formální popis

Vzít ${ displaystyle X}$ být vektorový prostor všech možných vstupů a ${ displaystyle Y}$ pro vektorový prostor všech možných výstupů. Teorie statistického učení zaujímá perspektivu, že existují určité neznámé rozdělení pravděpodobnosti přes produktový prostor ${ displaystyle Z = X krát Y}$ , tj. existují nějaké neznámé ${ displaystyle p (z) = p ({ vec {x}}, y)}$ . Tréninkový set je tvořen ${ displaystyle n}$ vzorky z tohoto rozdělení pravděpodobnosti a je notován

{ displaystyle S = {({ vec {x}} _ {1}, y_ {1}), tečky, ({ vec {x}} _ {n}, y_ {n}) } = {{ vec {z}} _ {1}, tečky, { vec {z}} _ {n} }}

Každý ${ displaystyle { vec {x}} _ {i}}$ je vstupní vektor z tréninkových dat a ${ displaystyle y_ {i}}$ je výstup, který tomu odpovídá.

V tomto formalismu spočívá problém odvození v nalezení funkce ${ displaystyle f: X až Y}$ takhle ${ displaystyle f ({ vec {x}}) sim y}$ . Nechat ${ displaystyle { mathcal {H}}}$ být prostorem funkcí ${ displaystyle f: X až Y}$ volal prostor hypotézy. Prostor hypotézy je prostor funkcí, v nichž bude algoritmus prohledávat. Nechat ${ displaystyle V (f ({ vec {x}}), y)}$ být funkce ztráty, metrika rozdílu mezi předpokládanou hodnotou ${ displaystyle f ({ vec {x}})}$ a skutečná hodnota ${ displaystyle y}$ . The očekávané riziko je definován jako

{ displaystyle I [f] = displaystyle int _ {X krát Y} V (f ({ vec {x}}), y) , p ({ vec {x}}, y) , d { vec {x}} , dy}

Cílová funkce, nejlepší možná funkce ${ displaystyle f}$ které lze vybrat, je dáno ${ displaystyle f}$ to uspokojuje

{ displaystyle f = inf _ {h in { mathcal {H}}} já [h]}

Protože rozdělení pravděpodobnosti ${ displaystyle p ({ vec {x}}, y)}$ není známo, musí být použito měření míry očekávaného rizika. Toto opatření je založeno na tréninkové sadě, vzorku z tohoto neznámého rozdělení pravděpodobnosti. Říká se tomu empirické riziko

{ displaystyle I_ {S} [f] = { frac {1} {n}} displaystyle sum _ {i = 1} ^ {n} V (f ({ vec {x}} _ {i} ), y_ {i})}

Algoritmus učení, který volí funkci ${ displaystyle f_ {S}}$ že se minimalizuje empirické riziko empirická minimalizace rizik.

Funkce ztráty

Volba funkce ztráty je určujícím faktorem funkce ${ displaystyle f_ {S}}$ který bude vybrán algoritmem učení. Funkční ztráta také ovlivňuje míru konvergence algoritmu. Je důležité, aby funkce ztráty byla konvexní.^[4]

Používají se různé ztrátové funkce v závislosti na tom, zda je problém regresní nebo klasifikační.

Regrese

Nejběžnější ztrátovou funkcí pro regresi je funkce druhé mocniny (známá také jako L2-norma ). Tato známá funkce ztráty se používá v Obyčejná regrese nejmenších čtverců. Formulář je:

{ displaystyle V (f ({ vec {x}}), y) = (y-f ({ vec {x}})) ^ {2}}

Ztráta absolutní hodnoty (známá také jako L1-norma ) se také někdy používá:

{ displaystyle V (f ({ vec {x}}), y) = | y-f ({ vec {x}}) |}

Klasifikace

V jistém smyslu 0-1 funkce indikátoru je pro klasifikaci nejpřirozenější ztrátovou funkcí. Má hodnotu 0, pokud je predikovaný výstup stejný jako skutečný výstup, a má hodnotu 1, pokud se predikovaný výstup liší od skutečného výstupu. Pro binární klasifikaci s ${ displaystyle Y = {- 1,1 }}$ , tohle je:

{ displaystyle V (f ({ vec {x}}), y) = theta (-yf ({ vec {x}}))}

kde ${ displaystyle theta}$ je Funkce Heaviside step.

Regulace

Tento obrázek představuje příklad overfittingu ve strojovém učení. Červené tečky představují data tréninkové sady. Zelená čára představuje skutečný funkční vztah, zatímco modrá čára ukazuje naučenou funkci, která se stala obětí overfittingu.

Při problémech se strojovým učením vzniká hlavní problém nadměrné vybavení. Protože učení je problém predikce, cílem není najít funkci, která by se nejvíce shodovala s (dříve pozorovanými) daty, ale najít tu, která bude nejpřesněji předpovídat výstup z budoucího vstupu. Empirická minimalizace rizik nese toto riziko overfittingu: nalezení funkce, která přesně odpovídá datům, ale nepředpovídá dobře budoucí výstup.

Overfitting je příznačný pro nestabilní řešení; malá odchylka v datech tréninkové sady by způsobila velké rozdíly v naučené funkci. Je možné ukázat, že pokud lze zaručit stabilitu řešení, je zaručena také generalizace a konzistence.^[5]^[6] Regulace může vyřešit problém s nadměrným vybavením a dát stabilitu problému.

Regularizace lze dosáhnout omezením prostoru hypotéz ${ displaystyle { mathcal {H}}}$ . Běžným příkladem by bylo omezování ${ displaystyle { mathcal {H}}}$ na lineární funkce: lze to považovat za zmenšení standardního problému lineární regrese. ${ displaystyle { mathcal {H}}}$ lze také omezit na polynom stupně ${ displaystyle p}$ , exponenciály nebo ohraničené funkce na L1. Omezení prostoru hypotéz zamezuje nadměrnému vybavení, protože forma potenciálních funkcí je omezená, a proto neumožňuje volbu funkce, která dává empirické riziko libovolně blízké nule.

Jedním příkladem regularizace je Tichonovova regularizace. To spočívá v minimalizaci

{ displaystyle { frac {1} {n}} displaystyle sum _ {i = 1} ^ {n} V (f ({ vec {x}} _ {i}), y_ {i}) + gamma | f | _ { mathcal {H}} ^ {2}}

kde ${ displaystyle gamma}$ je pevný a kladný parametr, parametr regularizace. Regulace Tikhonov zajišťuje existenci, jedinečnost a stabilitu řešení.^[7]

Viz také

Reprodukce jádra Hilbertovy mezery jsou užitečnou volbou pro ${ displaystyle { mathcal {H}}}$ .
Metody proximálního gradientu pro učení

Reference

^ Trevor Hastie Robert Tibshirani, Jerome Friedman (2009) Prvky statistického učení, Springer-Verlag ISBN 978-0-387-84857-0.
^ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Základy strojového učení. USA, Massachusetts: MIT Press. ISBN 9780262018258.
^ Tomaso Poggio, Lorenzo Rosasco a kol. Statistická teorie učení a aplikace, 2012, Třída 1
^ Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M. a Verri A. 2004. Neurální výpočet Svazek 16, str. 1063-1076
^ Vapnik, V.N. a Chervonenkis, A.Y. 1971. O jednotné konvergenci relativních frekvencí událostí k jejich pravděpodobnostem. Teorie pravděpodobnosti a její aplikace Svazek 16, str. 264-280.
^ Mukherjee, S., Niyogi, P. Poggio, T. a Rifkin, R. 2006. Učící se teorie: stabilita je dostatečná pro zobecnění a nezbytná a dostatečná pro konzistenci empirické minimalizace rizik. Pokroky ve výpočetní matematice. Svazek 25, str. 161-193.
^ Tomaso Poggio, Lorenzo Rosasco a kol. Statistická teorie učení a aplikace, 2012, Třída 2

[1] Trevor Hastie Robert Tibshirani, Jerome Friedman (2009) Prvky statistického učení, Springer-Verlag ISBN 978-0-387-84857-0.

[2] Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Základy strojového učení. USA, Massachusetts: MIT Press. ISBN 9780262018258.

[3] Tomaso Poggio, Lorenzo Rosasco a kol. Statistická teorie učení a aplikace, 2012, Třída 1

[4] Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M. a Verri A. 2004. Neurální výpočet Svazek 16, str. 1063-1076

[5] Vapnik, V.N. a Chervonenkis, A.Y. 1971. O jednotné konvergenci relativních frekvencí událostí k jejich pravděpodobnostem. Teorie pravděpodobnosti a její aplikace Svazek 16, str. 264-280.

[6] Mukherjee, S., Niyogi, P. Poggio, T. a Rifkin, R. 2006. Učící se teorie: stabilita je dostatečná pro zobecnění a nezbytná a dostatečná pro konzistenci empirické minimalizace rizik. Pokroky ve výpočetní matematice. Svazek 25, str. 161-193.

[7] Tomaso Poggio, Lorenzo Rosasco a kol. Statistická teorie učení a aplikace, 2012, Třída 2

[1]

[2]

[3]

[4]

[5]

[6]

[7]