Stabilita (teorie učení) - Stability (learning theory) - Wikipedia
Stabilita, také známý jako algoritmická stabilita, je pojem v teorie výpočetního učení jak a algoritmus strojového učení je narušen malými změnami jeho vstupů. Stabilní algoritmus učení je algoritmus, u kterého se predikce příliš nezmění, když se tréninková data mírně upraví. Zvažte například algoritmus strojového učení, na který je trénován rozpoznat ručně psané dopisy abecedy s použitím 1 000 příkladů ručně psaných písmen a jejich štítků („A“ až „Z“) jako cvičné sady. Jedním ze způsobů, jak upravit tuto tréninkovou sadu, je vynechat příklad, takže je k dispozici pouze 999 příkladů ručně psaných písmen a jejich štítků. Stabilní algoritmus učení by vytvořil podobné klasifikátor s tréninkovými sadami s 1000 a 999 prvky.
Stabilitu lze studovat u mnoha typů problémů s učením, od výuka jazyků na inverzní problémy ve fyzice a inženýrství, protože je to spíše vlastnost procesu učení než typ informace, která se učí. Studie stability získala na důležitosti v roce 2006 teorie výpočetního učení v roce 2000, kdy se ukázalo, že má souvislost s zobecnění[Citace je zapotřebí ]. Ukázalo se, že zejména u velkých tříd učebních algoritmů empirická minimalizace rizik algoritmy, určité typy stability zajišťují dobré zobecnění.
Dějiny
Ústředním cílem při navrhování a systém strojového učení je zaručit, že učící algoritmus bude zevšeobecnit, nebo proveďte přesně nové příklady poté, co jste byli vyškoleni na konečný počet z nich. V 90. letech bylo dosaženo milníků v získávání mezí zobecnění algoritmy učení pod dohledem. Technika, která se historicky používala k prokázání zobecnění, měla ukázat, že algoritmus byl konzistentní, za použití jednotná konvergence vlastnosti empirických veličin k jejich prostředkům. Tato technika byla použita k získání mezí zobecnění pro velkou třídu empirická minimalizace rizik (ERM) algoritmy. Algoritmus ERM je takový, který vybírá řešení z prostoru hypotéz takovým způsobem, aby se minimalizovala empirická chyba na tréninkové sestavě .
Obecný výsledek, prokázaný Vladimír Vapnik pro binární klasifikační algoritmy ERM je to, že pro jakoukoli cílovou funkci a distribuci vstupu, jakýkoli prostor hypotézy s VC-rozměr , a příklady tréninku, algoritmus je konzistentní a vyprodukuje chybu tréninku, která je nanejvýš (plus logaritmické faktory) ze skutečné chyby. Výsledek byl později rozšířen na téměř ERM algoritmy s funkčními třídami, které nemají jedinečné minimalizátory.
Vapnikova práce s využitím toho, co se stalo známé jako Teorie VC, vytvořil vztah mezi zobecněním algoritmu učení a vlastnostmi prostoru hypotéz naučených funkcí. Tyto výsledky však nebylo možné aplikovat na algoritmy s hypotézovými prostory neomezené dimenze VC. Jinými slovy, tyto výsledky nelze použít, když se naučená informace vyznačuje příliš velkou složitostí, než aby ji bylo možné měřit. Některé z nejjednodušších algoritmů strojového učení - například pro regresi - mají prostory hypotéz s neomezenou dimenzí VC. Dalším příkladem jsou algoritmy pro výuku jazyků, které mohou vytvářet věty libovolné délky.
Analýza stability byla vyvinuta v roce 2000 pro teorie výpočetního učení a je alternativní metodou pro získání mezí zobecnění. Stabilita algoritmu je spíše vlastností procesu učení než přímou vlastností prostoru hypotézy , a lze jej posoudit pomocí algoritmů, které mají hypotézové prostory s neomezenou nebo nedefinovanou dimenzí VC, jako je nejbližší soused. Stabilní algoritmus učení je algoritmus, u kterého se naučená funkce příliš nemění, když je tréninková sada mírně upravena, například vynecháním příkladu. Míra Vynechejte jednu chybu se používá v algoritmu Cross Validation Leave One Out (CVloo) k vyhodnocení stability algoritmu učení s ohledem na funkci ztráty. Analýza stability jako taková je aplikací Analýza citlivosti na strojové učení.
Souhrn klasických výsledků
- Počátkem 20. století - Stabilita v teorii učení byla nejdříve popsána z hlediska kontinuity mapy učení , vysledovat Andrej Nikolajevič Tichonov.
- 1979 - Devroye a Wagner zjistili, že chování algoritmu „necháme jeden na řadě“ souvisí s jeho citlivostí na malé změny ve vzorku.[1]
- 1999 - Kearns a Ron objevili souvislost mezi konečnou dimenzí VC a stabilitou.[2]
- 2002 - V mezníkovém článku Bousquet a Elisseeff navrhli pojem stejnoměrná stabilita hypotézy algoritmu učení a ukázal, že implikuje nízkou chybu generalizace. Jednotná stabilita hypotézy je však silná podmínka, která se nevztahuje na velké třídy algoritmů, včetně algoritmů ERM s prostorem hypotézy pouze dvou funkcí.[3]
- 2002 - Kutin a Niyogi rozšířili výsledky Bousqueta a Elisseeffa tím, že poskytli hranice zobecnění pro několik slabších forem stability, které nazývali téměř všude stabilita. Dále podnikli první krok k vytvoření vztahu mezi stabilitou a konzistencí v algoritmech ERM v nastavení Pravděpodobně přibližně korektní (PAC).[4]
- 2004 - Poggio a kol. prokázal obecný vztah mezi stabilitou a konzistencí ERM. Navrhli statistickou formu stability dovolené-jednoho-ven, kterou nazývali Stabilita CVEEEloo, a ukázal, že je a) dostatečný pro zobecnění v omezených třídách ztrát ab) nezbytný a dostatečný pro konzistenci (a tedy zobecnění) ERM algoritmů pro určité ztrátové funkce, jako je kvadratická ztráta, absolutní hodnota a ztráta binární klasifikace .[5]
- 2010 - Shalev Shwartz si všiml problémů s původními výsledky Vapniku kvůli složitým vztahům mezi prostorem hypotéz a třídou ztrát. Diskutují o pojmech stability, které zachycují různé třídy ztrát a různé typy učení, pod dohledem a bez dozoru.[6]
Předběžné definice
Definujeme několik pojmů souvisejících s tréninkovými sadami algoritmů učení, abychom pak mohli definovat stabilitu několika způsoby a prezentovat věty z pole.
Algoritmus strojového učení, známý také jako mapa učení , mapuje tréninkovou datovou sadu, což je sada označených příkladů , na funkci z na , kde a jsou ve stejném prostoru příkladů školení. Funkce jsou vybrány z prostoru hypotézy funkcí zvaných .
Výcviková sada, ze které se algoritmus učí, je definována jako
a má velikost v
tažené i.i.d. z neznámé distribuce D.
Tedy mapa učení je definován jako mapování z do , mapování tréninkové sady na funkci z na . Zde uvažujeme pouze deterministické algoritmy, kde je symetrický vzhledem k , tj. to nezávisí na pořadí prvků ve výcvikové sadě. Dále předpokládáme, že všechny funkce jsou měřitelné a všechny množiny počítatelné.
Ztráta hypotézy s ohledem na příklad je pak definována jako .
Empirická chyba je .
Skutečná chyba je
Vzhledem k tréninkové sadě S o velikosti m sestavíme pro všechny i = 1 ...., m upravené tréninkové sady takto:
- Odebráním i-tého prvku
- Nahrazením i-tého prvku
Definice stability
Stabilita hypotézy
Algoritmus má stabilitu hypotézy β vzhledem ke ztrátové funkci V, pokud platí:
Stabilita hypotézy z hlediska bodu
Algoritmus má bodově stabilitu hypotézy β vzhledem ke ztrátové funkci V, pokud platí:
Stabilita chyb
Algoritmus má stabilitu chyby β vzhledem ke ztrátové funkci V, pokud platí:
Jednotná stabilita
Algoritmus má jednotnou stabilitu β vzhledem ke ztrátové funkci V, pokud platí:
Pravděpodobnostní verze rovnoměrné stability β je:
Algoritmus se říká, že je stabilní, když hodnota klesá jako .
Stabilita křížové validace (CVloo) na jedné straně
Algoritmus má stabilitu CVloo β vzhledem ke ztrátové funkci V, pokud platí:
Definice (CVloo) stability je ekvivalent ke stabilitě hypotézy Pointwise viděné dříve.
Chyba očekávané dovolené) Stabilita
Algoritmus má stabilita, pokud pro každé n existuje a a a takové, že:
, s a jít na nulu pro
Klasické věty
Od Bousqueta a Elisseeffa (02):
U algoritmů symetrického učení s omezenou ztrátou, pokud má algoritmus Uniform Stability s pravděpodobnostní definicí výše, pak se algoritmus zobecní.
Uniform Stability je silná podmínka, kterou nesplňují všechny algoritmy, ale překvapivě ji splňuje velká a důležitá třída regulačních algoritmů. Omezení zobecnění je uvedeno v článku.
Od Mukherjee et al. (06):
- Pro algoritmy symetrického učení s omezenou ztrátou, pokud má algoritmus oba Cross-validation (CVloo) Leave-one-out cross-validation (CVloo) Stability and Expected-leave-one-out error () Stabilita, jak je definována výše, pak se algoritmus zobecní.
- Ani jedna podmínka sama o sobě pro zobecnění nestačí. Oba však společně zajišťují zobecnění (zatímco obrácení není pravdivé).
- Konkrétně pro algoritmy ERM (řekněme pro ztrátu čtverce) je pro konzistenci a zobecnění nezbytná a dostatečná stabilita s křížovou validací (CVloo) typu Leave-one-out.
To je důležitý výsledek pro základy teorie učení, protože ukazuje, že dvě dříve nesouvisející vlastnosti algoritmu, stabilita a konzistence, jsou ekvivalentní pro ERM (a určité ztrátové funkce). V článku je uvedena vazba generalizace.
Algoritmy, které jsou stabilní
Toto je seznam algoritmů, které se ukázaly jako stabilní, a článek, kde jsou uvedeny přidružené meze zobecnění.
- Lineární regrese[7]
- Klasifikátor k-NN se ztrátovou funkcí {0-1}.[8]
- Podporujte vektorový stroj (SVM) klasifikace s ohraničeným jádrem a kde je regularizátor normou v Hilbertově prostoru pro reprodukci jádra. Velká regularizační konstanta vede k dobré stabilitě.[9]
- Klasifikace SVM s měkkou rezervou.[10]
- Regularizováno Regrese nejmenších čtverců.[11]
- Algoritmus minimální relativní entropie pro klasifikaci.[12]
- Verze pytlování regulátory s číslem regresorů roste s .[13]
- Klasifikace SVM pro více tříd.[14]
- Všechny výukové algoritmy s regularizací Tichonova splňují kritéria Uniform Stability a jsou tedy zobecnitelné.[15]
Reference
- ^ L. Devroye a Wagner, hranice výkonu bez distribuce pro pravidla potenciálních funkcí, IEEE Trans. Inf. Theory 25 (5) (1979) 601–604.
- ^ M. Kearns a D. Ron „Algoritmická stabilita a hranice kontroly zdravého rozumu pro křížovou validaci„ ponechat jednu “, Neural Comput. 11 (6) (1999) 1427–1453.
- ^ O. Bousquet a A. Elisseeff. Stabilita a zobecnění. J. Mach. Učit se. Res., 2: 499–526, 2002.
- ^ S. Kutin a P. Niyogi, Chyba algoritmické stability a generalizace téměř všude, Technická zpráva TR-2002-03, University of Chicago (2002).
- ^ S. Mukherjee, P. Niyogi, T. Poggio a R. M. Rifkin. Učící se teorie: stabilita je dostatečná pro zobecnění a nezbytná a dostatečná pro konzistenci empirické minimalizace rizik. Adv. Comput. Math., 25 (1-3): 161–193, 2006.
- ^ Shalev Shwartz, S., Shamir, O., Srebro, N., Sridharan, K., Learnability, Stability and Uniform Convergence, Journal of Machine Learning Research, 11 (Oct): 2635-2670, 2010.
- ^ Elisseeff, A. Studie o algoritmické stabilitě a jejich vztahu k výkonům generalizace. Technická zpráva. (2000)
- ^ L. Devroye a Wagner, hranice výkonu bez distribuce pro pravidla potenciálních funkcí, IEEE Trans. Inf. Theory 25 (5) (1979) 601–604.
- ^ O. Bousquet a A. Elisseeff. Stabilita a zobecnění. J. Mach. Učit se. Res., 2: 499–526, 2002.
- ^ O. Bousquet a A. Elisseeff. Stabilita a zobecnění. J. Mach. Učit se. Res., 2: 499–526, 2002.
- ^ O. Bousquet a A. Elisseeff. Stabilita a zobecnění. J. Mach. Učit se. Res., 2: 499–526, 2002.
- ^ O. Bousquet a A. Elisseeff. Stabilita a zobecnění. J. Mach. Učit se. Res., 2: 499–526, 2002.
- ^ Rifkin, R. Všechno staré je znovu nové: Nový pohled na historické přístupy ve strojovém učení. Ph.D. Diplomová práce, MIT, 2002
- ^ Rifkin, R. Všechno staré je znovu nové: Nový pohled na historické přístupy ve strojovém učení. Ph.D. Diplomová práce, MIT, 2002
- ^ http://www.mit.edu/~9.520/spring09/Classes/class10_stability.pdf
Další čtení
- S.Kutin a P.Niyogi. Chyba algoritmické stability a generalizace téměř všude. V Proc. UAI 18, 2002
- S. Rakhlin, S. Mukherjee a T. Poggio. Výsledky stability v teorii učení. Analýza a aplikace, 3 (4): 397–419, 2005
- V.N. Vapnik. Podstata teorie statistického učení. Springer, 1995
- Vapnik, V., Statistická teorie učení. Wiley, New York, 1998
- Poggio, T., Rifkin, R., Mukherjee, S. a Niyogi, P., „Teorie učení: obecné podmínky pro prediktivitu“, Nature, sv. 428, 419-422, 2004
- Andre Elisseeff, Theodoros Evgeniou, Massimiliano Pontil, Stability of Randomized Learning Algorithms, Journal of Machine Learning Research 6, 55–79, 2010
- Elisseeff, A. Pontil, M., Prázdná chyba a stabilita algoritmů učení s aplikacemi, NATO SCIENCE SERIES SUB SERIES III COMPUTER AND SYSTEMS SCIENCES, 2003, svazek 190, strany 111-130
- Shalev Shwartz, S., Shamir, O., Srebro, N., Sridharan, K., Learnability, Stability and Uniform Convergence, Journal of Machine Learning Research, 11 (Oct): 2635-2670, 2010