Včasné zastavení - Early stopping

v strojové učení, předčasné zastavení je forma regulace používá se, aby se zabránilo nadměrné vybavení při výcviku žáka iterativní metodou, jako je klesání. Tyto metody aktualizují studenta tak, aby lépe odpovídal tréninkovým datům s každou iterací. To do určité míry zlepšuje výkon studenta v oblasti dat mimo tréninkovou sadu. Za tímto bodem však zlepšení přizpůsobení studenta tréninkovým datům přichází na úkor zvýšeného chyba generalizace. Pravidla včasného zastavení poskytují pokyny, kolik iterací lze spustit, než se student začne příliš přizpůsobovat. Pravidla včasného zastavení byla použita v mnoha různých metodách strojového učení s různým množstvím teoretických základů.

Pozadí

Tato část představuje některé základní koncepty strojového učení potřebné pro popis metod včasného zastavení.

Overfitting

Tento obrázek představuje problém overfittingu ve strojovém učení. Červené tečky představují data tréninkové sady. Zelená čára představuje skutečný funkční vztah, zatímco modrá čára ukazuje naučenou funkci, která se stala obětí overfittingu.

Strojové učení algoritmy trénují model založený na konečné sadě tréninkových dat. Během tohoto školení je model vyhodnocen na základě toho, jak dobře předpovídá pozorování obsažená v tréninkové sadě. Obecně však cílem schématu strojového učení je vytvořit model, který zobecní, tj. Předpovídá dříve neviditelná pozorování. K overfittingu dochází, když model dobře zapadne do dat v tréninkové sadě, přičemž se zvětší chyba generalizace.

Regulace

Regularizace v kontextu strojového učení označuje proces úpravy algoritmu učení, aby se zabránilo nadměrnému vybavení. To obecně zahrnuje zavedení nějakého omezení plynulosti naučeného modelu.[1]Tuto plynulost lze vynutit explicitně, opravením počtu parametrů v modelu nebo rozšířením nákladové funkce jako v Tichonovova regularizace. Tikhonovova regularizace, spolu s regrese hlavní složky a mnoho dalších regularizačních schémat spadá pod záštitu spektrální regularizace, regularizace charakterizované použitím filtru. Do této třídy metod patří také včasné zastavení.

Metody gradientního sestupu

Metody gradientního sestupu jsou metody iteračního, optimalizačního řádu prvního řádu. Každá iterace aktualizuje přibližné řešení problému optimalizace provedením kroku ve směru negativu gradientu objektivní funkce. Vhodnou volbou velikosti kroku lze provést takovou metodu konvergence na místní minimum objektivní funkce. Gradientní sestup se používá při strojovém učení definováním a funkce ztráty která odráží chybu studenta na tréninkové sestavě a poté tuto funkci minimalizuje.

Včasné zastavení na základě analytických výsledků

Včasné zastavení statistická teorie učení

K regularizaci lze použít včasné zastavení neparametrická regrese problémy vyskytující se v strojové učení. Pro daný vstupní prostor , výstupní prostor, a vzorky odebrané z neznámého míry pravděpodobnosti, , na , cílem takových problémů je přiblížit a regresní funkce, , dána

,

kde je podmíněné rozdělení na vyvolané .[2]Běžnou volbou pro aproximaci regresní funkce je použití funkcí z a reprodukce jádra Hilbertova prostoru.[2] Tyto prostory mohou být nekonečně rozměrné, ve kterých mohou dodávat řešení, která překonávají tréninkové sady libovolné velikosti. Regularizace je proto pro tyto metody obzvláště důležitá. Jedním ze způsobů, jak regulovat problémy s neparametrickou regresí, je použít pravidlo časného zastavení na iterativní postup, jako je gradientní sestup.

Pravidla včasného zastavení navrhovaná pro tyto problémy jsou založena na analýze horních mezí chyby generalizace jako funkce čísla iterace. Poskytují recepty na počet iterací ke spuštění, které lze vypočítat před zahájením procesu řešení.[3][4]

Příklad: ztráta nejmenších čtverců

(Převzato z Yao, Rosasco a Caponnetto, 2007[3])

Nechat a . Vzhledem k sadě vzorků

,

kreslen nezávisle na , minimalizovat funkční

kde, je členem reprodukčního jádra Hilbertova prostoru . To znamená, že minimalizujte očekávané riziko pro funkci ztráty nejmenších čtverců. Od té doby závisí na neznámé míře pravděpodobnosti , nelze jej použít pro výpočet. Místo toho zvažte následující empirické riziko

Nechat a být t-té iterace gradientu sestupu aplikované na očekávaná a empirická rizika, kde obě iterace jsou inicializovány na počátku a obě používají velikost kroku . The tvoří populační iterace, který konverguje k , ale nelze je použít při výpočtu, zatímco tvoří ukázková iterace což obvykle konverguje k overfitting řešení.

Chceme řídit rozdíl mezi očekávaným rizikem iterace vzorku a minimálním očekávaným rizikem, tj. Očekávaným rizikem regresní funkce:

Tento rozdíl lze přepsat jako součet dvou pojmů: rozdíl v očekávaném riziku mezi iteracemi vzorku a populace a rozdíl mezi iterací populace a regresní funkcí:

Tato rovnice představuje a kompromis zkreslení odchylky, které je poté vyřešeno tak, aby poskytlo optimální pravidlo zastavení, které může záviset na neznámém rozdělení pravděpodobnosti. Toto pravidlo má přidružené pravděpodobnostní hranice chyby generalizace. Pro analýzu vedoucí k pravidlu a omezením předčasného zastavení je čtenář odkázán na původní článek.[3] V praxi jsou to metody založené na datech, např. křížovou validaci lze použít k získání pravidla adaptivního zastavení.

Včasné zastavení v posilování

Posilování odkazuje na rodinu algoritmů, ve kterých je soubor slabé žáky (studenti, kteří jen mírně korelují se skutečným procesem) jsou kombinováni, aby vytvořili a silný žák. Bylo ukázáno, pro několik algoritmů pro posílení (včetně AdaBoost ), že regularizace prostřednictvím předčasného zastavení může poskytnout záruky konzistence, to znamená, že výsledek algoritmu se blíží skutečnému řešení, protože počet vzorků jde do nekonečna.[5][6][7]

L2- posilování

Metody posilování mají úzké vazby na popsané metody sestupu gradientu výše lze považovat za posilovací metodu založenou na ztráta: L2Zvýšit.[3]

Předčasné zastavení založené na ověření

Tato pravidla předčasného zastavení fungují rozdělením původní tréninkové sady na novou tréninkovou sadu a ověřovací sada. Chyba v sadě ověřování se používá jako proxy pro chyba generalizace při určování, kdy začala nadměrná montáž. Tyto metody se nejčastěji používají při výcviku neuronové sítě. Prechelt podává následující shrnutí naivní implementace vydržet - na základě předčasného zastavení následovně:[8]

  1. Rozdělte tréninková data na tréninkovou sadu a ověřovací sadu, např. v poměru 2: 1.
  2. Trénujte pouze na tréninkové sadě a jednou za čas vyhodnoťte chybu příkladu na validační sadě, např. po každé páté epochě.
  3. Přestaňte trénovat, jakmile je chyba v sadě ověřování vyšší než při poslední kontrole.
  4. Použijte váhy, které měla síť v předchozím kroku jako výsledek tréninkového běhu.
    — Lutz Prechelt, Včasné zastavení - ale kdy?

Používají se sofistikovanější formy křížová validace - více oddílů dat do tréninkové sady a ověřovací sady - namísto jednoho oddílu do tréninkové sady a ověřovací sady. I tento jednoduchý postup je v praxi komplikován skutečností, že chyba validace může během tréninku kolísat a vytvářet více místních minim. Tato komplikace vedla k vytvoření mnoha ad-hoc pravidel pro rozhodování o tom, kdy overfitting skutečně začal.[8]

Viz také

Reference

  1. ^ Girosi, Federico; Michael Jones; Tomaso Poggio (01.03.1995). "Teorie regularizace a architektury neuronových sítí". Neurální výpočet. 7 (2): 219–269. CiteSeerX  10.1.1.48.9258. doi:10.1162 / neco.1995.7.2.219. ISSN  0899-7667.
  2. ^ A b Smale, Steve; Ding-Xuan Zhou (01.08.2007). "Odhady teorie učení pomocí integrálních operátorů a jejich aproximace". Konstruktivní aproximace. 26 (2): 153–172. CiteSeerX  10.1.1.210.722. doi:10.1007 / s00365-006-0659-r. ISSN  0176-4276.
  3. ^ A b C d Yao, Yuan; Lorenzo Rosasco; Andrea Caponnetto (01.08.2007). "Na předčasném zastavení v učení přechodu". Konstruktivní aproximace. 26 (2): 289–315. CiteSeerX  10.1.1.329.2482. doi:10.1007 / s00365-006-0663-2. ISSN  0176-4276.
  4. ^ Raskutti, G .; M. J. Wainwright; Bin Yu (2011). "Předčasné zastavení pro neparametrickou regresi: Optimální pravidlo zastavení závislé na datech". 49. výroční konference Allerton o komunikaci, řízení a práci na počítači (Allerton). 49. výroční Allertonská konference o komunikaci, řízení a práci na počítači (Allerton). str. 1318–1325. doi:10.1109 / Allerton.2011.6120320.
  5. ^ Wenxin Jiang (únor 2004). "Procesní konzistence pro AdaBoost". Annals of Statistics. 32 (1): 13–29. doi:10.1214 / aos / 1079120128. ISSN  0090-5364.
  6. ^ Bühlmann, Peter; Bin Yu (06.06.2003). "Podpora ztráty L₂: regrese a klasifikace". Journal of the American Statistical Association. 98 (462): 324–339. doi:10.1198/016214503000125. ISSN  0162-1459. JSTOR  30045243.
  7. ^ Tong Zhang; Bin Yu (2005-08-01). "Podpora včasného zastavení: konvergence a konzistence". Annals of Statistics. 33 (4): 1538–1579. arXiv:matematika / 0508276. Bibcode:Matematika 2005 ...... 8276Z. doi:10.1214/009053605000000255. ISSN  0090-5364. JSTOR  3448617.
  8. ^ A b Prechelt, Lutz; Geneviève B. Orr (01.01.2012). „Včasné zastavení - ale kdy?“. V Grégoire Montavon; Klaus-Robert Müller (eds.). Neuronové sítě: triky obchodu. Přednášky z informatiky. Springer Berlin Heidelberg. str.53 –67. doi:10.1007/978-3-642-35289-8_5. ISBN  978-3-642-35289-8.