Chyba generalizace - Generalization error
v učení pod dohledem aplikace v strojové učení a statistická teorie učení, chyba generalizace[1] (také známý jako chyba mimo vzorek[2]) je měřítkem toho, jak přesně je algoritmus schopen předpovědět výsledné hodnoty dříve neviditelných dat. Protože se učící algoritmy vyhodnocují na konečných vzorcích, může být hodnocení učícího algoritmu citlivé chyba vzorkování. Výsledkem je, že měření predikční chyby na aktuálních datech nemusí poskytovat mnoho informací o prediktivní schopnosti nových dat. Chyba generalizace může být minimalizována vyloučením nadměrné vybavení v algoritmu učení. Výkon a strojové učení algoritmus se měří grafy chybových hodnot zobecnění prostřednictvím procesu učení, které se nazývají křivky učení.
Definice
U problému s učením je cílem vyvinout funkci který předpovídá výstupní hodnoty na základě některých vstupních údajů . The chyba generalizace nebo očekávaná chyba, konkrétní funkce přes všechny možné hodnoty a je:[3]
kde označuje a funkce ztráty a je neznámý společné rozdělení pravděpodobnosti pro a .
Bez znalosti společného rozdělení pravděpodobnosti je nemožné vypočítat . Místo toho můžeme vypočítat empirickou chybu na ukázkových datech. Dáno empirická chyba je:
Algoritmus se říká, že zobecňuje, pokud:
The chyba generalizace nelze vypočítat pro neznámé rozdělení pravděpodobnosti. Místo toho je cílem mnoha problémů v teorii statistického učení svázat nebo charakterizovat rozdíl chyby generalizace a empirické chyby v pravděpodobnosti:
To znamená, že cílem je charakterizovat pravděpodobnost že chyba generalizace je menší než chyba empirická plus nějaká chyba vázaná (obecně závisí na a U mnoha typů algoritmů se ukázalo, že algoritmus má meze zobecnění, pokud splňuje určité stabilita kritéria. Konkrétně, pokud je algoritmus symetrický (pořadí vstupů nemá vliv na výsledek), má omezenou ztrátu a splňuje dvě podmínky stability, zobecní se. První podmínka stability, křížová validace ponechat jeden-ven stability, říká, že aby byla stabilní, musí se chyba predikce pro každý datový bod při použití křížové validace ponechat-jedna-ven konvergovat na nulu jako . Druhá podmínka, stabilita chyby očekávaného odchodu z jednoho výstupu (také známá jako stabilita hypotézy, pokud pracuje v norma ) je splněno, pokud se předpověď na levém datovém bodě nezmění, když je z datové sady tréninku odebrán jeden datový bod.[4]
Tyto podmínky lze formalizovat jako:
Stabilita křížové validace s vynecháním jedné položky
Algoritmus má stabilita, pokud pro každého , existuje a a takové, že:
a a jít na nulu jako jde do nekonečna.[4]
Očekávaná chyba dovolené-jedna-ven Stabilita
Algoritmus má stabilita, pokud pro každého existuje a a a takové, že:
s a jít na nulu pro .
Pro stabilitu v jednom Norma, to je stejné jako stabilita hypotézy:
s jít na nulu jako jde do nekonečna.[4]
Algoritmy s prokázanou stabilitou
U řady algoritmů bylo prokázáno, že jsou stabilní a ve výsledku mají hranice své chyby generalizace. Seznam těchto algoritmů a článků, které prokázaly stabilitu, je k dispozici tady.
Vztah k overfittingu
Pojmy chyba generalizace a overfitting spolu úzce souvisí. Overfitting nastane, když se naučená funkce se stane citlivým na hluk ve vzorku. Výsledkem je, že funkce bude fungovat dobře na tréninkové sadě, ale nebude fungovat dobře na jiných datech ze společného rozdělení pravděpodobnosti a . Čím více overfitting tedy nastane, tím větší bude chyba generalizace.
Množství overfitting lze otestovat pomocí křížová validace metody, které rozdělují vzorek na simulované cvičné vzorky a testovací vzorky. Model je poté vyškolen na cvičném vzorku a vyhodnocen na zkušebním vzorku. Testovací vzorek algoritmus dříve neviděl, a tak představuje náhodný vzorek ze společného rozdělení pravděpodobnosti a . Tento testovací vzorek nám umožňuje aproximovat očekávanou chybu a ve výsledku aproximovat konkrétní formu chyby generalizace.
Existuje mnoho algoritmů, které zabraňují přetížení. Minimalizační algoritmus může penalizovat složitější funkce (známé jako Tichonov regulace ), nebo lze prostor hypotézy omezit, a to buď výslovně ve formě funkcí, nebo přidáním omezení k funkci minimalizace (Ivanovova regularizace).
Přístup k nalezení funkce, která nepřekročí, je v rozporu s cílem najít funkci, která je dostatečně složitá, aby zachytila konkrétní vlastnosti dat. Toto je známé jako kompromis zkreslení – odchylka. Udržování jednoduché funkce, aby nedocházelo k přetečení, může ve výsledných předpovědích zavést zkreslení, zatímco umožňuje, aby byla složitější, vede k přetížení a vyšší odchylce v předpovědích. Je nemožné minimalizovat obojí současně.
Reference
- ^ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Základy strojového učení, 2. vyd., Boston: MIT Press
- ^ Y S. Abu-Mostafa, M. Magdon-Ismail a H.-T. Lin (2012) Learning from Data, AMLBook Press. ISBN 978-1600490064
- ^ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Základy strojového učení, 2. vyd., Boston: MIT Press
- ^ A b C Mukherjee, S .; Niyogi, P .; Poggio, T .; Rifkin., R. M. (2006). „Učící se teorie: stabilita je dostatečná pro zobecnění a nezbytná a dostatečná pro konzistenci empirické minimalizace rizik“ (PDF). Adv. Comput. Matematika. 25 (1–3): 161–193. doi:10.1007 / s10444-004-7634-z.
Další čtení
Tento Další čtení část může obsahovat nevhodné nebo nadměrné návrhy, které se nemusí řídit Wikipedií pokyny. Ujistěte se, že pouze a přiměřený počet z vyrovnaný, aktuální, spolehlivýa jsou uvedeny pozoruhodné návrhy pro další čtení; odstranění méně relevantních nebo nadbytečných publikací pomocí stejný úhel pohledu kde se to hodí. Zvažte použití vhodných textů jako vložené zdroje nebo vytvoření samostatný bibliografický článek. (Července 2018) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) |
- Bousquet, O., S. Boucheron a G. Lugosi. Úvod do teorie statistického učení. Advanced Lectures on Machine Learning Lecture Notes in Artificial Intelligence 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg a G. Ratsch, Springer, Heidelberg, Německo (2004)
- Bousquet, O. a A. Elisseef (2002), Stabilita a generalizace, Journal of Machine Learning Research, 499-526.
- Devroye L., L. Gyorfi a G. Lugosi (1996). Pravděpodobnostní teorie rozpoznávání vzorů. Springer-Verlag. ISBN 978-0387946184.
- Poggio T. a S. Smale. Matematika učení: Nakládání s daty. Sdělení AMS, 2003
- Vapnik, V. (2000). Podstata teorie statistického učení. Informační věda a statistika. Springer-Verlag. ISBN 978-0-387-98780-4.
- Bishop, C.M. (1995), Neuronové sítě pro rozpoznávání vzorů„Oxford: Oxford University Press, zejména oddíl 6.4.
- Finke, M. a Müller, K.-R. (1994), "Odhad a-posteriori pravděpodobností pomocí stochastických síťových modelů, „in Mozer, Smolensky, Touretzky, Elman, & Weigend, eds., Proceedings of the 1993 Connectionist Models Summer SchoolHillsdale, NJ: Lawrence Erlbaum Associates, s. 324–331.
- Geman, S., Bienenstock, E. a Doursat, R. (1992), "Neuronové sítě a dilema zkreslení / odchylky ", Neurální výpočet, 4, 1-58.
- Husmeier, D. (1999), Neuronové sítě pro odhad podmíněné pravděpodobnosti: Předpovědi za předpovědi bodů, Berlín: Springer Verlag, ISBN 1-85233-095-3.
- McCullagh, P. a Nelder, J.A. (1989) Zobecněné lineární modely, 2. vyd., London: Chapman & Hall.
- Mohri, M., Rostamizadeh A., Talwakar A., (2018) Základy strojového učení, 2. vyd., Boston: MIT Press.
- Moody, J.E. (1992), "Efektivní počet parametrů: Analýza generalizace a regularizace v systémech nelineárního učení ", Moody, J.E., Hanson, S.J., a Lippmann, R.P., Pokroky v systémech zpracování neurálních informací 4, 847-854.
- Ripley, B.D. (1996) Rozpoznávání vzorů a neuronové sítě, Cambridge: Cambridge University Press.
- Rohwer, R. a van der Rest, J. C. (1996), "Minimální délka popisu, regularizace a multimodální data," Neurální výpočet, 8, 595-609.
- Rojas, R. (1996), "Krátký důkaz vlastnosti zadní pravděpodobnosti neuronových sítí klasifikátoru," Neurální výpočet, 8, 41-43.
- White, H. (1990), "Neparametrická regrese konekcionistů: Vícevrstvé sítě s dopřednou vazbou se mohou naučit libovolné mapování," Neuronové sítě, 3, 535-550. Přetištěno v bílé barvě (1992).
- White, H. (1992a), "Neparametrický odhad podmíněných kvantilů pomocí neuronových sítí, "in Page, C. and Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics, Alexandria, VA: Americká statistická asociace, s. 190–199. Přetištěno v bílé barvě (1992b).
- White, H. (1992b), Umělé neuronové sítě: aproximace a teorie učeníBlackwell.