Bias – varianční kompromis - Bias–variance tradeoff - Wikipedia
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |




v statistika a strojové učení, kompromis zkreslení – odchylka je vlastnost modelu, který rozptyl odhadů parametrů napříč Vzorky lze snížit zvýšením zaujatost v odhadovaný parametry.v dilema zkreslení – odchylka nebo bias – variance problém je konflikt ve snaze tyto dva zdroje současně minimalizovat chyba které zabraňují učení pod dohledem algoritmy zobecňovat nad jejich tréninková sada:[1][2]
- The chyba zkreslení je chyba z chybných předpokladů ve výuce algoritmus. Vysoké zkreslení může způsobit, že algoritmu chybí relevantní vztahy mezi funkcemi a cílovými výstupy (nedostatečné vybavení).
- The rozptyl je chyba z citlivosti na malé výkyvy v tréninkové sadě. Velká odchylka může způsobit, že algoritmus bude modelovat náhodně hluk namísto zamýšlených výstupů (nadměrné vybavení ).
Tento kompromis je univerzální: Ukázalo se, že model, který je asymptoticky nezaujatý, musí mít neomezenou odchylku.[3]
The bias – varianční rozklad je způsob analýzy algoritmu učení očekávaný chyba generalizace s ohledem na konkrétní problém jako součet tří termínů, zkreslení, rozptylu a veličiny zvané neredukovatelná chyba, vyplývající z hluku v samotném problému.
Motivace
Kompenzace bias-variance je ústředním problémem v učení pod dohledem. V ideálním případě člověk chce vyberte model že oba přesně zachycují zákonitosti jeho tréninkových dat, ale také zevšeobecňuje dobře neviditelná data. Bohužel je obvykle nemožné provést obojí současně. Metody učení s vysokou variací mohou být schopny dobře reprezentovat jejich tréninkovou sadu, ale hrozí jim, že budou příliš hlučné nebo nereprezentativní tréninkové údaje. Naproti tomu algoritmy s vysokým zkreslením obvykle vytvářejí jednodušší modely, které nemají tendenci převyšovat, ale mohou spodní prádlo jejich tréninkové údaje, přičemž nezachytily důležité zákonitosti.
Je to často vyrobené klam[4][5] předpokládat, že složité modely musí mít vysokou variabilitu; Modely s vysokou odchylkou jsou v určitém smyslu „složité“, ale nemusí to být pravda. Kromě toho je třeba dávat pozor, jak definovat složitost: Zejména počet parametrů použitých k popisu modelu je špatnou mírou složitosti. Ilustruje to příklad převzatý z:[6] Model má pouze dva parametry (), ale může interpolovat libovolný počet bodů oscilováním s dostatečně vysokou frekvencí, což má za následek jak vysokou odchylku, tak velkou odchylku.
Intuitivně je zkreslení sníženo pomocí pouze místních informací, zatímco rozptyl lze snížit pouze průměrováním více pozorování, což ve své podstatě znamená použití informací z větší oblasti. Poučný příklad najdete v části k-nejbližším sousedům nebo na obrázku vpravo. Chcete-li vyvážit, kolik informací se použije ze sousedních pozorování, lze model uhlazen přes explicitní regulace, jako srážení.
Bias – varianční rozklad střední kvadratické chyby
Předpokládejme, že máme tréninkovou sadu sestávající ze sady bodů a skutečné hodnoty spojené s každým bodem . Předpokládáme, že existuje funkce s hlukem , kde hluk, , má nulový průměr a rozptyl .
Chceme najít funkci , který přibližuje skutečnou funkci pokud možno pomocí nějakého algoritmu učení založeného na tréninkové datové sadě (vzorek) . Měřením hodnoty „děláme co nejvíce“ přesné střední čtvercová chyba mezi a : chceme být minimální, obojí pro a pro body mimo náš vzorek. Samozřejmě nemůžeme doufat, že to uděláme dokonale, protože obsahovat hluk ; to znamená, že musíme být připraveni přijmout neredukovatelná chyba v jakékoli funkci, kterou vymyslíme.
Nalezení že zobecňuje na body mimo tréninkovou sadu lze provést pomocí některého z bezpočtu algoritmů použitých pro supervizované učení. Ukazuje se, že podle toho, která funkce vybereme, můžeme rozložit jeho očekávaný chyba na neviditelném vzorku jak následuje:[7]:34[8]:223
kde
a
Očekávání se pohybuje nad různými možnostmi tréninkové sady , všechny odebrány ze stejné společné distribuce . Tyto tři pojmy představují:
- náměstí zaujatost metody učení, kterou lze považovat za chybu způsobenou zjednodušujícími předpoklady zabudovanými do metody. Např. Při aproximaci nelineární funkce pomocí metody učení pro lineární modely, v odhadech bude chyba kvůli tomuto předpokladu;
- the rozptyl metody učení, nebo intuitivně, jak moc je metoda učení bude se pohybovat kolem své střední hodnoty;
- neredukovatelná chyba .
Jelikož všechny tři termíny nejsou nezáporné, tvoří se spodní hranice očekávané chyby u neviditelných vzorků.[7]:34
Složitější model znamená, že čím více datových bodů zachytí, tím nižší bude zkreslení. Složitost však způsobí, že se model bude více „pohybovat“, aby zachytil datové body, a proto bude jeho rozptyl větší.
Derivace
Odvození zkreslení-rozptylu rozkladu na druhou chybu probíhá následovně.[9][10] Z důvodu většího pohodlí zkracujeme , a upustíme dolní index našich očekávaných operátorů. Nejprve si připomeňme, že podle definice pro libovolnou náhodnou proměnnou , my máme
Přeskupením získáme:
Od té doby je deterministický, tj. nezávislé na ,
Tak, vzhledem k tomu a (protože je hluk), naznačuje
Také od té doby
Tedy od té doby a jsou nezávislé, můžeme psát
Nakonec se funkce ztráty MSE (nebo záporná logaritmická pravděpodobnost) získá převzetím očekávané hodnoty :
Přístupy
Snížení rozměrů a výběr funkcí může snížit rozptyl zjednodušením modelů. Podobně větší tréninková sada má tendenci snižovat rozptyl. Přidávání funkcí (prediktorů) má tendenci snižovat zkreslení na úkor zavedení další odchylky. Učící se algoritmy mají obvykle některé nastavitelné parametry, které řídí zkreslení a rozptyl; například,
- lineární a Zobecněné lineární modely mohou být legalizovaný snížit jejich rozptyl za cenu zvýšení jejich zkreslení.[11]
- v umělé neuronové sítě, rozptyl se zvyšuje a zkreslení se snižuje s rostoucím počtem skrytých jednotek,[12] ačkoli tento klasický předpoklad byl předmětem nedávné debaty.[5] Stejně jako v GLM se obvykle používá regularizace.
- v k-nejbližší soused modely, vysoká hodnota k vede k vysoké odchylce a nízké odchylce (viz níže).
- v instanční učení, regularizace lze dosáhnout změnou směsi prototypy a příklady.[13]
- v rozhodovací stromy, hloubka stromu určuje rozptyl. Rozhodovací stromy se běžně prořezávají, aby řídily rozptyl.[7]:307
Jedním ze způsobů řešení kompromisu je použití smíšené modely a souborové učení.[14][15] Například, posílení kombinuje mnoho "slabých" (vysoce zkreslených) modelů v souboru, který má nižší zkreslení než jednotlivé modely, zatímco pytlování kombinuje „silné“ studenty způsobem, který snižuje jejich rozptyl.
Ověření modelu metody jako křížová validace (statistika) lze použít k vyladění modelů za účelem optimalizace kompromisu.
k- nejbližší sousedé
V případě k- nejbližší sousedé regrese, když je převzato očekávání možného označení pevné tréninkové sady, a uzavřený výraz existuje, která souvisí s rozkladem odchylky – odchylky k parametru k:[8]:37, 223
kde jsou k nejbližší sousedé X v tréninkové sadě. Předpětí (první člen) je monotónní rostoucí funkce k, zatímco rozptyl (druhý člen) klesá jako k se zvyšuje. Ve skutečnosti za „rozumných předpokladů“ předpojatost odhadce prvního nejbližšího souseda (1-NN) úplně zmizí, jak se velikost tréninkové sady blíží nekonečnu.[12]
Aplikace
V regresi
Dekompozice bias-variance tvoří koncepční základ pro regresi regulace metody jako Laso a hřebenová regrese. Regularizační metody zavádějí do regresního řešení předpětí, které může relativně snížit rozptyl vzhledem k obyčejné nejmenší čtverce (OLS) řešení. Ačkoli řešení OLS poskytuje nepřesné odhady regrese, řešení s nižší odchylkou produkovaná regularizačními technikami poskytují vynikající výkon MSE.
V klasifikaci
Rozklad zkreslení-odchylka byl původně formulován pro regresi nejmenších čtverců. Pro případ klasifikace pod Ztráta 0-1 (míra nesprávné klasifikace), je možné najít podobný rozklad.[16][17] Alternativně, pokud lze problém s klasifikací formulovat jako pravděpodobnostní klasifikace, lze očekávanou čtvercovou chybu předpovězených pravděpodobností s ohledem na skutečné pravděpodobnosti rozložit jako dříve.[18]
Při posilování učení
I když rozklad bias-variance přímo neplatí posilování učení, podobný kompromis může také charakterizovat zobecnění. Když má agent omezené informace o svém prostředí, lze suboptimalitu RL algoritmu rozložit na součet dvou termínů: termín související s asymptotickým zkreslením a termín kvůli nadměrnému vybavení. Asymptotické zkreslení přímo souvisí s algoritmem učení (nezávisle na množství dat), zatímco nadměrný termín pochází ze skutečnosti, že množství dat je omezené.[19]
V lidském učení
I když je široce diskutováno v kontextu strojového učení, dilema zkreslení bylo zkoumáno v kontextu lidské poznání, zejména tím, že Gerd Gigerenzer a spolupracovníky v kontextu naučené heuristiky. Tvrdili (viz odkazy níže), že lidský mozek řeší dilema v případě typicky řídkých, špatně charakterizovaných tréninkových sestav poskytovaných zkušenostmi přijetím heuristiky s vysokou předpětím / nízkou odchylkou. To odráží skutečnost, že přístup s nulovým předpětím má špatnou obecnost pro nové situace, a také bezdůvodně předpokládá přesnou znalost skutečného stavu světa. Výsledné heuristiky jsou relativně jednoduché, ale vytvářejí lepší závěry v širším spektru situací.[20]
Gemane et al.[12] tvrdí, že dilema zkreslení předpokládá, že schopnosti jako obecné rozpoznávání objektů nelze se naučit od nuly, ale vyžaduje určitý stupeň „pevného zapojení“, který je později vyladěn zkušeností. Je to proto, že přístupy k odvození bez modelu vyžadují neprakticky velké tréninkové sady, pokud se mají vyhnout velkému rozptylu.
Viz také
Reference
- ^ Kohavi, Ron; Wolpert, David H. (1996). „Bias Plus Variance Decomposition for Zero-One Loss Functions“. ICML. 96.
- ^ Luxburg, Ulrike V .; Schölkopf, B. (2011). "Statistická teorie učení: Modely, koncepty a výsledky". Příručka dějin logiky. 10: Oddíl 2.4.
- ^ Derumigny, Alexis; Schmidt-Hieber, Johannes. „Na nižších mezích pro kompromisní odchylku odchylky“. arXiv.
- ^ Neal, Brady (2019). „Na kompromisu Bias-Variance: Učebnice vyžadují aktualizaci“. arXiv:1912.08286 [cs.LG ].
- ^ A b Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). „Moderní pohled na kompromis Bias-Variance v neuronových sítích“. arXiv:1810.08591 [cs.LG ].
- ^ Vapnik, Vladimir (2000). Podstata teorie statistického učení. New York: Springer-Verlag. ISBN 978-1-4757-3264-1.
- ^ A b C James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). Úvod do statistického učení. Springer.
- ^ A b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Prvky statistického učení. Archivovány od originál dne 26.01.2015. Citováno 2014-08-20.
- ^ Vijayakumar, Sethu (2007). „The Bias – Variance Tradeoff“ (PDF). University of Edinburgh. Citováno 19. srpna 2014.
- ^ Shakhnarovich, Greg (2011). "Poznámky k odvození rozkladu odchylky v lineární regresi" (PDF). Archivovány od originál (PDF) dne 21. srpna 2014. Citováno 20. srpna 2014.
- ^ Belsley, David (1991). Diagnostika kondicionování: kolinearita a slabá data v regresi. New York (NY): Wiley. ISBN 978-0471528890.
- ^ A b C Geman, Stuart; Bienenstock, Élie; Doursat, René (1992). „Neuronové sítě a dilema zkreslení / odchylky“ (PDF). Neurální výpočet. 4: 1–58. doi:10.1162 / neco.1992.4.1.1.
- ^ Gagliardi, Francesco (květen 2011). „Instalační klasifikátory aplikované na lékařské databáze: diagnostika a extrakce znalostí“. Umělá inteligence v medicíně. 52 (3): 123–139. doi:10.1016 / j.artmed.2011.04.002. PMID 21621400.
- ^ Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). "Lokálně vážená regrese pro kontrolu". V Sammut, Claude; Webb, Geoffrey I. (eds.). Encyklopedie strojového učení (PDF). Springer. str. 615. Bibcode:2010eoml.book ..... S.
- ^ Fortmann-Roe, Scott (2012). „Porozumění kompromisu Bias – Variance“.
- ^ Domingos, Pedro (2000). Unified bias-variance decomposition (PDF). ICML.
- ^ Valentini, Giorgio; Dietterich, Thomas G. (2004). „Bias – varianční analýza podpůrných vektorových strojů pro vývoj metod souborů založených na SVM“ (PDF). Journal of Machine Learning Research. 5: 725–775.
- ^ Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich (2008). Úvod do získávání informací. Cambridge University Press. 308–314.
- ^ Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael (2019). „On Overfitting and Asymptotic Bias in Batch Reinforcement Learning with Partial Observability“. Journal of AI Research. 65: 1–30. doi:10.1613 / jair.1.11478.
- ^ Gigerenzer, Gerd; Brighton, Henry (2009). „Homo Heuristicus: Proč zaujaté mysli dělají lepší závěry“. Témata v kognitivní vědě. 1 (1): 107–143. doi:10.1111 / j.1756-8765.2008.01006.x. hdl:11858 / 00-001M-0000-0024-F678-0. PMID 25164802.