Huberova ztráta - Huber loss
v statistika, Huberova ztráta je funkce ztráty použito v robustní regrese, který je méně citlivý na odlehlé hodnoty v datech než druhá ztráta chyby. Někdy se také používá varianta pro klasifikaci.
Definice
Funkce Huberovy ztráty popisuje pokutu způsobenou postup odhadu F. Huber (1964) definuje funkci ztráty po částech[1]
Tato funkce je kvadratická pro malé hodnoty Aa lineární pro velké hodnoty, se stejnými hodnotami a sklony různých sekcí ve dvou bodech, kde . Proměnná A často odkazuje na rezidua, to znamená na rozdíl mezi pozorovanými a předpovězenými hodnotami , takže první lze rozšířit na[2]
Motivace
Dvě velmi často používané ztrátové funkce jsou druhá ztráta, a absolutní ztráta, . Výsledkem funkce druhé mocniny je aritmetický průměr -nezaujatý odhad a výsledkem funkce ztráty absolutní hodnoty je a medián -neobjektivní odhad (v jednorozměrném případě a geometrický medián - nestranný odhad pro vícerozměrný případ). Druhá ztráta má tu nevýhodu, že má tendenci být ovládána odlehlými hodnotami - při součtu za sadu (jako v ), průměr vzorku je příliš ovlivněn několika obzvláště velkými -hodnoty, když je distribuce těžce sledována: ve smyslu teorie odhadu, asymptotická relativní účinnost průměru je špatná pro distribuce těžkých ocasů.
Jak je definováno výše, funkce Huberovy ztráty je silně konvexní v jednotném sousedství svého minima ; na hranici tohoto uniformního sousedství má Huberova ztrátová funkce diferencovatelné rozšíření na afinní funkci v bodech a . Tyto vlastnosti mu umožňují kombinovat velkou část citlivosti odhadce střední hodnoty, minimální odchylky průměru (pomocí funkce kvadratické ztráty) a robustnosti mediánu nezaujatého odhadu (použití funkce absolutní hodnoty).
Funkce ztráty pseudo-Huberem
The Funkce ztráty pseudo-Huberem lze použít jako plynulé přiblížení funkce Huberovy ztráty. Kombinuje nejlepší vlastnosti L2 druhá ztráta a L1 absolutní ztráta tím, že je silně konvexní, když je blízko cíle / minimum a méně strmé pro extrémní hodnoty. Tuto strmost lze ovládat pomocí hodnota. The Funkce ztráty pseudo-Huberem zajišťuje, že deriváty jsou spojité pro všechny stupně. Je definován jako[3][4]
Tato funkce je tedy přibližná pro malé hodnoty a přibližuje přímku se sklonem pro velké hodnoty .
Zatímco výše uvedená je nejběžnější forma, existují i další plynulé aproximace Huberovy ztrátové funkce.[5]
Varianta pro klasifikaci
Pro klasifikace účely se nazývá varianta ztráty Huber upravený Huber se někdy používá. Vzhledem k předpovědi (skóre klasifikátoru se skutečnou hodnotou) a true binární označení třídy , je upravená Huberova ztráta definována jako[6]
Termín je ztráta závěsu používá podporovat vektorové stroje; the kvadraticky vyhlazená ztráta závěsu je zobecněním .[6]
Aplikace
Funkce ztráty Huber se používá v robustní statistiky, M-odhad a aditivní modelování.[7]
Viz také
Reference
- ^ Huber, Peter J. (1964). „Robustní odhad parametru polohy“. Annals of Statistics. 53 (1): 73–101. doi:10.1214 / aoms / 1177703732. JSTOR 2238020.
- ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Prvky statistického učení. str. 349. Archivovány od originál dne 26.01.2015. Ve srovnání s Hastie et al., ztráta je upravena o faktor ½, aby byla v souladu s Huberovou původní definicí uvedenou dříve.
- ^ Charbonnier, P .; Blanc-Feraud, L .; Aubert, G .; Barlaud, M. (1997). Msgstr "Deterministická regularizace zachovávající hranu ve vypočítaném zobrazení". IEEE Trans. Zpracování obrazu. 6 (2): 298–311. CiteSeerX 10.1.1.64.7521. doi:10.1109/83.551699. PMID 18282924.
- ^ Hartley, R .; Zisserman, A. (2003). Geometrie více pohledů v počítačovém vidění (2. vyd.). Cambridge University Press. str.619. ISBN 978-0-521-54051-3.
- ^ Lange, K. (1990). "Konvergence algoritmů rekonstrukce obrazu s vyhlazováním Gibbs". IEEE Trans. Med. Zobrazování. 9 (4): 439–446. doi:10.1109/42.61759. PMID 18222791.
- ^ A b Zhang, Tong (2004). Řešení problémů lineární predikce ve velkém měřítku pomocí stochastických gradientních sestupových algoritmů. ICML.
- ^ Friedman, J. H. (2001). „Aproximace chamtivé funkce: stroj na podporu přechodu“. Annals of Statistics. 26 (5): 1189–1232. doi:10.1214 / aos / 1013203451. JSTOR 2699986.