Ztrátové funkce pro klasifikaci - Loss functions for classification

Funkce konzistentní ztráty Bayes: ztráta nula jedna (šedá), ztráta Savage (zelená), ztráta logistiky (oranžová), exponenciální ztráta (fialová), ztráta tangenta (hnědá), hranatá ztráta (modrá)

v strojové učení a matematická optimalizace, ztrátové funkce pro klasifikaci jsou výpočetně proveditelné ztrátové funkce představující cenu zaplacenou za nepřesnost předpovědí v roce 2006 klasifikační problémy (problémy s identifikací, do které kategorie konkrétní pozorování patří).^[1] Dáno ${ displaystyle { mathcal {X}}}$ jako prostor všech možných vstupů (obvykle ${ displaystyle { mathcal {X}} podmnožina mathbb {R} ^ {d}}$ ), a ${ displaystyle { mathcal {Y}} = {- 1,1 }}$ jako sada návěští (možných výstupů) je typickým cílem klasifikačních algoritmů nalezení funkce ${ displaystyle f: { mathcal {X}} mapsto mathbb {R}}$ který nejlépe předpovídá označení ${ displaystyle y}$ pro daný vstup ${ displaystyle { vec {x}}}$ .^[2] Kvůli neúplným informacím, šumu v měření nebo pravděpodobnostním složkám v základním procesu je však možné ${ displaystyle { vec {x}}}$ generovat různé ${ displaystyle y}$ .^[3] Výsledkem je, že cílem problému učení je minimalizovat očekávanou ztrátu (označovanou také jako riziko) definovanou jako

{ displaystyle I [f] = displaystyle int _ {{ mathcal {X}} krát { mathcal {Y}}} V (f ({ vec {x}}), y) p ({ vec {x}}, y) , d { vec {x}} , dy}

kde ${ displaystyle V (f ({ vec {x}}), y)}$ je daná ztrátová funkce a ${ displaystyle p ({ vec {x}}, y)}$ je funkce hustoty pravděpodobnosti procesu, který generoval data, který lze ekvivalentně zapsat jako

{ displaystyle p ({ vec {x}}, y) = p (y mid { vec {x}}) p ({ vec {x}}).}

V rámci klasifikace je několik běžně používaných ztrátové funkce jsou psány výhradně z hlediska produktu skutečné etikety ${ displaystyle y}$ a předpokládaný štítek ${ displaystyle f ({ vec {x}})}$ . Proto je lze definovat jako funkce pouze jedné proměnné ${ displaystyle upsilon = yf ({ vec {x}})}$ , aby ${ displaystyle V (f ({ vec {x}}), y) = phi (yf ({ vec {x}})) = phi ( upsilon)}$ s vhodně zvolenou funkcí ${ displaystyle phi: mathbb {R} až mathbb {R}}$ . Tito se nazývají ztrátové funkce založené na marži. Výběr funkce ztráty na základě marže se rovná výběru ${ displaystyle phi}$ . Výběr funkce ztráty v tomto rámci ovlivňuje optimální ${ displaystyle f _ { phi} ^ {*}}$ což minimalizuje očekávané riziko.

V případě binární klasifikace je možné zjednodušit výpočet očekávaného rizika z výše uvedeného integrálu. Konkrétně

{ displaystyle { begin {aligned} I [f] & = int _ {{ mathcal {X}} times { mathcal {Y}}} V (f ({ vec {x}}), y ) p ({ vec {x}}, y) , d { vec {x}} , dy [6pt] & = int _ { mathcal {X}} int _ { mathcal { Y}} phi (yf ({ vec {x}})) p (y mid { vec {x}}) p ({ vec {x}}) , dy , d { vec { x}} [6pt] & = int _ { mathcal {X}} [ phi (f ({ vec {x}})) p (1 mid { vec {x}}) + phi (-f ({ vec {x}})) p (-1 mid { vec {x}})] p ({ vec {x}}) , d { vec {x}} [6pt] & = int _ { mathcal {X}} [ phi (f ({ vec {x}})) p (1 mid { vec {x}}) + phi (-f ({ vec {x}})) (1-p (1 mid { vec {x}}))] p ({ vec {x}}) , d { vec {x}} konec {zarovnaný}}}

Druhá rovnost vyplývá z vlastností popsaných výše. Třetí rovnost vyplývá ze skutečnosti, že 1 a −1 jsou jediné možné hodnoty pro ${ displaystyle y}$ a čtvrtý protože ${ displaystyle p (-1 mid x) = 1-p (1 mid x)}$ . Termín v závorkách ${ displaystyle [ phi (f ({ vec {x}})) p (1 střední { vec {x}}) + phi (-f ({ vec {x}})) (1- p (1 mid { vec {x}}))}}$ je známý jako podmíněné riziko.

Jeden může vyřešit pro minimalizátor ${ displaystyle I [f]}$ převzetím funkční derivace poslední rovnosti s ohledem na ${ displaystyle f}$ a nastavení derivace na 0. Výsledkem bude následující rovnice

{ displaystyle { frac { částečné phi (f)} { částečné f}} eta + { frac { částečné phi (-f)} { částečné f}} (1- eta) = 0 ; ; ; ; ; (1)}

což je také ekvivalentní nastavení derivace podmíněného rizika na nulu.

Vzhledem k binární povaze klasifikace je přirozený výběr ztrátové funkce (za předpokladu stejné ceny pro falešně pozitivní a falešně negativní ) by byl Funkce ztráty 0-1 (0–1 funkce indikátoru ), který nabývá hodnoty 0, pokud se předpokládaná klasifikace rovná klasické třídě, nebo 1, pokud se předpokládaná klasifikace neshoduje se skutečnou třídou. Tento výběr je modelován uživatelem

{ displaystyle V (f ({ vec {x}}), y) = H (-yf ({ vec {x}}))}

kde ${ displaystyle H}$ označuje Funkce Heaviside step Tato ztrátová funkce je však nekonvexní a nehladká a řešení pro optimální řešení je NP-tvrdé kombinační optimalizační problém.^[4] Ve výsledku je lepší nahradit náhradní funkce ztráty které jsou vhodné pro běžně používané algoritmy učení, protože mají výhodné vlastnosti, jako jsou konvexní a hladké. Kromě jejich výpočetní využitelnosti je možné ukázat, že řešení problému učení pomocí těchto náhradních ztrát umožňuje obnovení skutečného řešení původního klasifikačního problému.^[5] Některé z těchto náhrad jsou popsány níže.

V praxi rozdělení pravděpodobnosti ${ displaystyle p ({ vec {x}}, y)}$ není známo. V důsledku toho s využitím tréninkové sady ${ displaystyle n}$ nezávisle a identicky distribuovány ukázkové body

{ displaystyle S = {({ vec {x}} _ {1}, y_ {1}), tečky, ({ vec {x}} _ {n}, y_ {n}) }}

čerpané z údajů ukázkový prostor, jeden se snaží minimalizovat empirické riziko

{ displaystyle I_ {S} [f] = { frac {1} {n}} suma _ {i = 1} ^ {n} V (f ({ vec {x}} _ {i}), y_ {i})}

jako zástupce očekávaného rizika.^[3] (Vidět statistická teorie učení pro podrobnější popis.)

Bayesova konzistence

Využití Bayesova věta, lze ukázat, že optimální ${ displaystyle f_ {0/1} ^ {*}}$ , tj. ten, který minimalizuje očekávané riziko spojené se ztrátou nula jedna, implementuje Bayesovo pravidlo optimálního rozhodování pro problém s binární klasifikací a má formu

{ displaystyle f_ {0/1} ^ {*} ({ vec {x}}) ; = ; { begin {cases} ; ; ; 1 & { text {if}} p (1 mid { vec {x}})> p (-1 mid { vec {x}}) ; ; ; 0 & { text {if}} p (1 mid { vec { x}}) = p (-1 mid { vec {x}}) - 1 & { text {if}} p (1 mid { vec {x}})

.

Funkce ztráty se říká, že je klasifikace kalibrovaná nebo Bayes konzistentní pokud je to optimální ${ displaystyle f _ { phi} ^ {*}}$ je takový ${ displaystyle f_ {0/1} ^ {*} ({ vec {x}}) = operatorname {sgn} (f _ { phi} ^ {*} ({ vec {x}}))}$ a je tedy optimální podle pravidla Bayesova rozhodnutí. Funkce Bayesovy konzistentní ztráty nám umožňuje najít funkci Bayesova optimálního rozhodování ${ displaystyle f _ { phi} ^ {*}}$ přímou minimalizací očekávaného rizika a bez nutnosti explicitně modelovat funkce hustoty pravděpodobnosti.

Pro konvexní ztrátu marže ${ displaystyle phi ( upsilon)}$ , lze ukázat, že ${ displaystyle phi ( upsilon)}$ je Bayes konzistentní, právě když je rozlišitelný na 0 a ${ displaystyle phi '(0) = 0}$ .^[6]^[1] Tento výsledek přesto nevylučuje existenci nekonvexních Bayesových konzistentních ztrátových funkcí. Obecnější výsledek uvádí, že Bayesovy konzistentní ztrátové funkce lze generovat pomocí následující formulace ^[7]

{ displaystyle phi (v) = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] ; ; ; ; ; (2)}

,

kde ${ displaystyle f ( eta), (0 leq eta leq 1)}$ je jakákoli invertibilní funkce taková, že ${ displaystyle f ^ {- 1} (- v) = 1-f ^ {- 1} (v)}$ a ${ displaystyle C ( eta)}$ je jakákoli diferencovatelná striktně konkávní funkce taková ${ displaystyle C ( eta) = C (1- eta)}$ . Tabulka I ukazuje vygenerované Bayesovy konzistentní ztrátové funkce pro některé ukázkové volby ${ displaystyle C ( eta)}$ a ${ displaystyle f ^ {- 1} (v)}$ . Všimněte si, že Savage a Tangent ztráta nejsou konvexní. Ukázalo se, že tyto nekonvexní ztrátové funkce jsou užitečné při řešení odlehlých hodnot při klasifikaci.^[7]^[8] Pro všechny ztrátové funkce generované z (2), zadní pravděpodobnost ${ displaystyle p (y = 1 | { vec {x}})}$ lze najít pomocí invertible funkce propojení tak jako ${ displaystyle p (y = 1 | { vec {x}}) = eta = f ^ {- 1} (v)}$ . Takové ztrátové funkce, u kterých lze zadní pravděpodobnost získat pomocí invertibilního spojení, se nazývají správné ztrátové funkce.

Tabulka I
Ztráta jména	${ displaystyle phi (v)}$	${ displaystyle C ( eta)}$	${ displaystyle f ^ {- 1} (v)}$	${ displaystyle f ( eta)}$
Exponenciální	${ displaystyle e ^ {- v}}$	${ displaystyle 2 { sqrt { eta (1- eta)}}}$	${ displaystyle { frac {e ^ {2v}} {1 + e ^ {2v}}}}$	${ displaystyle { frac {1} {2}} log ({ frac { eta} {1- eta}})}$
Logistické	${ displaystyle { frac {1} { log (2)}} log (1 + e ^ {- v})}$	${ displaystyle { frac {1} { log (2)}} [- eta log ( eta) - (1- eta) log (1- eta)]}$	${ displaystyle { frac {e ^ {v}} {1 + e ^ {v}}}}$	${ displaystyle log ({ frac { eta} {1- eta}})}$
Náměstí	${ displaystyle (1-v) ^ {2}}$	${ displaystyle 4 eta (1- eta)}$	${ displaystyle { frac {1} {2}} (v + 1)}$	${ displaystyle 2 eta -1}$
Savage	${ displaystyle { frac {1} {(1 + e ^ {v}) ^ {2}}}}$	${ displaystyle eta (1- eta)}$	${ displaystyle { frac {e ^ {v}} {1 + e ^ {v}}}}$	${ displaystyle log ({ frac { eta} {1- eta}})}$
Tečna	${ displaystyle (2 arctan (v) -1) ^ {2}}$	${ displaystyle 4 eta (1- eta)}$	${ displaystyle arctan (v) + { frac {1} {2}}}$	${ displaystyle tan ( eta - { frac {1} {2}})}$

Jediný minimalizátor očekávaného rizika, ${ displaystyle f _ { phi} ^ {*}}$ , spojené s výše generovanými ztrátovými funkcemi lze přímo najít z rovnice (1) a ukázat, že se rovnají odpovídajícím ${ displaystyle f ( eta)}$ . To platí i pro nekonvexní ztrátové funkce, což znamená, že algoritmy založené na gradientním sestupu, jako je zvýšení gradientu lze použít ke konstrukci minimalizátoru.

Správné ztrátové funkce, ztrátová marže a regularizace

(Červená) standardní logistická ztráta (

{ displaystyle gamma = 1, mu = 2}

) a (modrá) zvýšená marže Logistická ztráta (

{ displaystyle gamma = 0,2}

).

Pro správnou funkci ztráty slouží ztrátová marže lze definovat jako ${ displaystyle mu _ { phi} = - { frac { phi '(0)} { phi' '(0)}}}$ a ukázalo se, že přímo souvisí s regularizačními vlastnostmi klasifikátoru.^[9] Konkrétně ztráta funkce většího rozpětí zvyšuje regularizaci a vytváří lepší odhady zadní pravděpodobnosti. Ztrátovou marži lze například zvýšit u logistické ztráty zavedením a ${ displaystyle gamma}$ parametr a zápis logistické ztráty jako ${ displaystyle { frac {1} { gamma}} log (1 + e ^ {- gamma v})}$ kde menší ${ displaystyle 0 < gamma <1}$ zvyšuje rozpětí ztráty. Ukazuje se, že to je přímo ekvivalentní snížení rychlosti učení v zvýšení gradientu ${ displaystyle F_ {m} (x) = F_ {m-1} (x) + gamma h_ {m} (x),}$ kde klesá ${ displaystyle gamma}$ zlepšuje regularizaci zesíleného klasifikátoru. Z teorie je jasné, že když se rychlost učení učí ${ displaystyle gamma}$ je použit správný vzorec pro získání zadní pravděpodobnosti ${ displaystyle eta = f ^ {- 1} ( gamma F (x))}$ .

Závěrem lze říci, že výběrem funkce ztráty s větší marží (menší ${ displaystyle gamma}$ ) zvyšujeme regularizaci a zlepšujeme naše odhady zadní pravděpodobnosti, což zase zlepšuje ROC křivku konečného klasifikátoru.

Čtvercová ztráta

Zatímco běžněji se používá v regresi, lze funkci čtvercové ztráty přepsat jako funkci ${ displaystyle phi (yf ({ vec {x}}))}$ a používá se pro klasifikaci. Může být generován pomocí (2) a tabulky-I následujícím způsobem

{ displaystyle phi (v) = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = 4 ({ frac {1} {2}} (v + 1)) (1 - { frac {1} {2}} (v + 1)) + (1 - { frac {1} {2}} (v + 1)) (4-8 ({ frac {1} {2}} (v + 1))) = (1-v) ^ {2}.}

Funkce kvadratických ztrát je konvexní a hladká. Funkce kvadratických ztrát má však tendenci nadměrně penalizovat odlehlé hodnoty, což vede k pomalejší míře konvergence (s ohledem na složitost vzorku) než u funkcí logistické ztráty nebo ztráty závěsu.^[1] Kromě toho funkce, které poskytují vysoké hodnoty ${ displaystyle f ({ vec {x}})}$ pro některé ${ displaystyle x v X}$ bude fungovat špatně s funkcí kvadratické ztráty, protože vysoké hodnoty ${ displaystyle yf ({ vec {x}})}$ bude přísně potrestán, bez ohledu na to, zda jsou známky ${ displaystyle y}$ a ${ displaystyle f ({ vec {x}})}$ zápas.

Výhodou funkce kvadratických ztrát je, že její struktura umožňuje snadné křížové ověřování parametrů regularizace. Konkrétně pro Tichonovova regularizace, lze vyřešit parametr regularizace pomocí ponechat-ven-ven křížová validace zároveň by to trvalo vyřešit jeden problém.^[10]

Minimalizátor ${ displaystyle I [f]}$ pro funkci kvadratické ztráty lze přímo najít z rovnice (1) jako

{ displaystyle f _ { text {Square}} ^ {*} = 2 eta -1 = 2p (1 mid x) -1.}

Logistická ztráta

Funkci logistické ztráty lze vygenerovat pomocí (2) a tabulky-I následujícím způsobem

{ displaystyle { begin {zarovnáno} phi (v) & = C [f ^ {- 1} (v)] + left (1-f ^ {- 1} (v) right) , C ' left [f ^ {- 1} (v) right] & = { frac {1} { log (2)}} left [{ frac {-e ^ {v}} {1+ e ^ {v}}} log { frac {e ^ {v}} {1 + e ^ {v}}} - left (1 - { frac {e ^ {v}} {1 + e ^ {v}}} right) log left (1 - { frac {e ^ {v}} {1 + e ^ {v}}} right) right] + left (1 - { frac {e ^ {v}} {1 + e ^ {v}}} vpravo) vlevo [{ frac {-1} { log (2)}} log vlevo ({ frac { frac { e ^ {v}} {1 + e ^ {v}}} {1 - { frac {e ^ {v}} {1 + e ^ {v}}}}} vpravo) vpravo] & = { frac {1} { log (2)}} log (1 + e ^ {- v}). end {zarovnáno}}}

Logistická ztráta je konvexní a roste lineárně pro záporné hodnoty, díky nimž je méně citlivá na odlehlé hodnoty. Logistická ztráta se používá v Algoritmus LogitBoost.

Minimalizátor ${ displaystyle I [f]}$ pro funkci logistické ztráty lze přímo najít z rovnice (1) jako

{ displaystyle f _ { text {Logistic}} ^ {*} = log left ({ frac { eta} {1- eta}} right) = log left ({ frac {p ( 1 mid x)} {1-p (1 mid x)}} right).}

Tato funkce není definována, když ${ displaystyle p (1 mid x) = 1}$ nebo ${ displaystyle p (1 mid x) = 0}$ (směřující k ∞ a −∞), ale předpovídá hladkou křivku, která roste, když ${ displaystyle p (1 mid x)}$ se zvyšuje a rovná se 0, když ${ displaystyle p (1 mid x) = 0,5}$ .^[3]

Je snadné zkontrolovat, zda logistické ztráty a binární křížová entropie ztráta (ztráta protokolu) jsou ve skutečnosti stejné (až do multiplikativní konstanty ${ displaystyle { frac {1} { log (2)}}}$ Ztráta křížové entropie úzce souvisí s Kullback – Leiblerova divergence mezi empirickým rozdělením a předpokládaným rozdělením. Ztráta křížové entropie je v dnešní době všudypřítomná hluboké neuronové sítě.

Exponenciální ztráta

Funkci exponenciální ztráty lze generovat pomocí (2) a tabulky-I následujícím způsobem

{ displaystyle phi (v) = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = 2 { sqrt {({ frac {e ^ {2v}} {1 + e ^ {2v}}}) (1 - { frac {e ^ {2v}} {1 + e ^ {2v}}}) }} + (1 - { frac {e ^ {2v}} {1 + e ^ {2v}}}) ({ frac {1 - { frac {2e ^ {2v}} {1 + e ^ { 2v}}}} { sqrt {{ frac {e ^ {2v}} {1 + e ^ {2v}}} (1 - { frac {e ^ {2v}} {1 + e ^ {2v} }})}}}) = e ^ {- v}}

Exponenciální ztráta je konvexní a exponenciálně roste pro záporné hodnoty, díky čemuž je citlivější na odlehlé hodnoty. Exponenciální ztráta se používá v Algoritmus AdaBoost.

Minimalizátor ${ displaystyle I [f]}$ pro funkci exponenciální ztráty lze přímo najít z rovnice (1) jako

{ displaystyle f _ { text {Exp}} ^ {*} = { frac {1} {2}} log left ({ frac { eta} {1- eta}} right) = { frac {1} {2}} log left ({ frac {p (1 mid x)} {1-p (1 mid x)}} right).}

Savage ztráta

Ztráta Savage^[7] lze generovat pomocí (2) a tabulky-I následujícím způsobem

{ displaystyle phi (v) = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = ( { frac {e ^ {v}} {1 + e ^ {v}}}) (1 - { frac {e ^ {v}} {1 + e ^ {v}}}) + (1- { frac {e ^ {v}} {1 + e ^ {v}}}) (1 - { frac {2e ^ {v}} {1 + e ^ {v}}}) = { frac {1 } {(1 + e ^ {v}) ^ {2}}}.}

Ztráta Savage je kvazi-konvexní a je omezena na velké záporné hodnoty, díky nimž je méně citlivá na odlehlé hodnoty. Ztráta Savage byla použita v zvýšení gradientu a algoritmus SavageBoost.

Minimalizátor ${ displaystyle I [f]}$ pro funkci Savage loss lze přímo najít z rovnice (1) jako

{ displaystyle f _ { text {Savage}} ^ {*} = log left ({ frac { eta} {1- eta}} right) = log left ({ frac {p ( 1 mid x)} {1-p (1 mid x)}} right).}

Tečná ztráta

Tečná ztráta^[11] lze generovat pomocí (2) a tabulky-I následujícím způsobem

{ displaystyle { begin {zarovnáno} phi (v) & = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1 } (v)] = 4 ( arctan (v) + { frac {1} {2}}) (1 - ( arctan (v) + { frac {1} {2}})) + (1 - ( arctan (v) + { frac {1} {2}})) (4-8 ( arctan (v) + { frac {1} {2}})) & = (2 arctan (v) -1) ^ {2}. end {zarovnáno}}}

Ztráta tečny je kvazi-konvexní a je omezena na velké záporné hodnoty, díky čemuž je méně citlivá na odlehlé hodnoty. Je zajímavé, že ztráta tangenty také přiřadí omezený trest datovým bodům, které byly klasifikovány „příliš správně“. To může pomoci zabránit přílišnému proškolení v datové sadě. Ztráta tangenta byla použita v zvýšení gradientu, algoritmus TangentBoost a lesy střídavého rozhodování.^[12]

Minimalizátor ${ displaystyle I [f]}$ pro funkci ztráty tečny lze přímo najít z rovnice (1) jako

{ displaystyle f _ { text {tečna}} ^ {*} = tan ( eta - { frac {1} {2}}) = tan (p (1 mid x) - { frac {1 } {2}}).}

Ztráta závěsu

Funkce ztráty závěsu je definována pomocí ${ displaystyle phi ( upsilon) = max (0,1- upsilon) = [1- upsilon] _ {+}}$ , kde ${ displaystyle [a] _ {+} = max (0, a)}$ je pozitivní část funkce.

{ displaystyle V (f ({ vec {x}}), y) = max (0,1-yf ({ vec {x}})) = [1-yf ({ vec {x}} )] _ {+}.}

Ztráta závěsu poskytuje relativně pevnou, konvexní horní hranici na 0–1 funkce indikátoru. Konkrétně se ztráta závěsu rovná 0–1 funkce indikátoru když ${ displaystyle operatorname {sgn} (f ({ vec {x}})) = y}$ a ${ displaystyle | yf ({ vec {x}}) | geq 1}$ . Empirická minimalizace rizika této ztráty je navíc ekvivalentní klasické formulaci pro podporovat vektorové stroje (SVM). Správně klasifikované body ležící mimo okrajové hranice vektorů podpory nejsou penalizovány, zatímco body uvnitř okrajových hranic nebo na špatné straně nadroviny jsou penalizovány lineárně ve srovnání s jejich vzdáleností od správné hranice.^[4]

Zatímco funkce ztráty závěsu je konvexní i spojitá, není hladká (není diferencovatelná) ${ displaystyle yf ({ vec {x}}) = 1}$ . V důsledku toho nelze použít funkci ztráty závěsu klesání metody nebo stochastický gradient metody, které spoléhají na rozlišitelnost v celé doméně. Ztráta závěsu má však podstupeň ${ displaystyle yf ({ vec {x}}) = 1}$ , což umožňuje využití metody podstupňového sestupu.^[4] SVM využívající funkci ztráty závěsu lze také vyřešit pomocí kvadratické programování.

Minimalizátor ${ displaystyle I [f]}$ pro funkci ztráty závěsu je

{ displaystyle f _ { text {Závěs}} ^ {*} ({ vec {x}}) ; = ; { begin {cases} 1 & { text {if}} p (1 mid { vec {x}})> p (-1 mid { vec {x}}) - 1 & { text {if}} p (1 mid { vec {x}})

když ${ Displaystyle p (1 mid x) neq 0,5}$ , který odpovídá funkci indikátoru 0–1. Tento závěr činí ztrátu závěsu docela atraktivní, protože lze stanovit hranice rozdílu mezi očekávaným rizikem a známkou funkce ztráty závěsu.^[1] Ztráta závěsu nelze odvodit z (2), protože ${ displaystyle f _ { text {Závěs}} ^ {*}}$ není invertibilní.

Zobecněná hladká ztráta závěsu

Zobecněná funkce ztráty hladkého závěsu s parametrem ${ displaystyle alpha}$ je definován jako

{ displaystyle f _ { alpha} ^ {*} (z) ; = ; { begin {cases} { frac { alpha} { alpha +1}} - z & { text {if}} z leq 0 { frac {1} { alpha +1}} z ^ { alpha +1} -z + { frac { alpha} { alpha +1}} & { text {if}} 0

kde

{ displaystyle z = yf ({ vec {x}}).}

Monotónně se zvyšuje a když dosáhne 0 ${ displaystyle z = 1}$ .

Reference

^ ^A ^b ^C ^d Rosasco, L .; De Vito, E. D .; Caponnetto, A .; Piana, M .; Verri, A. (2004). „Jsou funkce ztráty stejné? (PDF). Neurální výpočet. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510. S2CID 11845688.
^ Shen, Yi (2005), Funkce ztráty pro binární klasifikaci a odhad pravděpodobnosti třídy (PDF), University of Pennsylvania, vyvoláno 6. prosince 2014
^ ^A ^b ^C Rosasco, Lorenzo; Poggio, Tomaso (2014), Regularizační prohlídka strojového učení, MIT-9.520 Poznámky k přednáškám, rukopis
^ ^A ^b ^C Piyush, Rai (13. září 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350 / 6350: Machine Learning, vyvoláno 6. prosince 2014
^ Ramanan, Deva (27. února 2008), Přednáška 14 (PDF), UCI ICS273A: Machine Learning, vyvoláno 6. prosince 2014
^ Bartlett, Peter L .; Jordan, Michael I .; Mcauliffe, Jon D. (2006). "Konvexita, klasifikace a hranice rizika". Journal of the American Statistical Association. 101 (473): 138–156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445. S2CID 2833811.
^ ^A ^b ^C Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). „K návrhu ztrátových funkcí pro klasifikaci: teorie, robustnost vůči odlehlým hodnotám a SavageBoost“ (PDF). Sborník z 21. mezinárodní konference o systémech zpracování neurálních informací. NIPS'08. USA: Curran Associates Inc .: 1049–1056. ISBN 9781605609492.
^ Leistner, C .; Saffari, A .; Roth, P. M .; Bischof, H. (září 2009). „O robustnosti online podpory - konkurenční studie“. 2009 12. mezinárodní konference IEEE o seminářích o počítačovém vidění, workshopy ICCV: 1362–1369. doi:10.1109 / ICCVW.2009.5457451. ISBN 978-1-4244-4442-7. S2CID 6032045.
^ Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). „Pohled na maržové ztráty jako regulátory odhadů pravděpodobnosti“. Journal of Machine Learning Research. 16 (85): 2751–2795. ISSN 1533-7928.
^ Rifkin, Ryan M .; Lippert, Ross A. (1. května 2007), Poznámky k regularizovaným nejméně čtvercům (PDF), MIT Laboratoř informatiky a umělé inteligence
^ Masnadi-Shirazi, H .; Mahadevan, V .; Vasconcelos, N. (červen 2010). "K návrhu robustních klasifikátorů pro počítačové vidění". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition: 779–786. CiteSeerX 10.1.1.172.6416. doi:10.1109 / CVPR.2010.5540136. ISBN 978-1-4244-6984-0. S2CID 632758.
^ Schulter, S .; Wohlhart, P .; Leistner, C .; Saffari, A .; Roth, P. M .; Bischof, H. (červen 2013). "Střídavé rozhodovací lesy". Konference IEEE 2013 o počítačovém vidění a rozpoznávání vzorů: 508–515. CiteSeerX 10.1.1.301.1305. doi:10.1109 / CVPR.2013.72. ISBN 978-0-7695-4989-7. S2CID 6557162.

[mit-1] A ^b ^C ^d Rosasco, L .; De Vito, E. D .; Caponnetto, A .; Piana, M .; Verri, A. (2004). „Jsou funkce ztráty stejné? (PDF). Neurální výpočet. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510. S2CID 11845688.

[penn-2] Shen, Yi (2005), Funkce ztráty pro binární klasifikaci a odhad pravděpodobnosti třídy (PDF), University of Pennsylvania, vyvoláno 6. prosince 2014

[mitlec-3] A ^b ^C Rosasco, Lorenzo; Poggio, Tomaso (2014), Regularizační prohlídka strojového učení, MIT-9.520 Poznámky k přednáškám, rukopis

[Utah-4] A ^b ^C Piyush, Rai (13. září 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350 / 6350: Machine Learning, vyvoláno 6. prosince 2014

[uci-5] Ramanan, Deva (27. února 2008), Přednáška 14 (PDF), UCI ICS273A: Machine Learning, vyvoláno 6. prosince 2014

[6] Bartlett, Peter L .; Jordan, Michael I .; Mcauliffe, Jon D. (2006). "Konvexita, klasifikace a hranice rizika". Journal of the American Statistical Association. 101 (473): 138–156. doi:10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445. S2CID 2833811.

[:0-7] A ^b ^C Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). „K návrhu ztrátových funkcí pro klasifikaci: teorie, robustnost vůči odlehlým hodnotám a SavageBoost“ (PDF). Sborník z 21. mezinárodní konference o systémech zpracování neurálních informací. NIPS'08. USA: Curran Associates Inc .: 1049–1056. ISBN 9781605609492.

[8] Leistner, C .; Saffari, A .; Roth, P. M .; Bischof, H. (září 2009). „O robustnosti online podpory - konkurenční studie“. 2009 12. mezinárodní konference IEEE o seminářích o počítačovém vidění, workshopy ICCV: 1362–1369. doi:10.1109 / ICCVW.2009.5457451. ISBN 978-1-4244-4442-7. S2CID 6032045.

[9] Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). „Pohled na maržové ztráty jako regulátory odhadů pravděpodobnosti“. Journal of Machine Learning Research. 16 (85): 2751–2795. ISSN 1533-7928.

[10] Rifkin, Ryan M .; Lippert, Ross A. (1. května 2007), Poznámky k regularizovaným nejméně čtvercům (PDF), MIT Laboratoř informatiky a umělé inteligence

[11] Masnadi-Shirazi, H .; Mahadevan, V .; Vasconcelos, N. (červen 2010). "K návrhu robustních klasifikátorů pro počítačové vidění". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition: 779–786. CiteSeerX 10.1.1.172.6416. doi:10.1109 / CVPR.2010.5540136. ISBN 978-1-4244-6984-0. S2CID 632758.

[12] Schulter, S .; Wohlhart, P .; Leistner, C .; Saffari, A .; Roth, P. M .; Bischof, H. (červen 2013). "Střídavé rozhodovací lesy". Konference IEEE 2013 o počítačovém vidění a rozpoznávání vzorů: 508–515. CiteSeerX 10.1.1.301.1305. doi:10.1109 / CVPR.2013.72. ISBN 978-0-7695-4989-7. S2CID 6557162.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]