Ztrátové funkce pro klasifikaci - Loss functions for classification

Funkce konzistentní ztráty Bayes: ztráta nula jedna (šedá), ztráta Savage (zelená), ztráta logistiky (oranžová), exponenciální ztráta (fialová), ztráta tangenta (hnědá), hranatá ztráta (modrá)

v strojové učení a matematická optimalizace, ztrátové funkce pro klasifikaci jsou výpočetně proveditelné ztrátové funkce představující cenu zaplacenou za nepřesnost předpovědí v roce 2006 klasifikační problémy (problémy s identifikací, do které kategorie konkrétní pozorování patří).[1] Dáno jako prostor všech možných vstupů (obvykle ), a jako sada návěští (možných výstupů) je typickým cílem klasifikačních algoritmů nalezení funkce který nejlépe předpovídá označení pro daný vstup .[2] Kvůli neúplným informacím, šumu v měření nebo pravděpodobnostním složkám v základním procesu je však možné generovat různé .[3] Výsledkem je, že cílem problému učení je minimalizovat očekávanou ztrátu (označovanou také jako riziko) definovanou jako

kde je daná ztrátová funkce a je funkce hustoty pravděpodobnosti procesu, který generoval data, který lze ekvivalentně zapsat jako

V rámci klasifikace je několik běžně používaných ztrátové funkce jsou psány výhradně z hlediska produktu skutečné etikety a předpokládaný štítek . Proto je lze definovat jako funkce pouze jedné proměnné , aby s vhodně zvolenou funkcí . Tito se nazývají ztrátové funkce založené na marži. Výběr funkce ztráty na základě marže se rovná výběru . Výběr funkce ztráty v tomto rámci ovlivňuje optimální což minimalizuje očekávané riziko.

V případě binární klasifikace je možné zjednodušit výpočet očekávaného rizika z výše uvedeného integrálu. Konkrétně

Druhá rovnost vyplývá z vlastností popsaných výše. Třetí rovnost vyplývá ze skutečnosti, že 1 a −1 jsou jediné možné hodnoty pro a čtvrtý protože . Termín v závorkách je známý jako podmíněné riziko.

Jeden může vyřešit pro minimalizátor převzetím funkční derivace poslední rovnosti s ohledem na a nastavení derivace na 0. Výsledkem bude následující rovnice

což je také ekvivalentní nastavení derivace podmíněného rizika na nulu.

Vzhledem k binární povaze klasifikace je přirozený výběr ztrátové funkce (za předpokladu stejné ceny pro falešně pozitivní a falešně negativní ) by byl Funkce ztráty 0-1 (0–1 funkce indikátoru ), který nabývá hodnoty 0, pokud se předpokládaná klasifikace rovná klasické třídě, nebo 1, pokud se předpokládaná klasifikace neshoduje se skutečnou třídou. Tento výběr je modelován uživatelem

kde označuje Funkce Heaviside step Tato ztrátová funkce je však nekonvexní a nehladká a řešení pro optimální řešení je NP-tvrdé kombinační optimalizační problém.[4] Ve výsledku je lepší nahradit náhradní funkce ztráty které jsou vhodné pro běžně používané algoritmy učení, protože mají výhodné vlastnosti, jako jsou konvexní a hladké. Kromě jejich výpočetní využitelnosti je možné ukázat, že řešení problému učení pomocí těchto náhradních ztrát umožňuje obnovení skutečného řešení původního klasifikačního problému.[5] Některé z těchto náhrad jsou popsány níže.

V praxi rozdělení pravděpodobnosti není známo. V důsledku toho s využitím tréninkové sady nezávisle a identicky distribuovány ukázkové body

čerpané z údajů ukázkový prostor, jeden se snaží minimalizovat empirické riziko

jako zástupce očekávaného rizika.[3] (Vidět statistická teorie učení pro podrobnější popis.)

Bayesova konzistence

Využití Bayesova věta, lze ukázat, že optimální , tj. ten, který minimalizuje očekávané riziko spojené se ztrátou nula jedna, implementuje Bayesovo pravidlo optimálního rozhodování pro problém s binární klasifikací a má formu

Funkce ztráty se říká, že je klasifikace kalibrovaná nebo Bayes konzistentní pokud je to optimální je takový a je tedy optimální podle pravidla Bayesova rozhodnutí. Funkce Bayesovy konzistentní ztráty nám umožňuje najít funkci Bayesova optimálního rozhodování přímou minimalizací očekávaného rizika a bez nutnosti explicitně modelovat funkce hustoty pravděpodobnosti.

Pro konvexní ztrátu marže , lze ukázat, že je Bayes konzistentní, právě když je rozlišitelný na 0 a .[6][1] Tento výsledek přesto nevylučuje existenci nekonvexních Bayesových konzistentních ztrátových funkcí. Obecnější výsledek uvádí, že Bayesovy konzistentní ztrátové funkce lze generovat pomocí následující formulace [7]

,

kde je jakákoli invertibilní funkce taková, že a je jakákoli diferencovatelná striktně konkávní funkce taková . Tabulka I ukazuje vygenerované Bayesovy konzistentní ztrátové funkce pro některé ukázkové volby a . Všimněte si, že Savage a Tangent ztráta nejsou konvexní. Ukázalo se, že tyto nekonvexní ztrátové funkce jsou užitečné při řešení odlehlých hodnot při klasifikaci.[7][8] Pro všechny ztrátové funkce generované z (2), zadní pravděpodobnost lze najít pomocí invertible funkce propojení tak jako . Takové ztrátové funkce, u kterých lze zadní pravděpodobnost získat pomocí invertibilního spojení, se nazývají správné ztrátové funkce.

Tabulka I
Ztráta jména
Exponenciální
Logistické
Náměstí
Savage
Tečna


Jediný minimalizátor očekávaného rizika, , spojené s výše generovanými ztrátovými funkcemi lze přímo najít z rovnice (1) a ukázat, že se rovnají odpovídajícím . To platí i pro nekonvexní ztrátové funkce, což znamená, že algoritmy založené na gradientním sestupu, jako je zvýšení gradientu lze použít ke konstrukci minimalizátoru.

Správné ztrátové funkce, ztrátová marže a regularizace

(Červená) standardní logistická ztráta () a (modrá) zvýšená marže Logistická ztráta ().

Pro správnou funkci ztráty slouží ztrátová marže lze definovat jako a ukázalo se, že přímo souvisí s regularizačními vlastnostmi klasifikátoru.[9] Konkrétně ztráta funkce většího rozpětí zvyšuje regularizaci a vytváří lepší odhady zadní pravděpodobnosti. Ztrátovou marži lze například zvýšit u logistické ztráty zavedením a parametr a zápis logistické ztráty jako kde menší zvyšuje rozpětí ztráty. Ukazuje se, že to je přímo ekvivalentní snížení rychlosti učení v zvýšení gradientu kde klesá zlepšuje regularizaci zesíleného klasifikátoru. Z teorie je jasné, že když se rychlost učení učí je použit správný vzorec pro získání zadní pravděpodobnosti .

Závěrem lze říci, že výběrem funkce ztráty s větší marží (menší ) zvyšujeme regularizaci a zlepšujeme naše odhady zadní pravděpodobnosti, což zase zlepšuje ROC křivku konečného klasifikátoru.

Čtvercová ztráta

Zatímco běžněji se používá v regresi, lze funkci čtvercové ztráty přepsat jako funkci a používá se pro klasifikaci. Může být generován pomocí (2) a tabulky-I následujícím způsobem

Funkce kvadratických ztrát je konvexní a hladká. Funkce kvadratických ztrát má však tendenci nadměrně penalizovat odlehlé hodnoty, což vede k pomalejší míře konvergence (s ohledem na složitost vzorku) než u funkcí logistické ztráty nebo ztráty závěsu.[1] Kromě toho funkce, které poskytují vysoké hodnoty pro některé bude fungovat špatně s funkcí kvadratické ztráty, protože vysoké hodnoty bude přísně potrestán, bez ohledu na to, zda jsou známky a zápas.

Výhodou funkce kvadratických ztrát je, že její struktura umožňuje snadné křížové ověřování parametrů regularizace. Konkrétně pro Tichonovova regularizace, lze vyřešit parametr regularizace pomocí ponechat-ven-ven křížová validace zároveň by to trvalo vyřešit jeden problém.[10]

Minimalizátor pro funkci kvadratické ztráty lze přímo najít z rovnice (1) jako

Logistická ztráta

Funkci logistické ztráty lze vygenerovat pomocí (2) a tabulky-I následujícím způsobem

Logistická ztráta je konvexní a roste lineárně pro záporné hodnoty, díky nimž je méně citlivá na odlehlé hodnoty. Logistická ztráta se používá v Algoritmus LogitBoost.

Minimalizátor pro funkci logistické ztráty lze přímo najít z rovnice (1) jako

Tato funkce není definována, když nebo (směřující k ∞ a −∞), ale předpovídá hladkou křivku, která roste, když se zvyšuje a rovná se 0, když .[3]

Je snadné zkontrolovat, zda logistické ztráty a binární křížová entropie ztráta (ztráta protokolu) jsou ve skutečnosti stejné (až do multiplikativní konstanty Ztráta křížové entropie úzce souvisí s Kullback – Leiblerova divergence mezi empirickým rozdělením a předpokládaným rozdělením. Ztráta křížové entropie je v dnešní době všudypřítomná hluboké neuronové sítě.

Exponenciální ztráta

Funkci exponenciální ztráty lze generovat pomocí (2) a tabulky-I následujícím způsobem

Exponenciální ztráta je konvexní a exponenciálně roste pro záporné hodnoty, díky čemuž je citlivější na odlehlé hodnoty. Exponenciální ztráta se používá v Algoritmus AdaBoost.

Minimalizátor pro funkci exponenciální ztráty lze přímo najít z rovnice (1) jako

Savage ztráta

Ztráta Savage[7] lze generovat pomocí (2) a tabulky-I následujícím způsobem

Ztráta Savage je kvazi-konvexní a je omezena na velké záporné hodnoty, díky nimž je méně citlivá na odlehlé hodnoty. Ztráta Savage byla použita v zvýšení gradientu a algoritmus SavageBoost.

Minimalizátor pro funkci Savage loss lze přímo najít z rovnice (1) jako

Tečná ztráta

Tečná ztráta[11] lze generovat pomocí (2) a tabulky-I následujícím způsobem

Ztráta tečny je kvazi-konvexní a je omezena na velké záporné hodnoty, díky čemuž je méně citlivá na odlehlé hodnoty. Je zajímavé, že ztráta tangenty také přiřadí omezený trest datovým bodům, které byly klasifikovány „příliš správně“. To může pomoci zabránit přílišnému proškolení v datové sadě. Ztráta tangenta byla použita v zvýšení gradientu, algoritmus TangentBoost a lesy střídavého rozhodování.[12]

Minimalizátor pro funkci ztráty tečny lze přímo najít z rovnice (1) jako

Ztráta závěsu

Funkce ztráty závěsu je definována pomocí , kde je pozitivní část funkce.

Ztráta závěsu poskytuje relativně pevnou, konvexní horní hranici na 0–1 funkce indikátoru. Konkrétně se ztráta závěsu rovná 0–1 funkce indikátoru když a . Empirická minimalizace rizika této ztráty je navíc ekvivalentní klasické formulaci pro podporovat vektorové stroje (SVM). Správně klasifikované body ležící mimo okrajové hranice vektorů podpory nejsou penalizovány, zatímco body uvnitř okrajových hranic nebo na špatné straně nadroviny jsou penalizovány lineárně ve srovnání s jejich vzdáleností od správné hranice.[4]

Zatímco funkce ztráty závěsu je konvexní i spojitá, není hladká (není diferencovatelná) . V důsledku toho nelze použít funkci ztráty závěsu klesání metody nebo stochastický gradient metody, které spoléhají na rozlišitelnost v celé doméně. Ztráta závěsu má však podstupeň , což umožňuje využití metody podstupňového sestupu.[4] SVM využívající funkci ztráty závěsu lze také vyřešit pomocí kvadratické programování.

Minimalizátor pro funkci ztráty závěsu je

když , který odpovídá funkci indikátoru 0–1. Tento závěr činí ztrátu závěsu docela atraktivní, protože lze stanovit hranice rozdílu mezi očekávaným rizikem a známkou funkce ztráty závěsu.[1] Ztráta závěsu nelze odvodit z (2), protože není invertibilní.

Zobecněná hladká ztráta závěsu

Zobecněná funkce ztráty hladkého závěsu s parametrem je definován jako

kde

Monotónně se zvyšuje a když dosáhne 0 .

Reference

  1. ^ A b C d Rosasco, L .; De Vito, E. D .; Caponnetto, A .; Piana, M .; Verri, A. (2004). „Jsou funkce ztráty stejné? (PDF). Neurální výpočet. 16 (5): 1063–1076. CiteSeerX  10.1.1.109.6786. doi:10.1162/089976604773135104. PMID  15070510. S2CID  11845688.
  2. ^ Shen, Yi (2005), Funkce ztráty pro binární klasifikaci a odhad pravděpodobnosti třídy (PDF), University of Pennsylvania, vyvoláno 6. prosince 2014
  3. ^ A b C Rosasco, Lorenzo; Poggio, Tomaso (2014), Regularizační prohlídka strojového učení, MIT-9.520 Poznámky k přednáškám, rukopis
  4. ^ A b C Piyush, Rai (13. září 2011), Support Vector Machines (Contd.), Classification Loss Functions and Regularizers (PDF), Utah CS5350 / 6350: Machine Learning, vyvoláno 6. prosince 2014
  5. ^ Ramanan, Deva (27. února 2008), Přednáška 14 (PDF), UCI ICS273A: Machine Learning, vyvoláno 6. prosince 2014
  6. ^ Bartlett, Peter L .; Jordan, Michael I .; Mcauliffe, Jon D. (2006). "Konvexita, klasifikace a hranice rizika". Journal of the American Statistical Association. 101 (473): 138–156. doi:10.1198/016214505000000907. ISSN  0162-1459. JSTOR  30047445. S2CID  2833811.
  7. ^ A b C Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). „K návrhu ztrátových funkcí pro klasifikaci: teorie, robustnost vůči odlehlým hodnotám a SavageBoost“ (PDF). Sborník z 21. mezinárodní konference o systémech zpracování neurálních informací. NIPS'08. USA: Curran Associates Inc .: 1049–1056. ISBN  9781605609492.
  8. ^ Leistner, C .; Saffari, A .; Roth, P. M .; Bischof, H. (září 2009). „O robustnosti online podpory - konkurenční studie“. 2009 12. mezinárodní konference IEEE o seminářích o počítačovém vidění, workshopy ICCV: 1362–1369. doi:10.1109 / ICCVW.2009.5457451. ISBN  978-1-4244-4442-7. S2CID  6032045.
  9. ^ Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). „Pohled na maržové ztráty jako regulátory odhadů pravděpodobnosti“. Journal of Machine Learning Research. 16 (85): 2751–2795. ISSN  1533-7928.
  10. ^ Rifkin, Ryan M .; Lippert, Ross A. (1. května 2007), Poznámky k regularizovaným nejméně čtvercům (PDF), MIT Laboratoř informatiky a umělé inteligence
  11. ^ Masnadi-Shirazi, H .; Mahadevan, V .; Vasconcelos, N. (červen 2010). "K návrhu robustních klasifikátorů pro počítačové vidění". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition: 779–786. CiteSeerX  10.1.1.172.6416. doi:10.1109 / CVPR.2010.5540136. ISBN  978-1-4244-6984-0. S2CID  632758.
  12. ^ Schulter, S .; Wohlhart, P .; Leistner, C .; Saffari, A .; Roth, P. M .; Bischof, H. (červen 2013). "Střídavé rozhodovací lesy". Konference IEEE 2013 o počítačovém vidění a rozpoznávání vzorů: 508–515. CiteSeerX  10.1.1.301.1305. doi:10.1109 / CVPR.2013.72. ISBN  978-0-7695-4989-7. S2CID  6557162.