Ztráta závěsu - Hinge loss

v strojové učení, ztráta závěsu je funkce ztráty slouží k tréninku klasifikátory. Ztráta závěsu se používá pro klasifikaci „maximálního rozpětí“, zejména pro podporovat vektorové stroje (SVM).[1]
Pro zamýšlený výstup t = ±1 a skóre klasifikátoru y, závěsná ztráta predikce y je definován jako
Všimněte si, že by měl být „surový“ výstup rozhodovací funkce klasifikátoru, nikoli předpokládaný štítek třídy. Například v lineárních SVM , kde jsou parametry nadrovina a je vstupní proměnná (proměnné).
Když t a y mít stejné znamení (význam y předpovídá správnou třídu) a , ztráta závěsu . Když mají opačné znaky, se zvyšuje lineárně s ya podobně, pokud , i když má stejné znaménko (správná předpověď, ale ne s dostatečným okrajem).
Rozšíření
Zatímco binární SVM jsou běžně rozšířeny na klasifikace více tříd způsobem jeden proti všem nebo jeden proti jednomu,[2]pro tento účel je také možné prodloužit samotnou ztrátu závěsu. Bylo navrženo několik různých variant ztráty závěsu více tříd.[3] Například Crammer a Singer[4]definoval pro lineární klasifikátor jako[5]
Kde cílový štítek, a parametry modelu.
Weston a Watkins poskytli podobnou definici, ale spíše se součtem než s maximem:[6][3]
v strukturovaná předpověď, ztrátu závěsu lze dále rozšířit na strukturované výstupní prostory. Strukturované SVM s přeškálováním okrajů použijte následující variantu, kde w označuje parametry SVM, y předpovědi SVM, φ funkce společné funkce a Δ the Hammingova ztráta:
Optimalizace
Ztráta závěsu je a konvexní funkce, může s ním pracovat tolik obvyklých konvexních optimalizátorů používaných ve strojovém učení. Není rozlišitelný, ale má subgradient s ohledem na parametry modelu w lineárního SVM s funkcí skóre to je dáno

Nicméně, protože derivát ztráty závěsu v není definováno, uhlazen pro optimalizaci mohou být upřednostňovány verze, jako například Rennie a Srebro[7]
nebo kvadraticky vyhlazeno
navrhl Zhang.[8] The modifikovaná Huberova ztráta je speciální případ této ztráty funkce s konkrétně .
Reference
- ^ Rosasco, L .; De Vito, E. D .; Caponnetto, A .; Piana, M .; Verri, A. (2004). „Jsou funkce ztráty stejné?“ (PDF). Neurální výpočet. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.
- ^ Duan, K. B .; Keerthi, S. S. (2005). „Jaká je nejlepší metoda SVM s více třídami? Empirická studie“ (PDF). Více systémů klasifikátoru. LNCS. 3541. str. 278–285. CiteSeerX 10.1.1.110.6789. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.
- ^ A b Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). „Jednotný pohled na klasifikaci vektorů podpory více tříd“ (PDF). Journal of Machine Learning Research. 17: 1–32.
- ^ Crammer, Koby; Singer, Yoram (2001). „O algoritmické implementaci vektorových strojů založených na jádru více tříd“ (PDF). Journal of Machine Learning Research. 2: 265–292.
- ^ Moore, Robert C .; DeNero, John (2011). „L1 a L.2 regularizace pro modely ztráty pantů s více třídami " (PDF). Proc. Symp. o strojovém učení ve zpracování řeči a jazyka.
- ^ Weston, Jason; Watkins, Chris (1999). „Support Vector Machines for Multi-Class Pattern Recognition“ (PDF). Evropské symposium o umělých neuronových sítích.
- ^ Rennie, Jason D. M .; Srebro, Nathan (2005). Funkce ztráty pro úrovně preferencí: Regrese s diskrétními objednanými štítky (PDF). Proc. IJCAI Multidisciplinární seminář o pokroku v manipulaci s preferencemi.
- ^ Zhang, Tong (2004). Řešení problémů lineární predikce ve velkém měřítku pomocí stochastických gradientních sestupových algoritmů (PDF). ICML.