Plattovo měřítko - Platt scaling

v strojové učení, Plattovo měřítko nebo Plattova kalibrace je způsob transformace výstupů a klasifikační model do rozdělení pravděpodobnosti do tříd. Metodu vynalezl John Platt v kontextu podporovat vektorové stroje,^[1]nahrazení dřívější metody metodou Vapnik, ale lze jej použít na jiné klasifikační modely.^[2]Plattovo škálování funguje namontováním a logistická regrese model do skóre klasifikátoru.

Popis

Zvažte problém binární klasifikace: pro vstupy $X$ , chceme zjistit, zda patří do jedné ze dvou tříd, libovolně označených $+1$ a $-1$ . Předpokládáme, že problém s klasifikací bude vyřešen funkcí s reálnou hodnotou $F$ , předpovídáním štítku třídy $y = podepsat (F (X))$ .^[A] U mnoha problémů je vhodné získat pravděpodobnost $P (y =1| X)$ , tj. klasifikace, která poskytuje nejen odpověď, ale také určitou míru jistoty ohledně odpovědi. Některé klasifikační modely takovou pravděpodobnost neposkytují nebo poskytují špatné odhady pravděpodobnosti.

Plattovo škálování je algoritmus k řešení výše uvedeného problému. Vytváří odhady pravděpodobnosti

{ displaystyle mathrm {P} (y = 1 | x) = { frac {1} {1+ exp (Af (x) + B)}}}

,

tj. a logistické transformace skóre klasifikátoru $F (X)$ , kde $A$ a $B$ jsou dva skalární parametry, které se algoritmus naučí. Všimněte si, že předpovědi lze nyní dělat podle $y = 1$ iff $P (y =1| X) > 1 / 2$ ; -li $B \neq 0$ odhady pravděpodobnosti obsahují opravu ve srovnání se starou rozhodovací funkcí $y = podepsat (F (X))$ .^[3]

Parametry $A$ a $B$ jsou odhadovány pomocí a maximální pravděpodobnost metoda, která se optimalizuje na stejné tréninkové sadě jako u původního klasifikátoru $F$ . Vyhnout se nadměrné vybavení k této sadě, natažený kalibrační sada nebo křížová validace lze použít, ale Platt navíc navrhuje transformaci štítků $y$ zaměřit pravděpodobnosti

{ displaystyle t _ {+} = { frac {N _ {+} + 1} {N _ {+} + 2}}}

pro pozitivní vzorky (

y = 1

), a

{ displaystyle t _ {-} = { frac {1} {N _ {-} + 2}}}

pro negativní vzorky,

y = -1

.

Tady, $N +$ a $N ₋$ jsou počet pozitivních a negativních vzorků. Tato transformace následuje aplikací Bayesovo pravidlo na model dat mimo vzorek, který má před štítky uniformu.^[1] Konstanty 1 a 2 v čitateli a jmenovateli jsou odvozeny z aplikace Laplace Smoothing.

Platt sám navrhl použít Algoritmus Levenberg – Marquardt optimalizovat parametry, ale a Newtonův algoritmus později bylo navrženo, že by mělo být více numericky stabilní.^[4]

Analýza

Ukázalo se, že Plattovo škálování je efektivní pro SVM i pro jiné typy klasifikačních modelů, včetně posíleno modely a dokonce naivní Bayesovi klasifikátoři, které produkují zkreslené rozdělení pravděpodobnosti. Je zvláště efektivní pro metody s maximálním rozpětím, jako jsou SVM a zesílené stromy, které vykazují sigmoidální zkreslení v jejich předpokládaných pravděpodobnostech, ale má menší účinek s dobřekalibrováno modely jako logistická regrese, vícevrstvé perceptrony, a náhodné lesy.^[2]

Alternativním přístupem ke kalibraci pravděpodobnosti je přizpůsobení izotonická regrese model na špatně kalibrovaný model pravděpodobnosti. Ukázalo se, že to funguje lépe než Plattovo škálování, zvláště když je k dispozici dostatek tréninkových dat.^[2]

Viz také

Relevance vektorový stroj: pravděpodobnostní alternativa k podpůrnému vektorovému stroji

Poznámky

^ Vidět znaková funkce. Štítek pro $F (X) = 0$ je libovolně vybráno jako nula nebo jedna.

Reference

^ ^A ^b Platt, John (1999). „Pravděpodobnostní výstupy pro podporu vektorových strojů a srovnání s metodami legalizované pravděpodobnosti“. Pokroky v klasifikátorech velkých marží. 10 (3): 61–74.
^ ^A ^b ^C Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Předpovídání dobrých pravděpodobností s učením pod dohledem (PDF). ICML. doi:10.1145/1102351.1102430.
^ Olivier Chapelle; Vladimír Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Výběr více parametrů pro podporu vektorových strojů" (PDF). Strojové učení. 46: 131–159. doi:10.1023 / a: 1012450327387.
^ Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). „Poznámka o pravděpodobnostních výstupech Platta pro podporu vektorových strojů“ (PDF). Strojové učení. 68 (3): 267–276. doi:10.1007 / s10994-007-5018-6.

[3] Vidět znaková funkce. Štítek pro $F (X) = 0$ je libovolně vybráno jako nula nebo jedna.

[platt99-1] A ^b Platt, John (1999). „Pravděpodobnostní výstupy pro podporu vektorových strojů a srovnání s metodami legalizované pravděpodobnosti“. Pokroky v klasifikátorech velkých marží. 10 (3): 61–74.

[Niculescu-2] A ^b ^C Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Předpovídání dobrých pravděpodobností s učením pod dohledem (PDF). ICML. doi:10.1145/1102351.1102430.

[4] Olivier Chapelle; Vladimír Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Výběr více parametrů pro podporu vektorových strojů" (PDF). Strojové učení. 46: 131–159. doi:10.1023 / a: 1012450327387.

[5] Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). „Poznámka o pravděpodobnostních výstupech Platta pro podporu vektorových strojů“ (PDF). Strojové učení. 68 (3): 267–276. doi:10.1007 / s10994-007-5018-6.

[1]

[2]

[A]

[3]

[4]