Plattovo měřítko - Platt scaling

v strojové učení, Plattovo měřítko nebo Plattova kalibrace je způsob transformace výstupů a klasifikační model do rozdělení pravděpodobnosti do tříd. Metodu vynalezl John Platt v kontextu podporovat vektorové stroje,[1]nahrazení dřívější metody metodou Vapnik, ale lze jej použít na jiné klasifikační modely.[2]Plattovo škálování funguje namontováním a logistická regrese model do skóre klasifikátoru.

Popis

Zvažte problém binární klasifikace: pro vstupy X, chceme zjistit, zda patří do jedné ze dvou tříd, libovolně označených +1 a −1. Předpokládáme, že problém s klasifikací bude vyřešen funkcí s reálnou hodnotou F, předpovídáním štítku třídy y = podepsat (F(X)).[A] U mnoha problémů je vhodné získat pravděpodobnost P (y=1|X), tj. klasifikace, která poskytuje nejen odpověď, ale také určitou míru jistoty ohledně odpovědi. Některé klasifikační modely takovou pravděpodobnost neposkytují nebo poskytují špatné odhady pravděpodobnosti.

Plattovo škálování je algoritmus k řešení výše uvedeného problému. Vytváří odhady pravděpodobnosti

,

tj. a logistické transformace skóre klasifikátoru F(X), kde A a B jsou dva skalární parametry, které se algoritmus naučí. Všimněte si, že předpovědi lze nyní dělat podle y = 1 iff P (y=1|X) > 1/2; -li B ≠ 0odhady pravděpodobnosti obsahují opravu ve srovnání se starou rozhodovací funkcí y = podepsat (F(X)).[3]

Parametry A a B jsou odhadovány pomocí a maximální pravděpodobnost metoda, která se optimalizuje na stejné tréninkové sadě jako u původního klasifikátoru F. Vyhnout se nadměrné vybavení k této sadě, natažený kalibrační sada nebo křížová validace lze použít, ale Platt navíc navrhuje transformaci štítků y zaměřit pravděpodobnosti

pro pozitivní vzorky (y = 1), a
pro negativní vzorky, y = -1.

Tady, N+ a N jsou počet pozitivních a negativních vzorků. Tato transformace následuje aplikací Bayesovo pravidlo na model dat mimo vzorek, který má před štítky uniformu.[1] Konstanty 1 a 2 v čitateli a jmenovateli jsou odvozeny z aplikace Laplace Smoothing.

Platt sám navrhl použít Algoritmus Levenberg – Marquardt optimalizovat parametry, ale a Newtonův algoritmus později bylo navrženo, že by mělo být více numericky stabilní.[4]

Analýza

Ukázalo se, že Plattovo škálování je efektivní pro SVM i pro jiné typy klasifikačních modelů, včetně posíleno modely a dokonce naivní Bayesovi klasifikátoři, které produkují zkreslené rozdělení pravděpodobnosti. Je zvláště efektivní pro metody s maximálním rozpětím, jako jsou SVM a zesílené stromy, které vykazují sigmoidální zkreslení v jejich předpokládaných pravděpodobnostech, ale má menší účinek s dobřekalibrováno modely jako logistická regrese, vícevrstvé perceptrony, a náhodné lesy.[2]

Alternativním přístupem ke kalibraci pravděpodobnosti je přizpůsobení izotonická regrese model na špatně kalibrovaný model pravděpodobnosti. Ukázalo se, že to funguje lépe než Plattovo škálování, zvláště když je k dispozici dostatek tréninkových dat.[2]

Viz také

Poznámky

  1. ^ Vidět znaková funkce. Štítek pro F(X) = 0 je libovolně vybráno jako nula nebo jedna.

Reference

  1. ^ A b Platt, John (1999). „Pravděpodobnostní výstupy pro podporu vektorových strojů a srovnání s metodami legalizované pravděpodobnosti“. Pokroky v klasifikátorech velkých marží. 10 (3): 61–74.
  2. ^ A b C Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Předpovídání dobrých pravděpodobností s učením pod dohledem (PDF). ICML. doi:10.1145/1102351.1102430.
  3. ^ Olivier Chapelle; Vladimír Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Výběr více parametrů pro podporu vektorových strojů" (PDF). Strojové učení. 46: 131–159. doi:10.1023 / a: 1012450327387.
  4. ^ Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). „Poznámka o pravděpodobnostních výstupech Platta pro podporu vektorových strojů“ (PDF). Strojové učení. 68 (3): 267–276. doi:10.1007 / s10994-007-5018-6.