Plattovo měřítko - Platt scaling
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
v strojové učení, Plattovo měřítko nebo Plattova kalibrace je způsob transformace výstupů a klasifikační model do rozdělení pravděpodobnosti do tříd. Metodu vynalezl John Platt v kontextu podporovat vektorové stroje,[1]nahrazení dřívější metody metodou Vapnik, ale lze jej použít na jiné klasifikační modely.[2]Plattovo škálování funguje namontováním a logistická regrese model do skóre klasifikátoru.
Popis
Zvažte problém binární klasifikace: pro vstupy X, chceme zjistit, zda patří do jedné ze dvou tříd, libovolně označených +1 a −1. Předpokládáme, že problém s klasifikací bude vyřešen funkcí s reálnou hodnotou F, předpovídáním štítku třídy y = podepsat (F(X)).[A] U mnoha problémů je vhodné získat pravděpodobnost P (y=1|X), tj. klasifikace, která poskytuje nejen odpověď, ale také určitou míru jistoty ohledně odpovědi. Některé klasifikační modely takovou pravděpodobnost neposkytují nebo poskytují špatné odhady pravděpodobnosti.
Plattovo škálování je algoritmus k řešení výše uvedeného problému. Vytváří odhady pravděpodobnosti
- ,
tj. a logistické transformace skóre klasifikátoru F(X), kde A a B jsou dva skalární parametry, které se algoritmus naučí. Všimněte si, že předpovědi lze nyní dělat podle y = 1 iff P (y=1|X) > 1/2; -li B ≠ 0odhady pravděpodobnosti obsahují opravu ve srovnání se starou rozhodovací funkcí y = podepsat (F(X)).[3]
Parametry A a B jsou odhadovány pomocí a maximální pravděpodobnost metoda, která se optimalizuje na stejné tréninkové sadě jako u původního klasifikátoru F. Vyhnout se nadměrné vybavení k této sadě, natažený kalibrační sada nebo křížová validace lze použít, ale Platt navíc navrhuje transformaci štítků y zaměřit pravděpodobnosti
- pro pozitivní vzorky (y = 1), a
- pro negativní vzorky, y = -1.
Tady, N+ a N₋ jsou počet pozitivních a negativních vzorků. Tato transformace následuje aplikací Bayesovo pravidlo na model dat mimo vzorek, který má před štítky uniformu.[1] Konstanty 1 a 2 v čitateli a jmenovateli jsou odvozeny z aplikace Laplace Smoothing.
Platt sám navrhl použít Algoritmus Levenberg – Marquardt optimalizovat parametry, ale a Newtonův algoritmus později bylo navrženo, že by mělo být více numericky stabilní.[4]
Analýza
Ukázalo se, že Plattovo škálování je efektivní pro SVM i pro jiné typy klasifikačních modelů, včetně posíleno modely a dokonce naivní Bayesovi klasifikátoři, které produkují zkreslené rozdělení pravděpodobnosti. Je zvláště efektivní pro metody s maximálním rozpětím, jako jsou SVM a zesílené stromy, které vykazují sigmoidální zkreslení v jejich předpokládaných pravděpodobnostech, ale má menší účinek s dobřekalibrováno modely jako logistická regrese, vícevrstvé perceptrony, a náhodné lesy.[2]
Alternativním přístupem ke kalibraci pravděpodobnosti je přizpůsobení izotonická regrese model na špatně kalibrovaný model pravděpodobnosti. Ukázalo se, že to funguje lépe než Plattovo škálování, zvláště když je k dispozici dostatek tréninkových dat.[2]
Viz také
- Relevance vektorový stroj: pravděpodobnostní alternativa k podpůrnému vektorovému stroji
Poznámky
- ^ Vidět znaková funkce. Štítek pro F(X) = 0 je libovolně vybráno jako nula nebo jedna.
Reference
- ^ A b Platt, John (1999). „Pravděpodobnostní výstupy pro podporu vektorových strojů a srovnání s metodami legalizované pravděpodobnosti“. Pokroky v klasifikátorech velkých marží. 10 (3): 61–74.
- ^ A b C Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Předpovídání dobrých pravděpodobností s učením pod dohledem (PDF). ICML. doi:10.1145/1102351.1102430.
- ^ Olivier Chapelle; Vladimír Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Výběr více parametrů pro podporu vektorových strojů" (PDF). Strojové učení. 46: 131–159. doi:10.1023 / a: 1012450327387.
- ^ Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). „Poznámka o pravděpodobnostních výstupech Platta pro podporu vektorových strojů“ (PDF). Strojové učení. 68 (3): 267–276. doi:10.1007 / s10994-007-5018-6.