Regularizace spektrálním filtrováním - Regularization by spectral filtering - Wikipedia
Spektrální regularizace je některá ze třídy regulace techniky používané v strojové učení kontrolovat dopad hluku a předcházet mu nadměrné vybavení. Spektrální regularizaci lze použít v široké škále aplikací, od odstraňování rozmazaných obrázků až po klasifikaci e-mailů do složky se spamem a složky bez spamu. Například v příkladu klasifikace e-mailů lze spektrální regularizaci použít ke snížení dopadu šumu a zabránění nadměrnému vybavení, když je systém strojového učení trénován na značené sadě e-mailů, aby se naučil, jak rozpoznat nevyžádanou poštu a nevyžádanou poštu odděleně.
Spektrální regularizační algoritmy se spoléhají na metody, které byly původně definovány a studovány v teorii špatně pózoval inverzní problémy (například viz[1]) se zaměřením na inverzi lineárního operátoru (nebo matice), který může mít špatnou hodnotu číslo podmínky nebo neomezená inverze. V této souvislosti se regularizace rovná nahrazení původního operátora omezeným operátorem zvaným „regularizační operátor“, který má číslo podmínky řízené parametrem regularizace,[2] klasický příklad Tichonovova regularizace. Aby byla zajištěna stabilita, je tento regulační parametr vyladěn na základě úrovně šumu.[2] Hlavní myšlenkou spektrální regularizace je, že každého operátora regularizace lze popsat pomocí spektrálního počtu jako vhodného filtru na vlastní čísla operátora, který definuje problém, a úlohou filtru je „potlačit oscilační chování odpovídající malým vlastním číslům“ .[2] Proto je každý algoritmus ve třídě spektrálních regulačních algoritmů definován vhodnou filtrační funkcí (kterou je třeba odvodit pro daný konkrétní algoritmus). Tři z nejčastěji používaných regularizačních algoritmů, pro které je spektrální filtrování dobře studováno, jsou Tichonovova regularizace, Landweber iterace, a dekompozice zkrácené singulární hodnoty (TSVD). Pokud jde o výběr parametru regularizace, příklady kandidátských metod pro výpočet tohoto parametru zahrnují zobecněný princip nesrovnalosti křížová validace a kritérium L křivky.[3]
Je třeba poznamenat, že pojem spektrální filtrace studovaný v kontextu strojového učení úzce souvisí s literaturou aproximace funkce (při zpracování signálu).
Zápis
Výcviková sada je definována jako , kde je vstupní matice a je výstupní vektor. Funkce jádra je případně označena a matice jádra je označena který má záznamy a označuje Reprodukce jádra Hilberta Space (RKHS) s jádrem . Parametr regularizace je označen .
(Poznámka: Pro a , s a být Hilbertovy prostory, daný lineární, spojitý operátor , předpokládat, že drží. V tomto nastavení by bylo přímým problémem řešení daný a inverzním problémem by bylo řešení daný . Pokud řešení existuje, je jedinečné a stabilní, inverzní problém (tj. Problém řešení pro ) je dobře posedlý; jinak je špatně položený.)
Vztah k teorii špatně kladených inverzních problémů
Souvislost mezi problémem odhadu regularizovaných nejmenších čtverců (RLS) (nastavení regularizace Tichonova) a teorií špatně položených inverzních problémů je příkladem toho, jak spektrální regularizační algoritmy souvisí s teorií špatně položených inverzních problémů.
Odhad RLS řeší
a RKHS umožňuje vyjádřit tento odhad RLS jako kde s .[4] Termín penalizace se používá pro řízení plynulosti a prevenci nadměrného vybavení. Od řešení empirické minimalizace rizik lze psát jako takhle , přidání funkce pokuty představuje následující změnu v systému, kterou je třeba vyřešit:[5]
V tomto nastavení učení lze matici jádra rozložit jako , s
a jsou odpovídající vlastní vektory. Proto v počátečním nastavení učení platí:
U malých vlastních čísel tedy i malé odchylky v datech mohou vést k významným změnám v řešení. Problém je tedy špatně podmíněn a řešení tohoto problému RLS se rovná stabilizaci potenciálně špatně podmíněného problému inverze matice, který je studován v teorii špatně kladených inverzních problémů; v obou problémech je hlavním problémem řešení otázky numerické stability.
Implementace algoritmů
Každý algoritmus ve třídě spektrálních regulačních algoritmů je definován vhodnou filtrační funkcí, zde označenou . Pokud je matice jádra označena , pak by měl řídit velikost menších vlastních čísel . V nastavení filtrování je cílem najít odhady kde . K tomu funkce skalárního filtru je definován pomocí vlastního rozkladu matice jádra:
který přináší
Vhodná funkce filtru by obvykle měla mít následující vlastnosti:[5]
1. As jde na nulu, .
2. Velikost (menších) vlastních čísel je řízen .
Zatímco výše uvedené položky poskytují hrubou charakteristiku obecných vlastností filtračních funkcí pro všechny spektrální regularizační algoritmy, odvození filtrační funkce (a tedy její přesná forma) se liší v závislosti na konkrétní metodě regularizace, na kterou je spektrální filtrování aplikováno.
Funkce filtru pro regulaci Tikhonova
V nastavení regularizace Tichonov je níže popsána funkce filtru pro RLS. Jak je uvedeno v[4] v tomto nastavení, . Tím pádem,
Nežádoucí komponenty jsou odfiltrovány pomocí regularizace:
- Li , pak .
- Li , pak .
Funkce filtru pro regularizaci Tichonova je proto definována jako:[5]
Funkce filtru pro iteraci Landweber
Myšlenka iterace Landweber je klesání:[5]
V tomto nastavení, pokud je větší než Největší vlastní hodnota, výše uvedená iterace konverguje výběrem jako velikost kroku :.[5] Výše uvedená iterace je ekvivalentní minimalizaci (tj. empirické riziko) prostřednictvím gradientního sestupu; pomocí indukce lze prokázat, že na -tá iterace, řešení je dáno [5]
Příslušná funkce filtru je tedy definována:
Je možné ukázat, že tato funkce filtru odpovídá zkrácenému rozšíření výkonu o ;[5] vidět to, všimněte si, že vztah , bude stále držet, pokud je nahrazen maticí; tedy pokud (jádrová matice), nebo spíše , se uvažuje o následujících platbách:
V tomto nastavení udává počet iterací parametr regularizace; zhruba řečeno, .[5] Li je velký, nadměrné vybavení může být problém. Li je malý, nadměrné močení může být problém. Volba vhodného času pro předčasné zastavení iterací tedy poskytuje regularizační efekt.
Funkce filtru pro TSVD
V nastavení TSVD, vzhledem k vlastnímu rozkladu a pomocí předepsané prahové hodnoty lze pro matici jádra vytvořit regularizovanou inverzi vyřazením všech vlastních čísel, která jsou menší než tato prahová hodnota.[5]Funkci filtru pro TSVD lze tedy definovat jako
Je možné ukázat, že TSVD je ekvivalentní (bez dozoru) projekce dat pomocí (jádra) Analýza hlavních komponent (PCA), a že je také ekvivalentní minimalizaci empirického rizika pro projektovaná data (bez regularizace).[5] Počet komponent uchovaných pro projekci je zde jediným volným parametrem.
Reference
- ^ H. W. Engl, M. Hanke a A. Neubauer. Regularizace inverzních problémů. Kluwer, 1996.
- ^ A b C L. Lo Gerfo, L. Rosasco, F. Odone, E. De Vito a A. Verri. Spektrální algoritmy pro supervizní učení, Neurální výpočet, 20(7), 2008.
- ^ P. C. Hansen, J. G. Nagy a D. P. O'Leary. Deblurring Images: Matrices, Spectra, and Filtering„Fundamentals of Algorithms 3, SIAM, Philadelphia, 2006.
- ^ A b L. Rosasco. Přednáška 6 poznámek k přednášce k 9.520: Statistická teorie učení a aplikace. Massachusetts Institute of Technology, podzim 2013. Dostupné na https://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdf
- ^ A b C d E F G h i j L. Rosasco. Přednáška 7 poznámek k přednášce k 9.520: Statistická teorie učení a aplikace. Massachusetts Institute of Technology, podzim 2013. Dostupné na https://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdf