Extrémní stroj na učení - Extreme learning machine
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
![]() | Téma tohoto článku nemusí splňovat požadavky Wikipedie obecný pokyn k notabilitě.Srpna 2020) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Extrémní výukové stroje jsou dopředné neuronové sítě pro klasifikace, regrese, shlukování, řídká aproximace, komprese a učení funkcí s jednou vrstvou nebo více vrstvami skrytých uzlů, kde nemusí být vyladěny parametry skrytých uzlů (nejen váhy spojující vstupy se skrytými uzly). Tyto skryté uzly lze náhodně přiřadit a nikdy neaktualizovat (tj. Jsou náhodná projekce ale s nelineárními transformacemi), nebo mohou být zděděny od svých předků, aniž by byly změněny. Ve většině případů se výstupní váhy skrytých uzlů obvykle učí v jediném kroku, což v podstatě znamená naučit se lineární model. Název „stroj extrémního učení“ (ELM) dal těmto modelům jeho hlavní vynálezce Guang-Bin Huang.
Podle jejich tvůrců jsou tyto modely schopné produkovat dobrý generalizační výkon a učit se tisíckrát rychleji než sítě trénované pomocí zpětná propagace.[1] V literatuře také ukazuje, že tyto modely mohou překonat podporovat vektorové stroje v klasifikačních i regresních aplikacích.[2][3][4]
Dějiny
V letech 2001–2010 se výzkum ELM zaměřoval hlavně na jednotný rámec učení pro „zobecněné“ dopředné neuronové sítě s jednou skrytou vrstvou (SLFN), mimo jiné včetně sigmoidních sítí, RBF sítí, prahových sítí,[5] trigonometrické sítě, fuzzy inferenční systémy, Fourierova řada,[6][7] Laplaciánova transformace, waveletové sítě,[8] atd. Jedním z významných úspěchů dosažených v těchto letech je úspěšné prokázání univerzální aproximační a klasifikační schopnosti ELM teoreticky.[6][9][10]
Od roku 2010 do roku 2015 se výzkum ELM rozšířil na jednotný rámec učení pro učení jádra, SVM a několik typických metod učení funkcí, jako je Analýza hlavních komponent (PCA) a Nezáporná maticová faktorizace (NMF). Ukazuje se, že SVM ve skutečnosti poskytuje neoptimální řešení ve srovnání s ELM a ELM může poskytnout mapování jádra bílé schránky, které je implementováno náhodným mapováním funkcí ELM, namísto jádra černé schránky používaného v SVM. PCA a NMF lze považovat za speciální případy, kdy se v ELM používají lineární skryté uzly.[11][12]
Od roku 2015 do roku 2017 se větší důraz kladl na hierarchické implementace[13][14] ELM. Od roku 2011 byly navíc provedeny významné biologické studie, které podporují určité teorie ELM.[15][16][17]
Od roku 2017 k překonání problému s nízkou konvergencí během tréninku LU rozklad, Hessenbergův rozklad a QR rozklad přístupy založené na regulace začaly přitahovat pozornost[18][19][20]
V oznámení z roku 2017 Google Scholar: "Classic Papers: Články, které prošly zkouškou času ", dva dokumenty ELM byly uvedeny v"Top 10 v oblasti umělé inteligence pro rok 2006 „zaujímají pozice 2 a 7.
Algoritmy
Vzhledem k jediné skryté vrstvě ELM předpokládejme, že výstupní funkce -tý skrytý uzel je , kde a jsou parametry -tý skrytý uzel. Výstupní funkce ELM pro SLFN s skryté uzly je:
, kde je výstupní hmotnost -tý skrytý uzel.
je mapování výstupu skryté vrstvy ELM. Dáno cvičné vzorky, výstupní matice skryté vrstvy ELM se udává jako:
a je cílová matice tréninkových dat:
Obecně řečeno, ELM je druh regularizačních neuronových sítí, ale s nevyladěnými mapami skryté vrstvy (tvořenými buď náhodnými skrytými uzly, jádry nebo jinými implementacemi) je jeho objektivní funkcí:
kde .
Různé kombinace , , a lze použít a vyústit v různé algoritmy učení pro regresi, klasifikaci, řídké kódování, kompresi, učení funkcí a shlukování.
Jako speciální případ se nejjednodušší tréninkový algoritmus ELM naučí model formy (pro jednotlivé skryté sigmoidní neuronové sítě):
kde Ž1 je matice závaží mezi vstupem a skrytou vrstvou, je aktivační funkce a Ž2 je matice vah skryté vrstvy na výstupní vrstvu. Algoritmus probíhá následovně:
- Vyplnit Ž1 s náhodnými hodnotami (např. Gaussovský náhodný šum );
- odhad Ž2 podle nejmenší čtverce se hodí do matice proměnných odezvy Y, počítáno pomocí pseudoinverze ⋅+, vzhledem k tomu, návrhová matice X:
Architektury
Ve většině případů se ELM používá jako jedna skrytá vrstva dopředné sítě (SLFN), mimo jiné včetně sigmoidních sítí, RBF sítí, prahových sítí, fuzzy inferenčních sítí, komplexních neurálních sítí, vlnkových sítí, Fourierovy transformace, Laplaciánské transformace atd. Díky různým implementacím algoritmu učení pro regresi, klasifikaci, řídké kódování, kompresi, učení funkcí a shlukování byly k vytvoření sítí více skrytých vrstev použity více ELM, hluboké učení nebo hierarchické sítě.[13][14][21]
Skrytý uzel v ELM je výpočetní prvek, který nemusí být považován za klasický neuron. Skrytým uzlem v ELM mohou být klasické umělé neurony, základní funkce nebo podsíť tvořená některými skrytými uzly.[9]
Teorie
Možnosti univerzální aproximace a klasifikace[2][3] byly prokázány pro ELM v literatuře. Zvláště, Guang-Bin Huang a jeho tým strávil téměř sedm let (2001-2008) nad důkladnými důkazy o univerzální aproximační schopnosti ELM.[6][9][10]
Univerzální aproximační schopnost
Teoreticky lze jako aktivační funkci ve skrytých uzlech ELM použít jakoukoli nekonstantní po částech spojitou funkci, taková aktivační funkce nemusí být diferenciální. Pokud by vyladění parametrů skrytých uzlů mohlo SLFN přiblížit jakoukoli cílovou funkci , pak mohou být parametry skrytých uzlů náhodně generovány podle jakékoli pravděpodobnosti spojitého rozdělení a drží s pravděpodobností jeden s odpovídajícími výstupními váhami .
Schopnost klasifikace
Vzhledem k jakékoli nekonstantní kusové spojité funkci jako aktivační funkci v SLFN může ladění parametrů skrytých uzlů způsobit, že SLFN přiblíží jakoukoli cílovou funkci , pak SLFN s náhodným mapováním skryté vrstvy může oddělit libovolné nesouvislé oblasti libovolných tvarů.
Neurony
Široký typ nelineárních po částech spojitých funkcí lze použít ve skrytých neuronech ELM, například:
Skutečná doména
Funkce sigmoidu:
Fourierova funkce:
Hardlimit funkce: