Aproximace matice nízkého řádu jsou základními nástroji při aplikaci metody jádra k učení ve velkém měřítku problémy.[1]
Metody jádra (například podporovat vektorové stroje nebo Gaussovské procesy[2]) promítají datové body do trojrozměrného nebo nekonečného prostor funkcí a najděte optimální dělící hyperplán. V metoda jádra data jsou reprezentována v a matice jádra (nebo, Gramová matice ). Mnoho algoritmů může vyřešit strojové učení problémy s používáním matice jádra. Hlavní problém metoda jádra je jeho vysoká výpočetní náklady spojený s jádrové matice. Cena je minimálně kvadratická v počtu tréninkových datových bodů, ale většina metody jádra zahrnout výpočet inverze matice nebo rozklad vlastních čísel a cena se stane kubickým v počtu tréninkových dat. Velké tréninkové soupravy způsobují velké náklady na skladování a výpočet. Přes metody nízkého stupně rozkladu (Choleský rozklad ) snížit tyto náklady, nadále vyžadují výpočet matice jádra. Jedním z přístupů k řešení tohoto problému jsou aproximace matice nízkého řádu. Nejoblíbenější příklady z nich jsou Nyströmova metoda a náhodné funkce. Oba byly úspěšně použity na efektivní učení jádra.
Nyströmova aproximace
Metody jádra se stanou neproveditelnými, když počet bodů je tak velká, že jádrová matice nelze uložit do paměti.
Li je počet příkladů školení, náklady na skladování a výpočet požadováno k nalezení řešení problému pomocí obecného metoda jádra je a resp. Nyströmova aproximace může umožnit významné zrychlení výpočtů.[2][3] Tohoto zrychlení je dosaženo použitím namísto matice jádra jeho aproximace z hodnost . Výhodou metody je, že není nutné počítat nebo ukládat celek matice jádra, ale pouze jeho blok velikosti .
Snižuje požadavky na úložiště a složitost na a resp.
Věta o aproximaci jádra
je matice jádra pro některé metoda jádra. Zvažte první body v tréninkové sadě. Pak existuje matice z hodnost :
, kde
,
je invertibilní matice
a
Důkaz
Aplikace rozkladu singulární hodnoty
Přihlašování rozklad singulární hodnoty (SVD) do matice s rozměry vyrábí a singulární systém skládající se z singulární hodnoty vektory a tak, že tvoří ortonormální základy a respektive:
Li a jsou matice s A Je ve sloupcích a je úhlopříčka matice s singulární hodnoty na prvním -záznamy na diagonále (všechny ostatní prvky matice jsou nuly):
pak matice lze přepsat jako:[4]
.
Další důkaz
- je datová matice
Použití rozkladu singulární hodnoty na tyto matice:
- je -dimenzionální matice skládající se z první řádky matice
Použití rozkladu singulární hodnoty na tyto matice:
Od té doby jsou ortogonální matice,
Výměna , aproximace pro lze získat:
( není nutně ortogonální matice ).
Definování však , lze jej vypočítat dalším způsobem:
Podle charakterizace pro ortogonální matice : rovnost drží. Poté pomocí vzorce pro inverzní funkci k násobení matic pro invertibilní matice a , výraz ve složených závorkách lze přepsat jako:
.
Pak výraz pro :
.
Definování , důkaz je hotový.
Obecná věta o aproximaci jádra pro mapu funkcí
Pro mapu funkcí s přidruženými jádro : rovnost také následuje nahrazením provozovatelem takhle , , , a provozovatelem takhle , , . Jednoduchá kontrola opět ukazuje, že mapa funkcí je nutná pouze v důkazu, zatímco konečný výsledek závisí pouze na výpočtu funkce jádra.
Aplikace pro regularizované nejmenší čtverce
Ve vektorové a jádrové notaci je problém Regularizované nejmenší čtverce lze přepsat jako:
- .
Při výpočtu gradientu a nastavení na 0 lze získat minimum:
Inverzní matice lze vypočítat pomocí Identita matice Woodburyho:
Má požadované požadavky na úložiště a složitost.
Randomizovaná mapa funkcí aproximace
Nechat - vzorky údajů, - náhodně mapa funkcí (mapuje jeden vektor na vektor s vyšší dimenzí), takže vnitřní součin mezi dvojicí transformovaných bodů se blíží jejich jádro hodnocení:
,
kde je mapování vložené do RBF jádro.
Od té doby je nízkodimenzionální, lze vstup snadno transformovat pomocí , poté lze použít různé metody lineárního učení k aproximaci odpovědi odpovídajícího nelineárního jádra. K výpočtu aproximací jader RBF existují různé randomizované mapy funkcí. Například, Náhodné Fourierovy funkce a funkce náhodného binování.
Náhodné Fourierovy funkce
Náhodné Fourierovy funkce mapa vytváří a Monte Carlo přiblížení k mapě prvků. Metoda Monte Carlo je považována za randomizovanou. Tyto náhodné funkce sestává ze sinusoidů náhodně vylosováno z Fourierova transformace z jádro být aproximován, kde a jsou náhodné proměnné. Čára je vybrána náhodně, pak se na ní datové body promítnou pomocí mapování. Výsledný skalár prochází sinusoidem. Produkt transformovaných bodů bude aproximovat jádro invariantní k posunu. Protože mapa je hladká, náhodné Fourierovy rysy dobře fungují na interpolačních úkolech.
Funkce náhodného binování
Funkce náhodného binování mapují oddíly vstupního prostoru pomocí náhodně posunutých mřížek v náhodně vybraných rozlišeních a přiřadí vstupnímu bodu binární bitový řetězec, který odpovídá košům, do kterých spadá. Mřížky jsou konstruovány tak, aby pravděpodobnost, že dva body jsou přiřazeny ke stejnému zásobníku, je úměrný . Vnitřní součin mezi dvojicí transformovaných bodů je úměrný počtu spojování dvou bodů dohromady, a je tedy objektivním odhadem . Protože toto mapování není plynulé a využívá blízkost mezi vstupními body, funkce náhodného binování fungují dobře pro přibližování jader, které závisí pouze na - vzdálenost mezi datovými body.
Porovnání aproximačních metod
Přístupy k rozsáhlému učení jádra (Nyströmova metoda a náhodné funkce) se liší ve skutečnosti, že metoda Nyström používá základové funkce závislé na datech, zatímco v přístupu náhodných funkcí jsou základní funkce vzorkovány z distribuce nezávislé na tréninkových datech. Tento rozdíl vede k vylepšené analýze přístupů k učení jádra založených na metodě Nyström. Když je ve vlastním spektru velké mezery jádro matice, přístupy založené na metodě Nyström mohou dosáhnout lepších výsledků než Náhodné funkce založený přístup.[5]
Viz také
externí odkazy
Reference
- ^ Francis R. Bach a Michael I. Jordan (2005). „Prediktivní nízký stupeň rozkladu pro metody jádra“. ICML.
- ^ A b Williams, C.K.I. a Seeger, M. (2001). „Použití metody Nyström k urychlení jaderných strojů“. Pokroky v systémech zpracování neurálních informací.CS1 maint: používá parametr autoři (odkaz)
- ^ Petros Drineas a Michael W. Mahoney (2005). „K Nyströmově metodě pro přiblížení gramové matice pro vylepšené učení založené na jádře“. Journal of Machine Learning Research 6, str. 2153–2175.
- ^ C. Eckart, G. Young, Aproximace jedné matice druhou s nižší hodností. Psychometrika, svazek 1, 1936, strany 211–8. doi:10.1007 / BF02288367
- ^ Tianbao Yang, Yu-Feng Li, Mehrdad Mahdavi, Rong Jin a Zhi-Hua Zhou (2012). „Nyströmova metoda vs. náhodné Fourierovy rysy: Teoretické a empirické srovnání“. Pokroky v systémech zpracování neurálních informací 25 (NIPS).