Analýza komponent sousedství - Neighbourhood components analysis
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
Analýza komponent sousedství je učení pod dohledem metoda pro klasifikace vícerozměrný data do různých tříd podle daného vzdálenost metrická přes data. Funkčně slouží stejným účelům jako Algoritmus K-nejbližších sousedů, a přímo využívá související pojem nazývaný stochastické nejbližší sousedy.
Definice
Analýza komponent sousedství si klade za cíl „naučit se“ metriku vzdálenosti vyhledáním lineární transformace vstupních dat tak, aby byl v transformovaném prostoru maximalizován průměrný výkon klasifikace ponechat-ven-ven (LOO). Klíčovým vhledem do algoritmu je matice odpovídající transformaci lze nalézt definováním diferencovatelné objektivní funkce pro , následované použitím iteračního řešiče, jako je konjugovaný gradient. Jednou z výhod tohoto algoritmu je, že počet tříd lze určit jako funkci , až do skalární konstanty. Toto použití algoritmu proto řeší problém výběr modelu.
Vysvětlení
Aby bylo možné definovat , definujeme objektivní funkci popisující přesnost klasifikace v transformovaném prostoru a pokusíme se ji určit tak, aby byla tato objektivní funkce maximalizována.
Klasifikace Leave-one-out (LOO)
Zvažte předpovídání označení třídy jednoho datového bodu na základě konsensu jeho - nejbližší sousedé s danou metrikou vzdálenosti. Toto je známé jako nechte-ven-ven klasifikace. Sada nejbližších sousedů může být zcela odlišný po průchodu všech bodů lineární transformací. Konkrétně sada sousedů pro bod může projít diskrétními změnami v reakci na plynulé změny v prvcích , což znamená, že jakákoli objektivní funkce na základě sousedů bodu bude po částech konstantní, a tedy nediferencovatelné.
Řešení
Tuto obtíž můžeme vyřešit pomocí přístupu inspirovaného stochastický gradient. Spíše než zvažovat - nejbližší sousedé v každém transformovaném bodě klasifikace LOO, budeme považovat celou transformovanou datovou sadu za stochastické nejbližší sousedy. Definujeme je pomocí a funkce softmax na druhou Euklidovská vzdálenost mezi daným bodem klasifikace LOO a každým dalším bodem v transformovaném prostoru: