Učení s částečným dohledem - Semi-supervised learning
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |

Učení s částečným dohledem je přístup k strojové učení který kombinuje malé množství označená data s velkým množstvím neoznačených dat během tréninku. Učení pod dohledem spadá mezi neřízené učení (bez označených údajů o školení) a učení pod dohledem (pouze s označenými tréninkovými údaji).
Neoznačené údaje, pokud jsou použity ve spojení s malým množstvím označených dat, mohou způsobit značné zlepšení přesnosti učení. Získání označených dat pro problém s učením často vyžaduje zkušeného lidského agenta (např. Přepsat zvukový segment) nebo fyzický experiment (např. Stanovení 3D struktury proteinu nebo určení, zda se v určitém místě nachází olej). Náklady spojené s procesem označování tak mohou znemožnit realizaci velkých plně označených tréninkových sad, zatímco získávání neoznačených dat je relativně levné. V takových situacích může mít učení pod dohledem velkou praktickou hodnotu. Učení s částečným dohledem je také teoretického zájmu o strojové učení a jako model pro lidské učení.
Sada nezávisle identicky distribuovány příklady s odpovídajícími štítky a neoznačené příklady jsou zpracovány. Výuka pod dohledem kombinuje tyto informace, aby překonala klasifikace výkon, kterého lze dosáhnout buď vyřazením neoznačených dat a učením pod dohledem, nebo vyřazením štítků a učením bez dozoru.
Vzdělávání s částečným dohledem se může vztahovat buď transdukční učení nebo induktivní učení.[1] Cílem transdukčního učení je odvodit správné štítky pro daná neoznačená data pouze. Cílem indukčního učení je odvodit správné mapování z na .
Na problém s učením lze intuitivně pohlížet jako na zkoušku a označená data jako vzorové problémy, které učitel řeší pro třídu jako pomůcku při řešení další sady problémů. V transdukčním prostředí fungují tyto nevyřešené problémy jako otázky ke zkouškám. V indukčním prostředí se stávají praktickými problémy typu, který bude tvořit zkoušku.
Je to zbytečné (a podle Vapnikův princip, nerozvážný) provést transdukční učení odvozením klasifikačního pravidla pro celý vstupní prostor; v praxi se však algoritmy formálně navržené pro transdukci nebo indukci často používají zaměnitelně.
Předpoklady
Aby bylo možné použít neoznačené údaje, musí existovat určitý vztah k podkladové distribuci dat. Algoritmy učení s částečným dohledem využívají alespoň jeden z následujících předpokladů:[2]
Předpoklad kontinuity
Body, které jsou si navzájem blízké, pravděpodobně sdílejí štítek. Toto se také obecně předpokládá v učení pod dohledem a dává přednost geometricky jednoduchému hranice rozhodování. V případě učení s částečným dohledem předpokládá hladkost dodatečně preferenci rozhodovacích hranic v regionech s nízkou hustotou, takže několik bodů je blízko u sebe, ale v různých třídách.
Předpoklad klastru
Data mají tendenci vytvářet samostatné klastry a body ve stejném klastru pravděpodobně sdílejí štítek (ačkoli data, která sdílejí štítek, se mohou šířit do více klastrů). Jedná se o speciální případ předpokladu hladkosti, který vyvolává učení funkcí s klastrovými algoritmy.
Předpoklad potrubí
Data leží přibližně na a potrubí mnohem menšího rozměru než vstupní prostor. V tomto případě se učení potrubí pomocí označených i neoznačených dat může vyhnout kletba dimenzionality. Poté může učení pokračovat pomocí vzdáleností a hustot definovaných na potrubí.
Předpoklad rozmanitosti je praktický, když jsou vysoce dimenzionální data generována nějakým procesem, který může být obtížné přímo modelovat, ale který má jen několik stupňů volnosti. Například lidský hlas je řízen několika hlasivkami,[3] a obrázky různých výrazů obličeje jsou ovládány několika svaly. V těchto případech jsou vzdálenosti a plynulost v přirozeném prostoru generujícího problému lepší než uvažovat prostor všech možných akustických vln nebo obrazů.
Dějiny
Heuristický přístup autotrénink (také známý jako sebevzdělávání nebo vlastní označení) je historicky nejstarší přístup k učení pod dohledem,[2] s příklady aplikací začínajících v 60. letech.[4]
Rámec transdukčního učení formálně zavedl Vladimír Vapnik v 70. letech.[5] Zájem o indukční učení pomocí generativních modelů také začal v 70. letech. A pravděpodobně přibližně správný učení se směřující k částečně pod dohledem učení a Gaussian směs byla prokázána Ratsaby a Venkateshem v roce 1995.[6]
Výuka s částečným dohledem se v poslední době stala populárnější a prakticky relevantní kvůli různým problémům, pro které je k dispozici obrovské množství neoznačených dat - např. text na webových stránkách, proteinové sekvence nebo obrázky.[7]
Metody
Generativní modely
Generativní přístupy ke statistickému učení se nejprve snaží odhadnout ,[sporný ] distribuce datových bodů patřících do každé třídy. Pravděpodobnost že daný bod má štítek je pak úměrná podle Bayesovo pravidlo. Učení s částečným dohledem generativní modely lze chápat jako rozšíření supervidovaného učení (klasifikace a informace o ) nebo jako rozšíření učení bez dohledu (shlukování plus některé štítky).
Generativní modely předpokládají, že distribuce mají určitou formu parametrizováno vektorem . Pokud jsou tyto předpoklady nesprávné, mohou neoznačená data ve skutečnosti snížit přesnost řešení ve srovnání s tím, co by bylo získáno pouze z označených dat.[8] Pokud jsou však předpoklady správné, pak neoznačená data nutně zvyšují výkon.[6]
Neznačená data jsou distribuována podle směsi distribucí jednotlivých tříd. Abychom se naučili rozdělení směsi z neoznačených dat, musí být identifikovatelné, to znamená, že různé parametry musí přinést různá součtová rozdělení. Distribuce Gaussovy směsi jsou identifikovatelné a běžně se používají pro generativní modely.
Parametrizováno společná distribuce lze psát jako pomocí řetězové pravidlo. Každý vektor parametru je spojena s rozhodovací funkcí . Parametr je poté vybrán na základě přizpůsobení označeným i neznačeným datům, váženo :
Separace s nízkou hustotou
Další hlavní třída metod se pokouší umístit hranice v oblastech s několika datovými body (označenými nebo neznačenými). Jedním z nejčastěji používaných algoritmů je transdukční podpůrný vektorový stroj, nebo TSVM (který, navzdory svému názvu, lze použít také pro induktivní učení). Zatímco podporovat vektorové stroje pro kontrolované učení hledejte hranici rozhodnutí s maximem okraj přes označená data je cílem TSVM označení neoznačených dat tak, aby hranice rozhodnutí měla maximální rozpětí nad všemi daty. Kromě standardu ztráta závěsu u označených dat funkce ztráty je zaveden nad neoznačenými daty tím, že umožňuje . TSVM pak vybere od a reprodukce jádra Hilbertova prostoru minimalizací legalizovaný empirické riziko:
Přesné řešení je neřešitelné kvůlikonvexní období , takže výzkum se zaměřuje na užitečné aproximace.[9]
Mezi další přístupy, které implementují separaci s nízkou hustotou, patří gaussovské procesní modely, regularizace informací a minimalizace entropie (což je TSVM zvláštní případ).
Metody založené na grafech
Metody založené na grafech pro učení pod dohledem používají grafickou reprezentaci dat s uzlem pro každý označený a neoznačený příklad. Graf může být sestaven s využitím doménových znalostí nebo podobnosti příkladů; dvě běžné metody jsou připojení každého datového bodu k jeho nejbližší sousedé nebo příklady v určité vzdálenosti . Váha hrany mezi a je poté nastaven na .
V rámci regularizace potrubí,[10][11] graf slouží jako proxy pro potrubí. K standardu je přidán termín Tichonovova regularizace problém vynutit plynulost řešení ve vztahu k potrubí (ve vnitřním prostoru problému) i ve vztahu k okolnímu vstupnímu prostoru. Problém s minimalizací se stává
kde je reprodukční jádro Hilbertův prostor a je potrubí, na kterém leží data. Parametry regularizace a ovládat plynulost v okolním a vnitřním prostoru. Graf se používá k aproximaci termínu vnitřní regularizace. Definování graf Laplacian kde a vektor , my máme
- .
Laplacian lze také použít k rozšíření supervidovaných algoritmů učení: regularizované nejmenší čtverce a podpora vektorových strojů (SVM) na verze s polovičním dohledem Laplacian regularizoval nejméně čtverců a Laplacian SVM.
Heuristické přístupy
Některé metody učení pod dohledem nejsou vnitřně zaměřeny na učení z neoznačených i označených dat, ale místo toho využívají neoznačené údaje v rámci supervizovaného učení. Například označené a neoznačené příklady může informovat o výběru zastoupení, vzdálenost metrická nebo jádro pro data v prvním kroku bez kontroly. Výuka pod dohledem pak vychází pouze z označených příkladů.
Autotrénink je obalová metoda pro učení pod dohledem.[12] Nejprve je proškolen algoritmus učení pod dohledem pouze na základě označených dat. Tento klasifikátor se poté použije na neoznačená data a vygeneruje více označených příkladů jako vstup pro supervizovaný algoritmus učení. Obecně se v každém kroku přidávají pouze štítky, se kterými si klasifikátor nejvíce věří.[13]
Společné školení je rozšíření autotréninku, při kterém se více klasifikátorů trénuje na různých (ideálně disjunktních) sadách funkcí a generují si navzájem označené příklady.[14]
V lidském poznání
Lidské reakce na formální problémy s učením s částečným dohledem přinesly různé závěry o míře vlivu neoznačených dat.[15] Za přirozenější problémy s učením lze také považovat případy učení pod částečným dohledem. Hodně z člověka koncepční učení zahrnuje malé množství přímých pokynů (např. rodičovské označování předmětů v dětství) v kombinaci s velkým množstvím neoznačených zkušeností (např. pozorování předmětů bez jejich pojmenování nebo počítání, nebo alespoň bez zpětné vazby).
Kojenci jsou citliví na strukturu neoznačených přírodních kategorií, jako jsou obrazy psů a koček nebo mužských a ženských tváří.[16] Kojenci a děti berou v úvahu nejen neoznačené příklady, ale také vzorkování proces, z něhož vycházejí označené příklady.[17][18]
Viz také
Reference
- ^ „Průzkum částečně vzdělávací literatury, strana 5“. 2007. CiteSeerX 10.1.1.99.9681. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ A b Chapelle, Schölkopf & Zienin 2006.
- ^ Stevens, Kenneth N., 1924- (1998). Akustická fonetika. Cambridge, Massachusetts: MIT Press. ISBN 0-585-08720-2. OCLC 42856189.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Scudder, H. (červenec 1965). "Pravděpodobnost chyby některých adaptivních strojů pro rozpoznávání vzorů". Transakce IEEE na teorii informací. 11 (3): 363–371. doi:10.1109 / TIT.1965.1053799. ISSN 1557-9654.
- ^ Vapnik, V .; Chervonenkis, A. (1974). Teorie rozpoznávání vzorů (v Rusku). Moskva: Nauka. citováno v Chapelle, Schölkopf & Zienin 2006, str. 3
- ^ A b Ratsaby, J .; Venkatesh, S. „Učení ze směsi označených a neoznačených příkladů s parametrickými vedlejšími informacemi“ (PDF). v Sborník příspěvků z osmého ročníku konference o teorii výpočetního učení - COLT '95. New York, New York, USA: ACM Press. 1995. s. 412–417. doi:10.1145/225298.225348. ISBN 0-89791-723-5.. Citováno v Chapelle, Schölkopf & Zienin 2006, str. 4
- ^ Zhu, Xiaojin (2008). „Průzkum studijní literatury s částečným dohledem“ (PDF). University of Wisconsin-Madison.
- ^ Fabio, Cozman; Ira, Cohen (2006-09-22), „Rizika učení s částečným dohledem: Jak mohou neoznačené údaje snížit výkon generativních klasifikátorů“, Částečně kontrolované učení„The MIT Press, str. 56–72, doi:10,7551 / mitpress / 9780262033589,003,0004, ISBN 978-0-262-03358-9 V: Chapelle, Schölkopf & Zienin 2006
- ^ A b C Zhu, Xiaojin. Částečně kontrolované učení University of Wisconsin-Madison.
- ^ M. Belkin; P. Niyogi (2004). „Semi-supervised Learning on Riemannian Manifolds“. Strojové učení. 56 (Zvláštní vydání o klastrování): 209–239. doi:10.1023 / b: mach.0000033120.25363.1e.
- ^ M. Belkin, P. Niyogi, V. Sindhwani. O regulaci potrubí. AISTATS 2005.
- ^ Triguero, Isaac; García, Salvador; Herrera, Francisco (26.11.2013). „Techniky označené pro učení pod dohledem: taxonomie, software a empirické studium“. Znalostní a informační systémy. 42 (2): 245–284. doi:10.1007 / s10115-013-0706-r. ISSN 0219-1377.
- ^ Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (2015-12-29). „Self-Trained LMT for Semisupervised Learning“. Výpočetní inteligence a neurovědy. 2016: 3057481. doi:10.1155/2016/3057481. PMC 4709606. PMID 26839531.
- ^ Didaci, Luca; Fumera, Giorgio; Roli, Fabio (07.11.2012). Gimel'farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji (eds.). Analýza algoritmu společného tréninku s velmi malými tréninkovými sadami. Přednášky z informatiky. Springer Berlin Heidelberg. str. 719–726. doi:10.1007/978-3-642-34166-3_79. ISBN 9783642341656.
- ^ Zhu, Xiaojin (2009). Úvod do učení s částečným dohledem. Goldberg, A. B. (Andrew B.). [San Rafael, Kalifornie]: Morgan & Claypool Publishers. ISBN 978-1-59829-548-1. OCLC 428541480.
- ^ Mladší B. A .; Bát se D. D. (1999). "Analýza položek do samostatných kategorií: vývojová změna v kategorizaci kojenců". Vývoj dítěte. 70 (2): 291–303. doi:10.1111/1467-8624.00022.
- ^ Xu, F. a Tenenbaum, J. B. (2007). Msgstr "Citlivost na vzorkování v bayesovském učení slov". Vývojová věda. 10 (3): 288–297. CiteSeerX 10.1.1.141.7505. doi:10.1111 / j.1467-7687.2007.00590.x. PMID 17444970.
- ^ Gweon, H., Tenenbaum J.B. a Schulz L.E (2010). „Děti považují vzorek i proces odběru za induktivní generalizaci“. Proc Natl Acad Sci U S A. 107 (20): 9066–71. Bibcode:2010PNAS..107,9066G. doi:10.1073 / pnas.1003095107. PMC 2889113. PMID 20435914.CS1 maint: více jmen: seznam autorů (odkaz)
Zdroje
- Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Učení s částečným dohledem. Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-03358-9.
externí odkazy
- Regularizace potrubí Volně dostupné MATLAB implementace graficky založených algoritmů s polovičním dohledem Laplacian podporuje vektorové stroje a Laplacianské regularizované nejmenší čtverce.
- KEEL: Softwarový nástroj k hodnocení evolučních algoritmů pro problémy s dolováním dat (regrese, klasifikace, shlukování, dolování vzorů atd.) Modul KEEL pro učení pod dohledem.
- Semi-supervizovaný učební software Semi-supervizovaný učební software
- 1.14. Semi-Supervised - scikit-learn 0.22.1 dokumentace Semi-supervizované algoritmy v scikit-learn.