Generativní model - Generative model
v statistická klasifikace, dvěma hlavním přístupům se říká generativní přístup a diskriminační přístup. Tyto vypočítat klasifikátory různými přístupy, lišícími se stupněm statistické modelování. Terminologie je nekonzistentní,[A] ale lze rozlišit tři hlavní typy Jebara (2004):
- Vzhledem k pozorovatelná proměnná X a a cílová proměnná Y, a generativní model je statistický model z společné rozdělení pravděpodobnosti na X × Y, ;[1]
- A diskriminační model je model podmíněná pravděpodobnost cíle Y, vzhledem k pozorování X, symbolicky, ; a
- Klasifikátory počítané bez použití modelu pravděpodobnosti jsou také volně označovány jako „diskriminační“.
Rozdíl mezi těmito posledními dvěma třídami není důsledně prováděn;[2] Jebara (2004) označuje tyto tři třídy jako generativní učení, podmíněné učení, a diskriminační učení, ale Ng & Jordan (2002) rozlišovat pouze dvě třídy, volat je generativní klasifikátory (společná distribuce) a diskriminační klasifikátory (podmíněné rozdělení nebo žádné rozdělení), nerozlišování mezi posledně uvedenými dvěma třídami.[3] Analogicky je klasifikátor založený na generativním modelu a generativní klasifikátor, zatímco klasifikátor založený na diskriminačním modelu je a diskriminační klasifikátor, ačkoli tento termín také označuje klasifikátory, které nejsou založeny na modelu.
Standardní příklady každého z nich lineární klasifikátory, jsou:
- generativní klasifikátory:
- diskriminační model:
Při aplikaci na klasifikaci si přejeme přejít od pozorování X na štítek y (nebo rozdělení pravděpodobnosti na štítky). Lze to vypočítat přímo, bez použití rozdělení pravděpodobnosti (klasifikátor bez distribuce); lze odhadnout pravděpodobnost pozorování štítku, (diskriminační model) a na tom zakládat klasifikaci; nebo lze odhadnout společné rozdělení (generativní model), z toho vypočítat podmíněnou pravděpodobnost , a na základě toho založit klasifikaci. Ty jsou stále nepřímější, ale stále pravděpodobnější, což umožňuje použít více doménových znalostí a teorie pravděpodobnosti. V praxi se používají různé přístupy, v závislosti na konkrétním problému, a hybridy mohou kombinovat silné stránky více přístupů.
Definice
Alternativní rozdělení je definuje symetricky jako:
- A generativní model je model podmíněné pravděpodobnosti pozorovatelného X, daný cíl y, symbolicky, [4]
- A diskriminační model je model podmíněné pravděpodobnosti cíle Y, vzhledem k pozorování X, symbolicky, [5]
Bez ohledu na přesnou definici je terminologie ústavní, protože generativní model lze použít ke „generování“ náhodných instancí (výsledky ), buď pozorování a cíl nebo pozorování X vzhledem k cílové hodnotě y,[4] zatímco diskriminační model nebo diskriminační klasifikátor (bez modelu) lze použít k „diskriminaci“ hodnoty cílové proměnné Y, vzhledem k pozorování X.[5] Rozdíl mezi "diskriminovat „(rozlišit) a“klasifikovat „je subtilní a nejsou důsledně rozlišovány. (Termín„ diskriminační klasifikátor “se stává a pleonasmus když „diskriminace“ odpovídá „klasifikaci“.)
Termín „generativní model“ se také používá k popisu modelů, které generují instance výstupních proměnných způsobem, který nemá jasný vztah k rozdělení pravděpodobnosti nad potenciálními vzorky vstupních proměnných. Generativní nepřátelské sítě jsou příklady této třídy generativních modelů a jsou posuzovány především podle podobnosti konkrétních výstupů s potenciálními vstupy. Takové modely nejsou klasifikátory.
Vztahy mezi modely
V aplikaci na klasifikaci pozorovatelný X je často a spojitá proměnná, cíl Y je obecně a diskrétní proměnná skládající se z konečné sady štítků a podmíněné pravděpodobnosti lze také interpretovat jako (nedeterministický) cílová funkce , vzhledem k tomu X jako vstupy a Y jako výstupy.
Vzhledem k konečné sadě štítků jsou dvě definice „generativního modelu“ úzce spjaty. Model podmíněného rozdělení je model distribuce každého štítku a model společné distribuce je ekvivalentní s modelem distribuce hodnot štítku , spolu s distribucí pozorování, jimž byl přidělen štítek, ; symbolicky, Zatímco model společného rozdělení pravděpodobnosti je tedy více informativní než model distribuce označení (ale bez jejich relativních frekvencí), jedná se o relativně malý krok, a proto se ne vždy rozlišují.
Vzhledem k modelu společné distribuce , distribuci jednotlivých proměnných lze vypočítat jako mezní rozdělení a (s ohledem na X jako spojitý, tedy integrující se nad ním, a Y jako diskrétní, tedy sčítání nad ním), a buď podmíněné rozdělení lze vypočítat z definice podmíněná pravděpodobnost: a .
Vzhledem k modelu jedné podmíněné pravděpodobnosti a odhadovaný rozdělení pravděpodobnosti pro proměnné X a Y, označeno a lze odhadnout opačnou podmíněnou pravděpodobnost pomocí Bayesovo pravidlo:
Například daný generativní model pro , lze odhadnout:
a dostal diskriminační model pro , lze odhadnout:
Všimněte si, že Bayesovo pravidlo (výpočet jedné podmíněné pravděpodobnosti z hlediska druhého) a definice podmíněné pravděpodobnosti (výpočet podmíněné pravděpodobnosti z hlediska společného rozdělení) jsou také často sjednoceny.
Kontrast s diskriminačními klasifikátory
Generativní algoritmus modeluje, jak byla data generována, aby bylo možné kategorizovat signál. Klade si otázku: na základě mých generačních předpokladů, která kategorie s největší pravděpodobností vygeneruje tento signál? Diskriminační algoritmus se nestará o to, jak byla data generována, jednoduše kategorizuje daný signál. Diskriminační algoritmy se tedy snaží učit přímo z dat a poté zkuste data klasifikovat. Na druhou stranu se generativní algoritmy snaží naučit na které lze transformovat později ke klasifikaci dat. Jednou z výhod generativních algoritmů je, že je můžete použít generovat nová data podobná existujícím. Na druhou stranu diskriminační algoritmy obecně poskytují lepší výkon při klasifikačních úlohách.[6]
Navzdory skutečnosti, že diskriminační modely nepotřebují modelovat distribuci pozorovaných proměnných, nemohou obecně vyjádřit složité vztahy mezi sledovanými a cílovými proměnnými. Nemusí nutně fungovat lépe než generativní modely klasifikace a regrese úkoly. Tyto dvě třídy jsou považovány za doplňkové nebo za odlišné pohledy na stejný postup.[7]
Hluboké generativní modely
Se vzestupem hlubokého učení začala nová skupina metod zvaná hluboké generativní modely (DGM)[8][9] je tvořen kombinací generativních modelů a hlubokých neuronových sítí. Trik DGM spočívá v tom, že neuronové sítě, které používáme jako generativní modely, mají řadu parametrů výrazně menší než množství dat, na kterých je trénujeme, takže modely jsou nuceny objevit a efektivně internalizovat podstatu dat, aby generovaly to.
Mezi oblíbené DGM patří Variational Autoencoder (VAE), Generative Adversarial Networks (GANs) a auto-regresivní modely. Existuje trend stavět velké hluboké generativní modely.[8] Například, GPT-3 a jeho předchůdce GPT-2,[10] pro autoregresní modely neurálních jazyků, BigGAN[11] a VQ-VAE[12] pro generování obrazu, Optimus[13] jako největší jazykový model VAE, jukebox jako největší model VAE pro hudební generaci[14]
DGM mají mnoho krátkodobých aplikací. Ale z dlouhodobého hlediska mají potenciál automaticky se naučit přirozené vlastnosti datové sady, ať už jde o kategorie nebo dimenze nebo něco úplně jiného.[9]
Typy
Generativní modely
Typy generativních modelů jsou:
- Gaussův model směsi (a další typy směsný model )
- Skrytý Markovův model
- Pravděpodobná bezkontextová gramatika
- Bayesovská síť (např. Naivní zátoky, Autoregresní model )
- Zprůměrované odhady jedné závislosti
- Latentní Dirichletova alokace
- Boltzmannův stroj (např. Omezený stroj Boltzmann, Síť hlubokého přesvědčení )
- Variační autoencoder
- Generativní kontradiktorní síť
- Generativní model založený na toku
- Energetický model
Pokud jsou pozorovaná data skutečně vzorkována z generativního modelu, pak přizpůsobení parametrů generativního modelu maximalizovat pravděpodobnost dat je běžná metoda. Protože však většina statistických modelů je pouze aproximací k skutečný distribuce, má-li aplikace modelu vyvodit podmnožinu proměnných podmíněných známými hodnotami ostatních, pak lze tvrdit, že aproximace vytváří více předpokladů, než je pro řešení daného problému zapotřebí. V takových případech může být přesnější modelovat funkce podmíněné hustoty přímo pomocí a diskriminační model (viz níže), ačkoli podrobnosti specifické pro aplikaci nakonec určí, který přístup je v konkrétním případě nejvhodnější.
Diskriminační modely
- Algoritmus k-nejbližších sousedů
- Logistická regrese
- Podporujte vektorové stroje
- Rozhodovací stromy
- Náhodný les
- Markovovy modely s maximální entropií
- Podmíněná náhodná pole
- Neuronové sítě
Příklady
Jednoduchý příklad
Předpokládejme, že vstupní data jsou , sada štítků pro je , a existují následující 4 datové body:
U výše uvedených údajů odhad společného rozdělení pravděpodobnosti z empirická míra bude následující:
zatímco bude následující:
Generování textu
Shannon (1948) uvádí příklad, ve kterém je tabulka frekvencí párů anglických slov použita ke generování věty začínající slovy „představuje a rychle je dobrý“; což není správná angličtina, ale která ji bude čím dál více přibližovat, když se tabulka přesouvá z dvojic slov na trojice slov atd.
Viz také
Poznámky
- ^ Tři hlavní zdroje, Ng & Jordan 2002, Jebara 2004, a Mitchell 2015, uveďte různá rozdělení a definice.
Reference
- ^ Ng & Jordan (2002): "Generativní klasifikátory se učí model společné pravděpodobnosti, , vstupů X a štítek y, a provádět své předpovědi pomocí pravidel Bayes pro výpočet a poté výběr nejpravděpodobnějšího štítku y.
- ^ Jebara 2004 „2.4 Diskriminační učení:„ Tento rozdíl mezi podmíněným učením a diskriminačním učením není v současné době v dané oblasti dobře zavedenou konvencí. “
- ^ Ng & Jordan 2002: „Diskriminační klasifikátory modelují zadní přímo, nebo se naučit přímou mapu ze vstupů X na štítky třídy. “
- ^ A b Mitchell 2015: „Můžeme použít Bayesovo pravidlo jako základ pro návrh algoritmů učení (aproximátorů funkcí), a to následovně: Vzhledem k tomu, že se chceme naučit nějakou cílovou funkci nebo ekvivalentně , používáme tréninková data k získání odhadů a . Nový X příklady lze poté klasifikovat pomocí těchto odhadovaných rozdělení pravděpodobnosti plus Bayesovo pravidlo. Tento typ klasifikátoru se nazývá a generativní klasifikátor, protože můžeme zobrazit distribuci jako popis, jak generovat náhodné instance X podmíněno cílovým atributem Y.
- ^ A b Mitchell 2015: „Logistická regrese je algoritmus aproximace funkcí, který k přímému odhadu využívá tréninková data , na rozdíl od Naive Bayes. V tomto smyslu se logistická regrese často označuje jako a diskriminační klasifikátor, protože můžeme zobrazit distribuci jako přímá diskriminace hodnoty cílové hodnoty Y pro danou instanci X
- ^ Ng & Jordan 2002
- ^ Bishop, C. M .; Lasserre, J. (24. září 2007), „Generativní nebo diskriminační? Získání toho nejlepšího z obou světů“, Bernardo, J. M. (ed.), Bayesovská statistika 8: sborník z osmého mezinárodního setkání ve Valencii, 2. – 6. Června 2006, Oxford University Press, s. 3–23, ISBN 978-0-19-921465-5
- ^ A b „Škálování - vědci prosazují rozsáhlé hluboké generativní modely“. 9. dubna 2020.
- ^ A b „Generativní modely“. OpenAI. 16. června 2016.
- ^ „Lepší jazykové modely a jejich důsledky“. OpenAI. 14. února 2019.
- ^ Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). „Rozsáhlé školení GAN pro vysoce věrnou syntézu přirozeného obrazu“. arXiv:1809.11096 [cs.LG ].
- ^ Razavi, Ali; Aaron van den Oord; Vinyals, Oriol (2019). "Generování rozmanitých vysoce věrných obrázků pomocí VQ-VAE-2". arXiv:1906.00446 [cs.LG ].
- ^ Li, Chunyuan; Gao, Xiang; Li, Yuan; Li, Xiujun; Peng, Baolin; Zhang, Yizhe; Gao, Jianfeng (2020). „Optimus: Organizace vět prostřednictvím předcvičeného modelování latentního prostoru“. arXiv:2004.04092 [cs.CL ].
- ^ "Hudební automat". OpenAI. 30.dubna 2020.
externí odkazy
- Shannon, C. E. (1948). „Matematická teorie komunikace“ (PDF). Technický deník Bell System. 27 (Červenec, říjen): 379–423, 623–656. doi:10.1002 / j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz / 101429.
- Mitchell, Tom M. (2015). "3. Generativní a diskriminační klasifikátory: Naivní Bayes a logistická regrese" (PDF). Strojové učení.
- Ng, Andrew Y.; Jordan, Michael I. (2002). „O diskriminačních vs. generativních klasifikátorech: srovnání logistické regrese a naivních polí“ (PDF). Pokroky v systémech zpracování neurálních informací.
- Jebara, Tony (2004). Strojové učení: diskriminační a generativní. Springer International Series in Engineering and Computer Science. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3.CS1 maint: ref = harv (odkaz)
- Jebara, Tony (2002). Diskriminační, generativní a napodobovací učení (PhD). Massachusetts Institute of Technology. hdl:1721.1/8323., (zrcadlo, zrcadlo ), publikováno jako kniha (výše)