Energetický model - Energy based model
![]() | tento článek poskytuje nedostatečný kontext osobám, které toto téma neznají.Únor 2020) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
An energetický model (EBM) je forma generativní model (GM) dovážené přímo z statistická fyzika k učení. GM se učí základní distribuci dat analýzou ukázkové datové sady. Jakmile je GM proškolen, může vytvářet další datové sady, které také odpovídají distribuci dat.[1] EBM poskytují jednotný rámec pro mnoho pravděpodobnostních a nepravděpodobných přístupů k takovému učení, zejména pokud jde o školení grafický a další strukturované modely.[2]
EBM se učí vlastnosti cílové datové sady a generuje podobnou, ale větší datovou sadu. EBM detekují latentní proměnné datové sady a generovat nové datové sady s podobnou distribucí.[2]
Mezi cílové aplikace patří zpracování přirozeného jazyka, robotika a počítačové vidění.[2]
Dějiny
Rané práce na EBM navrhovaly modely, které představovaly energii jako složení latentních a pozorovatelných proměnných. EBM se objevily v roce 2003.[3]
Přístup
EBM zachycují závislosti přidružením nenormalizovaného skaláru pravděpodobnosti (energie) ke každé konfiguraci kombinace pozorovaných a latentních proměnných. Závěr spočívá v nalezení (hodnot) latentních proměnných, které minimalizují energii danou množinou (hodnot) pozorovaných proměnných. Podobně se model učí funkci, která přidruží nízké energie k opravě hodnot latentních proměnných a vyšší energie k nesprávným hodnotám.[2]
Tradiční EBM se spoléhají stochastický gradient-sestup (SGD) optimalizační metody, které se obvykle těžko aplikují na datové sady s vysokou dimenzí. V roce 2019 OpenAI zveřejnil variantu, která místo toho použila Langevinova dynamika (LD). LD je iterační optimalizační algoritmus, který zavádí šum do odhadce jako součást učení Objektivní funkce. Může být použit pro Bayesovské učení scénáře produkcí vzorků ze zadní distribuce.[2]
EBM nevyžadují normalizaci bez odhadu normalizace konstanta v pravděpodobnostních modelech, zvýšení flexibility.[2]
Vzorky jsou generovány implicitně prostřednictvím a Markovský řetězec Monte Carlo přístup.[4] Vyrovnávací paměť minulých obrázků se používá s LD k inicializaci modulu optimalizace.[2]
Vlastnosti
EBM ukazují užitečné vlastnosti:[2]
- Jednoduchost a stabilita - EBM je jediný objekt, který je třeba navrhnout a vyškolit. K zajištění rovnováhy není nutné proškolit samostatné sítě.
- Adaptivní doba výpočtu - EBM může generovat ostré, různorodé vzorky nebo (rychleji) hrubé, méně rozmanité vzorky. Vzhledem k nekonečnému času tento postup vytvoří skutečné vzorky.[1]
- Flexibilita - dovnitř Variační automatické kodéry (VAE) a modely založené na toku generátor učí mapu z kontinuálního prostoru do (případně) diskontinuálního prostoru obsahujícího různé datové režimy. EBM se mohou naučit přiřazovat nízké energie disjunktním oblastem (více režimů).
- Adaptivní generování - generátory EBM jsou implicitně definovány distribucí pravděpodobnosti a automaticky se přizpůsobují změnám distribuce (bez tréninku), což umožňuje EBM adresovat domény, kde je trénink generátoru nepraktický, stejně jako minimalizovat kolaps režimů a vyhnout se falešným režimům -distribuční vzorky.[4]
- Kompozičnost - Jednotlivé modely jsou nenormalizované rozdělení pravděpodobnosti, což umožňuje kombinovat modely produkt odborníků nebo jiné hierarchické techniky.
Experimentální výsledky
Na obrázkových datových sadách, jako je CIFAR-10 a ImageNet 32x32, model EBM generoval vysoce kvalitní obrázky relativně rychle. Podporovala kombinování funkcí získaných z jednoho typu obrazu pro generování dalších typů obrázků. Bylo možné zobecnit pomocí datových sad mimo distribuci, překonat tokové a autoregresní modely. EBM byla relativně odolná vůči nepřátelským poruchám a chovala se lépe než modely, které byly proti nim výslovně trénovány s tréninkem klasifikace.[2]
Alternativy
EBM soutěží s technikami, jako jsou VAE nebo Generativní kontradiktorní neuronové sítě (GAN).[2]
Viz také
![]() | Tato část je prázdná. Můžete pomoci přidávat k tomu. (Únor 2020) |
Reference
- ^ A b „Metody implicitního generování a generalizace pro modely založené na energii“. OpenAI. 2019-03-21. Citováno 2019-12-27.
- ^ A b C d E F G h i j Rodriguez, Jesus (01.04.2019). „Generování tréninkových datových sad pomocí energeticky založených modelů, které se skutečně rozšiřují“. Střední. Citováno 2019-12-27.
- ^ LeCun, Yann (září 2003). „CBLL, Výzkumné projekty, Výpočetní a biologická výuková laboratoř, Courant Institute, NYU“. cs.nyu.edu. Citováno 2019-12-27.
- ^ A b Du, Yilun; Mordatch, Igor (2019-03-20). „Implicitní generování a generalizace v energetických modelech“. arXiv:1903.08689 [cs.LG ].
externí odkazy
- „Letní škola CIAR NCAP“. www.cs.toronto.edu. Citováno 2019-12-27.
- Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), „Helmholtzův stroj“, Učení bez dozoru, The MIT Press, doi:10,7551 / mitpress / 7011,003,0017, ISBN 978-0-262-28803-3
- Hinton, Geoffrey E. (srpen 2002). "Školení produktů odborníků minimalizací kontrastní divergence". Neurální výpočet. 14 (8): 1771–1800. doi:10.1162/089976602760128018. ISSN 0899-7667. PMID 12180402.
- Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-04-15). „Hluboké Boltzmannovy stroje“. Umělá inteligence a statistika: 448–455.