Dynamický tematický model - Dynamic topic model - Wikipedia
![]() | tento článek poskytuje nedostatečný kontext pro ty, kteří danému tématu nejsou obeznámeni.Březen 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Dynamické tematické modely jsou generativní modely které lze použít k analýze vývoje (nepozorovaných) témat sbírky dokumentů v průběhu času. Tuto rodinu modelů navrhl David Blei a John Lafferty a je rozšířením Přidělení latentní dirichlet (LDA), který dokáže zpracovat sekvenční dokumenty.[1]
V LDA je model v pořadí, v jakém se slova objevují v dokumentu, i v pořadí, v jakém se dokumenty objevují v korpusu. Zatímco slova se stále považují za vyměnitelné, v dynamickém tematickém modelu hraje zásadní roli pořadí dokumentů. Přesněji řečeno, dokumenty jsou seskupeny podle časového úseku (např .: let) a předpokládá se, že dokumenty každé skupiny pocházejí ze sady témat, která se vyvinula ze sady předchozího řezu.
Témata
Podobně jako LDA a pLSA V dynamickém modelu tématu je každý dokument považován za směs nezjištěných témat. Každé téma dále definuje a multinomiální distribuce přes sadu termínů. Pro každé slovo každého dokumentu je tedy ze směsi čerpáno téma a následně je z multinomické distribuce odpovídající danému tématu čerpán termín.
Témata se však časem vyvíjejí. Například dva nejpravděpodobnější termíny tématu v daném čase t mohou být „network“ a „Zipf“ (v sestupném pořadí), zatímco ty nejpravděpodobnější v čase t + 1 mohou být „Zipf“ a „perkolace“ (v sestupném pořadí).
Modelka
Definovat
- jako distribuce témat na jednotlivé dokumenty v čase t.
- jako distribuce slova tématu k v čase t.
- jako distribuce tématu dokumentu d včas t,
- jako téma pro nth slovo v dokumentu d včas t, a
- jako konkrétní slovo.
V tomto modelu jsou multinomické distribuce a jsou generovány z a Ačkoli multinomické distribuce jsou obvykle psány z hlediska průměrných parametrů, jejich reprezentace z hlediska přirozených parametrů je lepší v kontextu dynamických tematických modelů.
První zastoupení má některé nevýhody kvůli skutečnosti, že parametry jsou omezeny na nezáporné a součet k jedné.[2] Při definování vývoje těchto distribucí by bylo třeba zajistit, aby byla tato omezení splněna. Protože obě distribuce jsou v exponenciální rodina, jedním z řešení tohoto problému je reprezentovat je z hlediska přirozených parametrů, které mohou nabývat jakékoli skutečné hodnoty a lze je individuálně měnit.
Při použití přirozené parametrizace je dynamika tematického modelu dána vztahem
a
- .
Generativní proces v časovém řezu 't' je tedy:
- Nakreslete témata
- Nakreslete model směsi
- Pro každý dokument:
- Kreslit
- Pro každé slovo:
- Nakreslete téma
- Nakreslete slovo
kde je mapování z přirozené parametrizace X na střední parametrizaci, jmenovitě
- .
Odvození
Pouze v modelu dynamického tématu je pozorovatelný. Naučení dalších parametrů představuje problém odvození. Blei a Lafferty tvrdí, že to platí Gibbsův odběr vzorků odvodit v tomto modelu je obtížnější než ve statických modelech, kvůli nekonjugaci Gaussova a multinomického rozdělení. Navrhují použití variační metody zejména Variační Kalmanovo filtrování a Variační vlnková regrese.
Aplikace
V původním článku je dynamický tematický model aplikován na korpus vědeckých článků publikovaných v letech 1881 až 1999, jejichž cílem je ukázat, že tuto metodu lze použít k analýze trendů používání slov uvnitř témat.[1] Autoři také ukazují, že model vyškolený pomocí minulých dokumentů je schopen přizpůsobit dokumenty nadcházejícího roku lépe než LDA.
Kontinuální dynamický tematický model vyvinuli Wang et al. a použije se k předpovědi časového razítka dokumentů.[3]
Nad rámec textových dokumentů byly dynamické modely témat použity ke studiu hudebního vlivu tím, že se učili hudební témata a jak se vyvíjejí v nedávné historii.[4]
Reference
- ^ A b Blei, David M; Lafferty, John D (2006). Dynamické tematické modely. Sborník ICML. ICML'06. 113–120. doi:10.1145/1143844.1143859. ISBN 978-1-59593-383-6. S2CID 5405229.
- ^ Rennie, Jason D. M. „Směsi multinomiálů“ (PDF). Citováno 5. prosince 2011.
- ^ Wang, Chong; Blei, David; Heckerman, David (2008). "Dynamické tematické modely s nepřetržitým časem". Sborník ICML. ICML '08.
- ^ Šalit, Uri; Weinshall, Daphna; Chechik, Gal (2013). „Modelování hudebního vlivu pomocí tematických modelů“ (PDF). Journal of Machine Learning Research.