Latentní Dirichletova alokace - Latent Dirichlet allocation

v zpracování přirozeného jazyka, latentní Dirichletova alokace (LDA) je generativní statistický model který umožňuje vysvětlit soubory pozorování nepozorovaný skupiny, které vysvětlují, proč jsou některé části dat podobné. Pokud jsou například pozorování slova shromážděná do dokumentů, předpokládá se, že každý dokument je směsicí malého počtu témat a že přítomnost každého slova lze připsat jednomu z témat dokumentu. LDA je příkladem a tematický model a patří do strojové učení soubor nástrojů a v širším smyslu k umělá inteligence sada nástrojů.

Dějiny

V kontextu populační genetika, LDA navrhl J. K. Pritchard, M. Stephens a P. Donnelly v roce 2000.[1][2]

LDA byla použita v strojové učení podle David Blei, Andrew Ng a Michael I. Jordan v roce 2003.[3]

Přehled

Evoluční biologie a bioléčba

V evoluční biologii a biolékařství se model používá k detekci přítomnosti strukturované genetické variace u skupiny jedinců. Model předpokládá, že alely nesené studovanými jedinci pocházejí z různých existujících nebo minulých populací. Model a různé inferenční algoritmy umožňují vědcům odhadnout frekvence alel v těchto zdrojových populacích a původ alel nesených studovanými jedinci. Zdrojové populace lze interpretovat ex-post z hlediska různých evolučních scénářů. v asociační studie, detekce přítomnosti genetické struktury je považována za nezbytný předběžný krok, kterému je třeba se vyhnout matoucí.

Inženýrství

Jedním z příkladů LDA ve strojírenství je automatická klasifikace dokumentů a odhad jejich relevance pro různá témata.

V LDA lze každý dokument zobrazit jako a směs různých témat, kde je každý dokument považován za soubor témat, která jsou k němu přiřazena prostřednictvím LDA. Je to stejné jako pravděpodobnostní latentní sémantická analýza (pLSA), kromě toho, že se v LDA předpokládá, že distribuce témat bude řídká Dirichlet předchozí. Řídký Dirichletův předchůdce kóduje intuici, že dokumenty pokrývají pouze malou sadu témat a že témata často používají pouze malou sadu slov. V praxi to má za následek lepší disambiguaci slov a přesnější přiřazení dokumentů k tématům. LDA je zobecněním pLSA model, který je ekvivalentní LDA v rámci jednotné Dirichletovy předchozí distribuce.[4]

Například model LDA může obsahovat témata, která lze klasifikovat jako Související s CAT_ a Související s DOG. Téma má pravděpodobnost generování různých slov, například mléko, mňoukat, a kotě, které může divák klasifikovat a interpretovat jako „CAT_related“. Přirozeně slovo kočka sama o sobě bude mít vzhledem k tomuto tématu vysokou pravděpodobnost. The Související s DOG téma má také pravděpodobnost generování každého slova: štěně, kůra, a kost může mít vysokou pravděpodobnost. Slova bez zvláštního významu, jako např "the" (vidět funkční slovo ), bude mít zhruba rovnoměrnou pravděpodobnost mezi třídami (nebo jej lze zařadit do samostatné kategorie). Téma není ani jedno sémanticky ani epistemologicky silně definované. Identifikuje se na základě automatické detekce pravděpodobnosti společného výskytu termínu. Lexikální slovo se může vyskytovat v několika tématech s různou pravděpodobností, avšak s odlišnou typickou sadou sousedních slov v každém tématu.

Předpokládá se, že každý dokument je charakterizován konkrétní sadou témat. To je podobné jako u standardu pytel slov předpoklad a vytváří jednotlivá slova vyměnitelné.

Modelka

Desková notace představující model LDA.

S desková notace, který se často používá k reprezentaci pravděpodobnostní grafické modely (PGM), závislosti mezi mnoha proměnnými lze stručně zachytit. Krabice jsou „desky“ představující repliky, což jsou opakované entity. Vnější deska představuje dokumenty, zatímco vnitřní deska představuje pozice opakovaných slov v daném dokumentu; každá pozice je spojena s výběrem tématu a slova. Názvy proměnných jsou definovány takto:

M označuje počet dokumentů
N je počet slov v daném dokumentu (dokument i slova)
α je parametr Dirichlet před distribucí témat na jednotlivé dokumenty
β je parametr Dirichlet před distribucí slov podle témat
je distribuce témat pro dokument i
je distribuce slov pro téma k
je téma pro j-th slovo v dokumentu i
je konkrétní slovo.
Desková notace pro LDA s Dirichletovými distribucemi tématických slov

Skutečnost, že W je zašedlá, znamená tato slova jsou jediní pozorovatelné proměnné a další proměnné jsou latentní proměnné Jak je navrženo v původním dokumentu[3], k modelování distribuce témat a slov lze použít řídký Dirichletův prior, který se řídí intuicí, že rozdělení pravděpodobnosti mezi slova v tématu je zkresleno, takže pouze malá sada slov má vysokou pravděpodobnost. Výsledný model je dnes nejpoužívanější variantou LDA. Značka desky pro tento model je uvedena vpravo, kde označuje počet témat a jsou -dimenzionální vektory uchovávající parametry Dirichletově distribuovaných tématických slovních distribucí ( je počet slov ve slovníku).

Je užitečné myslet na entity, které zastupuje a jako matice vytvořené rozložením původní matice dokumentu a slova, která představuje korpus modelovaných dokumentů. V tomto pohledu sestává z řádků definovaných dokumenty a sloupců definovaných tématy, zatímco skládá se z řádků definovaných tématy a sloupců definovaných slovy. Tím pádem, odkazuje na sadu řádků nebo vektorů, z nichž každý je distribucí po slovech, a odkazuje na sadu řádků, z nichž každý je distribucí podle témat.

Generativní proces

Abychom skutečně odvodili témata v korpusu, představujeme si generativní proces, při kterém jsou dokumenty vytvářeny, abychom je mohli odvodit nebo zpětně analyzovat. Generativní proces si představujeme následovně. Dokumenty jsou reprezentovány jako náhodné směsi nad latentními tématy, kde každé téma je charakterizováno distribucí mezi všechna slova. LDA předpokládá následující generativní proces pro korpus skládající se z dokumenty každé délky :

1. Vyberte , kde a je Dirichletova distribuce se symetrickým parametrem což je obvykle řídké ()

2. Vyberte , kde a obvykle je řídký

3. Pro každou pozici slova , kde , a

(a) Vyberte téma
(b) Vyberte slovo

(Všimněte si, že multinomiální distribuce zde se odkazuje na multinomiální pouze s jedním pokusem, který je také známý jako kategorické rozdělení.)

Délky jsou považovány za nezávislé na všech ostatních proměnných generujících data ( a ). Dolní index je často zrušen, jako v diagramech desek zobrazených zde.

Definice

Formální popis LDA je následující:

Definice proměnných v modelu
VariabilníTypVýznam
celé číslopočet témat (např.50)
celé číslopočet slov ve slovníku (např. 50 000 nebo 1 000 000)
celé číslopočet dokumentů
celé číslopočet slov v dokumentu d
celé číslocelkový počet slov ve všech dokumentech; součet všech hodnoty, tj.
pozitivní skutečnépředchozí váha tématu k v dokumentu; obvykle stejné pro všechna témata; normálně číslo menší než 1, např. 0,1, preferovat řídké distribuce témat, tj. Několik témat na dokument
K.-dimenzionální vektor pozitivních realsbírka všech hodnoty, nahlíženo jako jeden vektor
pozitivní skutečnépředchozí váha slova w v tématu; obvykle stejné pro všechna slova; normálně číslo mnohem menší než 1, např. 0,001, abych silně upřednostňoval řídké distribuce slov, tj. Několik slov na téma
PROTI-dimenzionální vektor pozitivních realsbírka všech hodnoty, nahlíženo jako jeden vektor
pravděpodobnost (reálné číslo mezi 0 a 1)pravděpodobnost slova w vyskytující se v tématu k
PROTI-dimenzionální vektor pravděpodobností, který musí být součtem 1distribuce slov v tématu k
pravděpodobnost (reálné číslo mezi 0 a 1)pravděpodobnost tématu k vyskytující se v dokumentu d
K.-dimenzionální vektor pravděpodobností, který musí být součtem 1distribuce témat v dokumentu d
celé číslo mezi 1 a K.identita tématu slova w v dokumentu d
N-dimenzionální vektor celých čísel mezi 1 a K.identita tématu všech slov ve všech dokumentech
celé číslo mezi 1 a PROTItotožnost slova w v dokumentu d
N-dimenzionální vektor celých čísel mezi 1 a PROTItotožnost všech slov ve všech dokumentech

Náhodné proměnné pak můžeme matematicky popsat takto:

Odvození

Naučit se různé distribuce (soubor témat, jejich pravděpodobnosti asociovaných slov, téma každého slova a konkrétní tematická směs každého dokumentu) je problém statistická inference.

Simulace Monte Carlo

Původní práce Pritchard et al.[1] použitá aproximace zadní distribuce simulací Monte Carlo. Alternativní návrh odvozovacích technik zahrnuje Gibbsův odběr vzorků.[5]

Variační Bayes

Originální ML papír používal a variační Bayes aproximace zadní distribuce;[3]

Maximalizace pravděpodobnosti

Přímá optimalizace pravděpodobnosti pomocí algoritmu relaxace bloku se ukazuje jako rychlá alternativa k MCMC.[6]

Neznámý počet populací / témat

V praxi není nejvhodnější počet populací nebo témat předem znám. To lze odhadnout odhadem zadní distribuce pomocí [reverzibilní skok Markovův řetězec Monte Carlo][7]

Alternativní přístupy

Alternativní přístupy zahrnují šíření očekávání.[8]


Nedávný výzkum byl zaměřen na urychlení závěrů latentní Dirichletovy alokace s cílem podpořit zachycení velkého počtu témat u velkého počtu dokumentů. Aktualizační rovnice sbaleného Gibbsova vzorkovače zmíněného v předchozí části má v sobě přirozenou řídkost, kterou lze využít. Intuitivně, protože každý dokument obsahuje pouze podmnožinu témat a slovo se také zobrazí pouze v podmnožině témat , výše uvedená aktualizační rovnice by mohla být přepsána, aby se využila výhod této řídkosti.[9]

V této rovnici máme tři členy, z nichž dva jsou řídké a druhý malý. Říkáme jim tyto podmínky a resp. Pokud nyní normalizujeme každý termín sečtením všech témat, dostaneme:

Tady to vidíme je souhrn témat, která se v dokumentu objevují , a je také řídké shrnutí témat, která slovo je přiřazen přes celý korpus. na druhé straně je hustý, ale kvůli malým hodnotám & , hodnota je ve srovnání se dvěma dalšími termíny velmi malá.

Nyní, při vzorkování tématu, pokud náhodně proměníme náhodně proměnnou z , můžeme zkontrolovat, do kterého kbelíku náš vzorek přistane. Od té doby je malý, je velmi nepravděpodobné, že bychom spadli do tohoto kbelíku; pokud však spadneme do tohoto segmentu, vzorkování tématu bude trvat času (stejně jako původní sbalený Gibbs Sampler). Pokud však spadneme do dalších dvou segmentů, musíme zkontrolovat podmnožinu témat, pouze pokud uchováváme záznamy o řídkých tématech. Téma lze odebrat z kbelík dovnitř času a téma lze odebrat z kbelík dovnitř čas kde a označuje počet témat přiřazených k aktuálnímu dokumentu a aktuální typ slova.

Všimněte si, že po vzorkování každého tématu je aktualizace těchto segmentů základní aritmetické operace.

Aspekty výpočetních detailů

Následuje odvození rovnic pro zhroutil Gibbsův odběr vzorků, což znamená s a s budou integrovány. Pro zjednodušení se v této derivaci předpokládá, že všechny dokumenty mají stejnou délku . Odvození je stejně platné, pokud se liší délky dokumentu.

Podle modelu je celková pravděpodobnost modelu:

kde proměnné s tučným písmem označují vektorovou verzi proměnných. Za prvé, a je třeba integrovat ven.

Všechny jsou navzájem nezávislé a stejné pro všechny ostatní s. Takže můžeme zacházet s každým a každý odděleně. Nyní se zaměřujeme pouze na část.

Můžeme se dále zaměřit pouze na jednu jako následující:

Ve skutečnosti je to skrytá část modelu pro dokument. Nyní nahradíme pravděpodobnosti ve výše uvedené rovnici výrazem skutečné distribuce, abychom zapsali explicitní rovnici.

Nechat být počet slovních tokenů v dokument se stejným slovním symbolem ( slovo ve slovníku) přiřazené k téma. Tak, je trojrozměrný. Pokud některá ze tří dimenzí není omezena na konkrétní hodnotu, použijeme bod v závorkách todenote. Například, označuje počet slovních tokenů v dokument přiřazený k téma. Pravou většinu výše uvedené rovnice lze tedy přepsat jako:

Takže integrační vzorec lze změnit na:

Je zřejmé, že rovnice uvnitř integrace má stejnou formu jako Dirichletova distribuce. Podle Dirichletova distribuce,

Tím pádem,

Nyní obrátíme naši pozornost k část. Ve skutečnosti je odvození část je velmi podobná část. Zde uvádíme pouze kroky odvození:

Pro přehlednost zde zapíšeme konečnou rovnici s oběma a integrovaný ven:

Cílem Gibbs Sampling zde je přiblížit distribuci . Od té doby je neměnný pro kteroukoli ze Z, lze odvodit Gibbsovy vzorkovací rovnice přímo. Klíčovým bodem je odvodit následující podmíněnou pravděpodobnost:

kde označuje skrytá proměnná slovní token v dokument. A dále předpokládáme, že jeho slovním symbolem je slovo ve slovníku. označuje všechny s ale . Všimněte si, že Gibbs Sampling potřebuje pouze vzorkování hodnoty , podle výše uvedené pravděpodobnosti nepotřebujeme přesnou hodnotu

ale poměry mezi pravděpodobnostmi může mít hodnotu. Výše uvedenou rovnici lze tedy zjednodušit jako:

Nakonec nechte mít stejný význam jako ale s vyloučeno. Výše uvedenou rovnici lze dále zjednodušit využitím vlastnosti funkce gama. Nejprve rozdělíme součet a poté je spojíme zpět, abychom získali a -nezávislý součet, který lze zrušit:

Stejný vzorec je odvozen v článku na webu Dirichletovo-multinomické rozdělení, jako součást obecnější diskuse o integraci Dirichletova distribuce předchůdci z a Bayesovská síť.

Související problémy

Související modely

Modelování témat je klasickým řešením problému vyhledávání informací pomocí propojených dat a sémantické webové technologie [10]. Související modely a techniky jsou mimo jiné latentní sémantické indexování, analýza nezávislých komponent, pravděpodobnostní latentní sémantické indexování, nezáporná maticová faktorizace, a Gama-Poissonovo rozdělení.

Model LDA je vysoce modulární a lze jej proto snadno rozšířit. Hlavní oblastí zájmu je modelování vztahů mezi tématy. Toho je dosaženo použitím jiné distribuce na simplexu místo Dirichletu. Korelovaný topický model[11] následuje tento přístup a indukuje korelační strukturu mezi tématy pomocí logistické normální rozdělení místo Dirichlet. Další příponou je hierarchická LDA (hLDA),[12] kde jsou témata spojována v hierarchii pomocí vnořených Proces čínské restaurace, jehož struktura se učí z dat. LDA lze také rozšířit na korpus, ve kterém dokument obsahuje dva typy informací (např. Slova a jména), jako v LDA-duální model.[13]Mezi neparametrická rozšíření LDA patří hierarchický Dirichletův proces směsný model, který umožňuje neomezený počet témat a poučení z dat.

Jak již bylo uvedeno dříve, pLSA je podobný LDA. Model LDA je v podstatě bayesiánská verze modelu pLSA. Bayesiánská formulace má tendenci lépe fungovat u malých datových souborů, protože Bayesovské metody mohou zabránit přeplnění dat. U velmi velkých datových sad mají výsledky těchto dvou modelů tendenci konvergovat. Jedním rozdílem je, že pLSA používá proměnnou reprezentovat dokument v tréninkové sadě. Takže v pLSA, když jsme dostali dokument, který model ještě neviděl, opravíme - pravděpodobnost slov v rámci témat - to, co se naučíte z tréninkové sady, a použít stejný algoritmus EM k odvození —Distribuce tématu pod . Blei tvrdí, že tento krok podvádí, protože v zásadě upravujete model na nová data.

Prostorové modely

V evoluční biologii je často přirozené předpokládat, že zeměpisné polohy pozorovaných jedinců přinášejí určité informace o jejich předcích. To je racionální pro různé modely geo-odkazovaných genetických dat[7][14]

Varianty LDA byly použity k automatickému zařazení přirozených obrázků do kategorií, jako je „ložnice“ nebo „les“, při zpracování obrázku jako dokumentu a malé části obrázku jako slova;[15] nazývá se jedna z variant Prostorová latentní dirichletová alokace.[16]

Viz také

Reference

  1. ^ A b Pritchard, J. K .; Stephens, M .; Donnelly, P. (červen 2000). "Odvození struktury populace pomocí multilokusových genotypových dat". Genetika. 155 (2): str. 945–959. ISSN  0016-6731. PMC  1461096. PMID  10835412.
  2. ^ Falush, D .; Stephens, M .; Pritchard, J. K. (2003). "Inference struktury populace využívající data multilokusového genotypu: propojené lokusy a korelované frekvence alel". Genetika. 164 (4): str. 1567–1587. PMID  12930761.
  3. ^ A b C Blei, David M .; Ng, Andrew Y .; Jordan, Michael I. (Leden 2003). Lafferty, John (ed.). „Přidělení latentního dirichletu“. Journal of Machine Learning Research. 3 (4–5): str. 993–1022. doi:10.1162 / jmlr.2003.3.4-5,993. Archivovány od originál dne 2012-05-01. Citováno 2006-12-19.
  4. ^ Girolami, Mark; Kaban, A. (2003). O rovnocennosti mezi PLSI a LDA. Sborník SIGIR 2003. New York: Sdružení pro výpočetní techniku. ISBN  1-58113-646-3.
  5. ^ Griffiths, Thomas L .; Steyvers, Mark (6. dubna 2004). „Hledání vědeckých témat“. Sborník Národní akademie věd. 101 (Příloha 1): 5228–5235. Bibcode:2004PNAS..101,5228G. doi:10.1073 / pnas.0307752101. PMC  387300. PMID  14872004.
  6. ^ Alexander, David H .; Novembre, John; Lange, Kenneth (2009). „Rychlý odhad původu podle původu u nesouvisejících jedinců“. Výzkum genomu. 19 (9): 1655–1664. doi:10.1101 / gr.094052.109. PMC  2752134. PMID  19648217.
  7. ^ A b Guillot, G .; Estoup, A .; Mortier, F .; Cosson, J. (2005). „Prostorový statistický model pro genetiku krajiny“. Genetika. 170 (3): str. 1261–1280. doi:10.1534 / genetika.104.033803. PMC  1451194. PMID  15520263.
  8. ^ Minka, Thomas; Lafferty, John (2002). Šíření očekávání pro generativní model aspektu (PDF). Sborník z 18. konference o nejistotě v umělé inteligenci. San Francisco, Kalifornie: Morgan Kaufmann. ISBN  1-55860-897-4.
  9. ^ Yao, Limin; Mimno, David; McCallum, Andrew (2009). Efektivní metody pro odvození tematického modelu při streamování kolekcí dokumentů. 15. mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat.
  10. ^ Lamba, Manika; Madhusudhan, Margam (2019). „Mapování témat v DESIDOC Journal of Library and Information Technology, India: a study“. Scientometrie. 120 (2): 477–505. doi:10.1007 / s11192-019-03137-5. S2CID  174802673.
  11. ^ Blei, David M .; Lafferty, John D. (2006). „Korelované tematické modely“ (PDF). Pokroky v systémech zpracování neurálních informací. 18.
  12. ^ Blei, David M .; Jordan, Michael I.; Griffiths, Thomas L .; Tenenbaum, Joshua B (2004). Hierarchické tematické modely a proces vnořené čínské restaurace (PDF). Pokroky v systémech zpracování neurálních informací 16: Sborník z konference z roku 2003. MIT Stiskněte. ISBN  0-262-20152-6.
  13. ^ Shu, Liangcai; Long, Bo; Meng, Weiyi (2009). Model latentního tématu pro úplné řešení entit (PDF). 25. mezinárodní konference IEEE o datovém inženýrství (ICDE 2009).
  14. ^ Guillot, G .; Leblois, R .; Coulon, A .; Frantz, A. (2009). "Statistické metody v prostorové genetice". Molekulární ekologie. 18 (23): str. 4734–4756. doi:10.1111 / j.1365-294X.2009.04410.x. PMID  19878454.
  15. ^ Li, Fei-Fei; Perona, Pietro. „Bayesovský hierarchický model pro učení kategorií přírodních scén“. Sborník konference IEEE Computer Society o počítačovém vidění a rozpoznávání vzorů z roku 2005 (CVPR'05). 2: 524–531.
  16. ^ Wang, Xiaogang; Grimson, Eric (2007). „Prostorová latentní dirichletová alokace“ (PDF). Sborník konferencí o systémech zpracování neurálních informací (NIPS).

externí odkazy

  • jLDADMM Balíček Java pro modelování témat na normálních nebo krátkých textech. jLDADMM zahrnuje implementace tematického modelu LDA a jedno téma na dokument Dirichletův multinomiální model směsi. jLDADMM také poskytuje implementaci pro vyhodnocení shlukování dokumentů k porovnání tematických modelů.
  • STTM Balíček Java pro modelování témat krátkého textu (https://github.com/qiang2100/STTM ). STTM zahrnuje tyto následující algoritmy: Dirichlet Multinomial Mixture (DMM) na konferenci KDD2014, Biterm Topic Model (BTM) v časopise TKDE2016, Word Network Topic Model (WNTM) v časopise KAIS2018, Pseudo-dokumentový tematický model (PTM) na konferenci KDD2016 , Topický model založený na autoagregaci (SATM) na konferenci IJCAI2015, (ETM) na konferenci PAKDD2017, Dirichlet Multinomial Mixturemodel (GPU-DMM) na bázi Generalized P´olya Urn (GPU) na konferenci SIGIR2016, Generalized P´olya Urn (GPU) ) založen na Poissonově Dirichletově multinomálním mixu (GPU-PDMM) v časopise TIS2017 a Latent Feature Model s DMM (LF-DMM) v časopise TACL2015. STTM také obsahuje šest krátkých textových korpusů pro vyhodnocení. STTM představuje tři aspekty, jak vyhodnotit výkonnost algoritmů (tj. Koherence témat, shlukování a klasifikace).
  • Přednáška, která pokrývá část notace v tomto článku: Video přednáška o LDA a modelování témat od Davida Blei nebo stejná přednáška na YouTube
  • Bibliografie LDA D. Mimna Vyčerpávající seznam zdrojů souvisejících s LDA (včetně dokumentů a některých implementací)
  • Gensim, Python +NumPy implementace online LDA pro vstupy větší než dostupná RAM.
  • topicmodels a lda jsou dva R balíčky pro analýzu LDA.
  • „Těžba textu s R“ včetně metod LDA, videoprezentace na setkání skupiny uživatelů Los Angeles R v říjnu 2011
  • Palička Otevřený balíček Java založený na University of Massachusetts-Amherst pro modelování témat pomocí LDA má také samostatně vyvinuté grafické uživatelské rozhraní, Nástroj pro modelování témat
  • LDA v Mahoutu implementace LDA pomocí MapReduce na Hadoop plošina
  • Výukový program Latent Dirichlet Allocation (LDA) pro strojový výpočetní rámec Infer.NET Rámec strojového učení Microsoft Research C #
  • LDA ve Sparku: Od verze 1.3.0, Apache Spark také obsahuje implementaci LDA
  • LDA, příkladLDA Implementace MATLABu