Pachinko alokace - Pachinko allocation - Wikipedia

v strojové učení a zpracování přirozeného jazyka, pachinko alokační model (PAM) je tematický model. Tematické modely jsou sadou algoritmů k odhalení skryté tematické struktury sbírky dokumentů. [1] Algoritmus vylepšuje dřívější tematické modely, jako je latentní Dirichletova alokace (LDA) modelováním korelací mezi tématy kromě slovních korelací, které tvoří témata. PAM poskytuje větší flexibilitu a větší expresivní sílu než latentní přidělení Dirichlet.[2] Zatímco byl poprvé popsán a implementován v kontextu zpracování přirozeného jazyka, může mít algoritmus aplikace v jiných oblastech, jako je bioinformatika. Themodel je pojmenován pro pachinko automaty - hra populární v Japonsku, ve které se kovové koule odrážejí kolem složité sbírky špendlíků, dokud nepřistanou v různých koších dole.[3]

Dějiny

Alokaci Pachinko poprvé popsali Wei Li a Andrew McCallum v roce 2006.[3]Tato myšlenka byla v roce 2007 rozšířena o hierarchickou alokaci Pachinko, kterou provedli Li, McCallum a David Mimno.[4] V roce 2007 McCallum a jeho kolegové navrhli neparametrický Bayesiánský prior pro PAM založený na variantě hierarchického Dirichletova procesu (HDP).[2] Algoritmus byl implementován v Palička softwarový balíček zveřejněný skupinou McCallum v University of Massachusetts Amherst.

Modelka

PAM spojuje slova v V a témata v T libovolně směrovaný acyklický graf (DAG), kde tematické uzly zaujímají vnitřní úrovně a listy jsou slova.

Pravděpodobnost vygenerování celého korpusu je součinem pravděpodobností pro každý dokument:

Viz také

Reference

  1. ^ Blei, Davide. „Modelování témat“. Archivovány od originál dne 2. října 2012. Citováno 4. října 2012.
  2. ^ A b Li, Wei; Blei, David; McCallum, Andrew (2007). "Neparametrické přidělení Bayes Pachinko". arXiv:1206.5270. Citovat deník vyžaduje | deník = (Pomoc)
  3. ^ A b Li, Wei; McCallum, Andrew (2006). „Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations“ (PDF). Sborník 23. mezinárodní konference o strojovém učení.
  4. ^ Mimno, David; Li, Wei; McCallum, Andrew (2007). „Směsi hierarchických témat s přidělením Pachinko“ (PDF). Sborník z 24. mezinárodní konference o strojovém učení.
  5. ^ Hofmann, Thomas (1999). „Pravděpodobnostní latentní sémantické indexování“ (PDF). Sborník příspěvků z dvacáté druhé výroční mezinárodní konference SIGIR o výzkumu a vývoji v oblasti získávání informací. Archivovány od originál (PDF) dne 14. prosince 2010.
  6. ^ Blei, David M .; Ng, Andrew Y .; Jordan, Michael I.; Lafferty, John (leden 2003). „Přidělení latentního dirichletu“. Journal of Machine Learning Research. 3: str. 993–1022. Archivovány od originál dne 1. května 2012. Citováno 19. července 2010.

externí odkazy