Pachinko alokace - Pachinko allocation - Wikipedia
![]() | tento článek příliš spoléhá na Reference na primární zdroje.Září 2010) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
v strojové učení a zpracování přirozeného jazyka, pachinko alokační model (PAM) je tematický model. Tematické modely jsou sadou algoritmů k odhalení skryté tematické struktury sbírky dokumentů. [1] Algoritmus vylepšuje dřívější tematické modely, jako je latentní Dirichletova alokace (LDA) modelováním korelací mezi tématy kromě slovních korelací, které tvoří témata. PAM poskytuje větší flexibilitu a větší expresivní sílu než latentní přidělení Dirichlet.[2] Zatímco byl poprvé popsán a implementován v kontextu zpracování přirozeného jazyka, může mít algoritmus aplikace v jiných oblastech, jako je bioinformatika. Themodel je pojmenován pro pachinko automaty - hra populární v Japonsku, ve které se kovové koule odrážejí kolem složité sbírky špendlíků, dokud nepřistanou v různých koších dole.[3]
Dějiny
Alokaci Pachinko poprvé popsali Wei Li a Andrew McCallum v roce 2006.[3]Tato myšlenka byla v roce 2007 rozšířena o hierarchickou alokaci Pachinko, kterou provedli Li, McCallum a David Mimno.[4] V roce 2007 McCallum a jeho kolegové navrhli neparametrický Bayesiánský prior pro PAM založený na variantě hierarchického Dirichletova procesu (HDP).[2] Algoritmus byl implementován v Palička softwarový balíček zveřejněný skupinou McCallum v University of Massachusetts Amherst.
Modelka
![]() | Tato sekce potřebuje expanzi. Můžete pomoci přidávat k tomu. (Července 2017) |
PAM spojuje slova v V a témata v T libovolně směrovaný acyklický graf (DAG), kde tematické uzly zaujímají vnitřní úrovně a listy jsou slova.
Pravděpodobnost vygenerování celého korpusu je součinem pravděpodobností pro každý dokument:
Viz také
- Pravděpodobnostní latentní sémantické indexování (PLSI), model raného tématu od Thomase Hofmanna v roce 1999.[5]
- Latentní Dirichletova alokace, zobecnění PLSI vyvinuté David Blei, Andrew Ng, a Michael Jordan v roce 2002, což umožnilo dokumentům kombinovat různá témata.[6]
- Palička, open-source knihovna Java, která implementuje alokaci Pachinko.
Reference
- ^ Blei, Davide. „Modelování témat“. Archivovány od originál dne 2. října 2012. Citováno 4. října 2012.
- ^ A b Li, Wei; Blei, David; McCallum, Andrew (2007). "Neparametrické přidělení Bayes Pachinko". arXiv:1206.5270. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ A b Li, Wei; McCallum, Andrew (2006). „Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations“ (PDF). Sborník 23. mezinárodní konference o strojovém učení.
- ^ Mimno, David; Li, Wei; McCallum, Andrew (2007). „Směsi hierarchických témat s přidělením Pachinko“ (PDF). Sborník z 24. mezinárodní konference o strojovém učení.
- ^ Hofmann, Thomas (1999). „Pravděpodobnostní latentní sémantické indexování“ (PDF). Sborník příspěvků z dvacáté druhé výroční mezinárodní konference SIGIR o výzkumu a vývoji v oblasti získávání informací. Archivovány od originál (PDF) dne 14. prosince 2010.
- ^ Blei, David M .; Ng, Andrew Y .; Jordan, Michael I.; Lafferty, John (leden 2003). „Přidělení latentního dirichletu“. Journal of Machine Learning Research. 3: str. 993–1022. Archivovány od originál dne 1. května 2012. Citováno 19. července 2010.
externí odkazy
- Směsi hierarchických témat s alokací Pachinko, videozáznam Davida Mimna představujícího HPAM v roce 2007.
![]() | Tento počítačová věda článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |