Pravděpodobnostní latentní sémantická analýza - Probabilistic latent semantic analysis
Pravděpodobnostní latentní sémantická analýza (PLSA), také známý jako pravděpodobnostní latentní sémantické indexování (PLSI, zejména v kruzích vyhledávání informací) je a statistická technika pro analýzu údajů o dvou režimech a společném výskytu. Ve skutečnosti lze odvodit nízkodimenzionální zastoupení pozorovaných proměnných z hlediska jejich afinity k určitým skrytým proměnným, stejně jako v latentní sémantická analýza, ze kterého se vyvinula PLSA.
Ve srovnání se standardem latentní sémantická analýza ze kterého pochází lineární algebra a zmenšuje tabulky výskytů (obvykle prostřednictvím a rozklad singulární hodnoty ), pravděpodobnostní latentní sémantická analýza je založena na směsném rozkladu odvozeném z a model latentní třídy.
Modelka
Zvažování pozorování ve formě společných výskytů slov a dokumentů, PLSA modeluje pravděpodobnost každého společného výskytu jako směs podmíněně nezávislých multinomické distribuce:
přičemž „c“ jsou slova. Všimněte si, že počet témat je hyperparametr, který je nutné zvolit předem a není odhadnut z údajů. První formulace je symetrický formulace, kde a jsou oba generovány z latentní třídy podobnými způsoby (pomocí podmíněných pravděpodobností a ), zatímco druhá formulace je asymetrický formulace, kde pro každý dokument , je podmíněně vybrána latentní třída dokumentu podle a z této třídy se potom vygeneruje slovo podle . I když jsme v tomto příkladu použili slova a dokumenty, společný výskyt libovolné dvojice diskrétních proměnných lze modelovat přesně stejným způsobem.
Takže počet parametrů se rovná . Počet parametrů roste lineárně s počtem dokumentů. Navíc, i když PLSA je generativní model dokumentů ve sbírce, na kterou se odhaduje, nejedná se o generativní model nových dokumentů.
Jejich parametry se učí pomocí EM algoritmus.
aplikace
PLSA lze použít v diskriminačním prostředí prostřednictvím Fisherova jádra.[1]
PLSA má aplikace v vyhledávání informací a filtrování, zpracování přirozeného jazyka, strojové učení z textu a souvisejících oblastí.
Uvádí se, že aspektový model použitý v pravděpodobnostní latentní sémantické analýze je vážný nadměrné vybavení problémy.[2]
Rozšíření
- Hierarchická rozšíření:
- Generativní modely: Následující modely byly vyvinuty s cílem řešit často kritizovaný nedostatek PLSA, konkrétně že se nejedná o vhodný generativní model pro nové dokumenty.
- Latentní Dirichletova alokace - přidává a Dirichlet před distribucí témat na jednotlivé dokumenty
- Data vyššího řádu: I když je to ve vědecké literatuře zřídka diskutováno, PLSA se přirozeně rozšiřuje na data vyššího řádu (tři režimy a vyšší), tj. Může modelovat společné výskyty přes tři nebo více proměnných. Ve výše uvedené symetrické formulaci se to provádí jednoduše přidáním podmíněného rozdělení pravděpodobnosti pro tyto další proměnné. Toto je pravděpodobnostní analogie nezáporné tenzorové faktorizace.
Dějiny
Toto je příklad a model latentní třídy (viz tam uvedené odkazy) a souvisí to[5][6] na nezáporná maticová faktorizace. Současnou terminologii vytvořil v roce 1999 Thomas Hofmann.[7]
Viz také
Odkazy a poznámky
- ^ Thomas Hofmann, Učení se podobnosti dokumentů: informační-geometrický přístup k vyhledávání a kategorizaci dokumentů, Pokroky v systémech zpracování neurálních informací 12, pp-914-920, MIT Stiskněte, 2000
- ^ Blei, David M .; Andrew Y. Ng; Michael I. Jordan (2003). „Přidělení latentního dirichletu“ (PDF). Journal of Machine Learning Research. 3: 993–1022. doi:10.1162 / jmlr.2003.3.4-5,993.
- ^ Alexej Vinokourov a Mark Girolami, Pravděpodobnostní rámec pro hierarchickou organizaci a klasifikaci sbírek dokumentů, v Zpracování a správa informací, 2002
- ^ Eric Gaussier, Cyril Goutte, Kris Popat a Francine Chen,Hierarchický model pro seskupování a kategorizaci dokumentů Archivováno 04.03.2016 na Wayback Machine, in „Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG Evropské kolokvium o výzkumu IR (ECIR-02) ", 2002
- ^ Chris Ding, Tao Li, Wei Peng (2006). "Nezáporná maticová faktorizace a pravděpodobnostní latentní sémantické indexování: ekvivalence Chi-kvadratická statistika a hybridní metoda. AAAI 2006 "
- ^ Chris Ding, Tao Li, Wei Peng (2008). "O rovnocennosti mezi nezápornou maticovou faktorizací a pravděpodobnostním latentním sémantickým indexováním "
- ^ Thomas Hofmann, Pravděpodobnostní latentní sémantické indexování, Sborník z dvacátého druhého výročního mezinárodního SIGIR Konference o výzkumu a vývoji v Načítání informací (SIGIR-99), 1999