Klastrování dokumentů - Document clustering

Klastrování dokumentů (nebo shlukování textu) je aplikace shluková analýza k textovým dokumentům. Má aplikace v automatické organizaci dokumentů, téma extrakce a rychle vyhledávání informací nebo filtrování.

Přehled

Klastrování dokumentů zahrnuje použití deskriptorů a extrakce deskriptorů. Deskriptory jsou sady slov, která popisují obsah v klastru. Shlukování dokumentů je obecně považováno za centralizovaný proces. Mezi příklady shlukování dokumentů patří shlukování webových dokumentů pro uživatele vyhledávání.

Aplikaci shlukování dokumentů lze rozdělit do dvou typů, online a offline. Online aplikace jsou obvykle omezeny problémy s účinností ve srovnání s offline aplikacemi. Seskupování textu lze použít pro různé úkoly, jako je seskupování podobných dokumentů (zprávy, tweety atd.) A analýza zpětné vazby od zákazníků / zaměstnanců, objevování smysluplných implicitních témat ve všech dokumentech.

Obecně existují dva běžné algoritmy. Prvním z nich je hierarchický algoritmus, který zahrnuje jeden odkaz, úplné propojení, průměr skupiny a Wardovu metodu. Agregací nebo rozdělením lze dokumenty seskupit do hierarchické struktury, která je vhodná pro procházení. Takový algoritmus však obvykle trpí problémy s účinností. Druhý algoritmus je vyvinut pomocí Algoritmus K-means a jeho varianty. Obecně hierarchické algoritmy produkují podrobnější informace pro podrobné analýzy, zatímco algoritmy založené na variantách Algoritmus K-means jsou efektivnější a poskytují dostatečné informace pro většinu účelů.[1]:Kap.14

Tyto algoritmy lze dále klasifikovat jako tvrdé nebo měkké shlukovací algoritmy. Hard clustering počítá tvrdé přiřazení - každý dokument je členem přesně jednoho clusteru. Přiřazení algoritmů měkkého shlukování je měkké - přiřazení dokumentu je distribucí mezi všechny shluky. V měkkém přiřazení má dokument částečné členství v několika klastrech.[1]:499 Snížení rozměrů metody lze považovat za podtyp měkkého shlukování; u dokumentů to zahrnuje latentní sémantické indexování (dekompozice zkrácené singulární hodnoty na termínových histogramech)[2] a tematické modely.

Další algoritmy zahrnují shlukování založené na grafech, ontologie podporované shlukování a shlukování citlivých objednávek.

Vzhledem ke klastrování může být výhodné automaticky odvodit pro clustery štítky čitelné člověkem. Různé metody existují pro tento účel.

Shlukování ve vyhledávačích

A webový vyhledávač často vrací tisíce stránek v reakci na široký dotaz, což uživatelům ztěžuje procházení nebo identifikaci relevantních informací. Metody shlukování lze použít k automatickému seskupení načtených dokumentů do seznamu smysluplných kategorií.

Postupy

V praxi klastrování dokumentů často provádí následující kroky:

1. Tokenizace

Tokenizace je proces syntézy textových dat na menší jednotky (tokeny), jako jsou slova a fráze. Mezi běžně používané metody tokenizace patří Model pytle slov a N-gramový model.

2. Stemming a lemmatizace

Různé tokeny mohou provádět podobné informace (např. Tokenizace a tokenizace). Můžeme se vyhnout opakovanému výpočtu podobných informací snížením všech tokenů do základní podoby pomocí různých slovníků lemmatizace a lemmatizace.

3. Odstranění přestaň slova a interpunkce

Některé žetony jsou méně důležité než jiné. Například běžná slova jako „the“ nemusí být velmi užitečná pro odhalení základních charakteristik textu. Obvykle je tedy dobré před další analýzou vyloučit zastavovací slova a interpunkční znaménka.

4. Výpočet termínu frekvence nebo tf-idf

Po předběžném zpracování textových dat můžeme pokračovat v generování funkcí. U klastrování dokumentů je jedním z nejběžnějších způsobů generování funkcí pro dokument výpočet četnosti termínů všech jeho tokenů. I když to není dokonalé, tyto frekvence mohou obvykle poskytnout určité vodítka k tématu dokumentu. A někdy je také užitečné vážit pojem frekvence podle frekvencí inverzního dokumentu. Vidět tf-idf pro podrobné diskuse.

5. Shlukování

Poté můžeme seskupit různé dokumenty na základě funkcí, které jsme vygenerovali. Viz část o algoritmu v shluková analýza pro různé typy metod shlukování.

6. Vyhodnocení a vizualizace

Nakonec lze seskupovací modely vyhodnotit pomocí různých metrik. Někdy je užitečné vizualizovat výsledky vykreslením shluků do nízko (dvourozměrného) prostoru. Vidět vícerozměrné škálování jako možný přístup.

Shlukování v. Klasifikace

Algoritmy seskupování ve výpočetní analýze textu seskupují dokumenty do seskupení sady textu, které se nazývají podmnožiny nebo shluky kde cílem algoritmu je vytvořit interně koherentní klastry, které jsou navzájem odlišné.[3] Klasifikace je na druhé straně formou učení pod dohledem kde se vlastnosti dokumentů používají k předpovědi „typu“ dokumentů.

Viz také

Reference

  1. ^ A b Manning, Chris a Hinrich Schütze, Základy statistického zpracování přirozeného jazyka, MIT Stiskněte. Cambridge, MA: květen 1999.
  2. ^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf
  3. ^ „Úvod do získávání informací“. nlp.stanford.edu. str. 349. Citováno 2016-05-03.

Bibliografie

  • Christopher D. Manning, Prabhakar Raghavan a Hinrich Schütze. Ploché shlukování v Úvod do získávání informací. Cambridge University Press. 2008
  • Nicholas O. Andrews a Edward A. Fox, Poslední vývoj v oblasti shlukování dokumentů, 16. října 2007 [1]
  • Claudio Carpineto, Stanislaw Osiński, Giovanni Romano, Dawid Weiss. Průzkum webových clusterovacích strojů. ACM Computing Surveys, svazek 41, vydání 3 (červenec 2009), článek č. 17, ISSN  0360-0300
  • Wui Lee Chang, Kai Meng Tay a Chee Peng Lim, nový vyvíjející se stromový model s lokálním opětovným učením pro shlukování a vizualizaci dokumentů, Neural Processing Letters, DOI: 10.1007 / s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3