Segmentace textu - Text segmentation

Segmentace textu je proces dělení psaného textu na smysluplné jednotky, jako jsou slova, věty nebo témat. Termín platí jak pro duševní procesy používané lidmi při čtení textu a na umělé procesy implementované v počítačích, které jsou předmětem zpracování přirozeného jazyka. Problém není triviální, protože zatímco některé psané jazyky mají explicitní hraniční značky slov, jako jsou slovní prostory psané angličtiny a výrazné počáteční, střední a konečné tvary písmen arabština, takové signály jsou někdy nejednoznačné a nejsou přítomny ve všech psaných jazycích.

Porovnat segmentace řeči, proces dělení řeči na jazykově smysluplné části.

Problémy segmentace

Segmentace slov

Segmentace slov je problém rozdělení řetězce psaného jazyka na jeho složená slova.

V angličtině a mnoha dalších jazycích pomocí nějaké formy latinka, prostor je dobrá aproximace a rozdělovač slov (slovo oddělovač ), i když tento koncept má omezení kvůli variabilitě jazyků emicky považovat kolokace a sloučeniny. Mnoho Anglická složená podstatná jména jsou variabilně zapsány (například ledový box = ledový box = ledový box; pig sty = pig-sty = pigsty ) s odpovídající variací v tom, zda si o nich mluvčí myslí podstatné jméno fráze nebo jednotlivá podstatná jména; existují trendy v tom, jak jsou stanoveny normy, například že otevřené sloučeniny mají často tendenci nakonec tuhnout široce rozšířenou konvencí, ale variace zůstávají systémové. V porovnání, Německá složená podstatná jména vykazují menší pravopisné variace, přičemž tuhnutí je silnější normou.

Ekvivalent znaku mezery ve slově se však nenachází ve všech napsaných skriptech a bez něj je segmentace slov obtížným problémem. Mezi jazyky, které nemají triviální proces segmentace slov, patří čínština, japonština atd věty ale ne slova jsou oddělena, Thai a Lao, kde jsou odděleny fráze a věty, ale ne slova, a vietnamština, kde jsou ohraničeny slabiky, ale ne slova.

V některých systémech psaní však, jako je Ge'ez skript používá Amharština a Tigrinya mezi jinými jazyky jsou slova výslovně oddělována (alespoň historicky) znakem bez mezer.

The Konsorcium Unicode zveřejnil a Standardní příloha o segmentaci textu,[1] zkoumání problematiky segmentace v multiscriptových textech.

Rozdělení slov je proces analýza zřetězené text (tj. text, který neobsahuje žádné mezery nebo jiné oddělovače slov), aby bylo možné odvodit, kde existují zlomy slov.

Rozdělení slov může také odkazovat na proces dělení slov.

Segmentace záměrů

Segmentace záměrů je problém rozdělení psaných slov do klíčových frází (2 nebo více skupin slov).

V angličtině a ve všech ostatních jazycích je identifikován základní záměr nebo přání, které se stávají základním kamenem segmentace klíčových frází. Klíčový produkt / služba, nápad, akce nebo myšlenka zakotví klíčovou frázi.

„[Všechno je vyrobeno z atomy]. [Málo částice které se pohybují] [neustále v okolí pohyb], [přilákat každého jiný] [když jsou trochu vzdálenost oddělený], [ale odpuzující] [na bytí vymačkaný] [do navzájem]."

Věta segmentace

Segmentace věty je problém rozdělení řetězce psaného jazyka na jeho komponentu věty. V angličtině a některých dalších jazycích pomocí interpunkce, zejména tečka / period period je rozumná aproximace. Ani v angličtině však tento problém není triviální kvůli použití znaku tečky pro zkratky, které mohou nebo nemusí také ukončit větu. Například, Pan. není jeho vlastní věta v „Pan Smith šel do obchodů na Jones Street. “ Při zpracování prostého textu mohou tabulky zkratek, které obsahují tečky, zabránit nesprávnému přiřazení hranic vět.

Stejně jako u segmentace slov, ne všechny psané jazyky obsahují interpunkční znaky, které jsou užitečné pro aproximaci hranic vět.

Segmentace témat

Analýza témat se skládá ze dvou hlavních úkolů: identifikace tématu a segmentace textu. Zatímco první je jednoduchý klasifikace konkrétního textu znamená druhý případ, že dokument může obsahovat více témat, a úkolem počítačové segmentace textu může být automatické objevování těchto témat a odpovídající segmentace textu. Hranice tématu mohou být zřejmé z nadpisů a odstavců sekcí. V ostatních případech je třeba použít techniky podobné těm, které se používají v klasifikace dokumentů.

Rozdělení textu na témat nebo diskurz obraty mohou být užitečné v některých úlohách přirozeného zpracování: mohou se zlepšit vyhledávání informací nebo rozpoznávání řeči výrazně (přesnějším indexováním / rozpoznáváním dokumentů nebo výsledkem zadání konkrétní části dokumentu odpovídající dotazu). Je také potřeba v detekce témat a sledovací systémy a shrnutí textu problémy.

Bylo vyzkoušeno mnoho různých přístupů:[2][3] např. HMM, lexikální řetězce, podobnost průchodu pomocí slova společný výskyt, shlukování, modelování témat, atd.

Je to docela nejednoznačný úkol - lidé hodnotící systémy segmentace textu se často liší v hranicích témat. Hodnocení textových segmentů je tedy také náročným problémem.

Další problémy se segmentací

Mohou být vyžadovány procesy pro segmentaci textu na segmenty kromě uvedených, včetně morfémy (úkol se obvykle nazývá morfologická analýza ) nebo odstavce.

Přístupy automatické segmentace

Problémem je automatická segmentace zpracování přirozeného jazyka implementace počítačového procesu k segmentaci textu.

Pokud interpunkční znaménka a podobné stopy nejsou trvale k dispozici, segmentační úkol často vyžaduje poměrně netriviální techniky, jako je statistické rozhodování, velké slovníky, jakož i zvážení syntaktických a sémantických omezení. Efektivní systémy zpracování přirozeného jazyka a nástroje pro segmentaci textu obvykle pracují s textem v konkrétních doménách a zdrojích. Například zpracování textu použitého v lékařských dokumentech je velmi odlišný problém než zpracování zpravodajských článků nebo inzerátů na nemovitosti.

Proces vývoje nástrojů pro segmentaci textu začíná shromážděním velkého korpusu textu v doméně aplikace. Existují dva obecné přístupy:

  • Ruční analýza textu a psaní vlastního softwaru
  • Anotujte ukázkový korpus hraničními informacemi a použijte strojové učení

Některé systémy segmentace textu využívají výhod jakýchkoli značek, jako je HTML, a znají formáty dokumentů, jako je PDF, aby poskytly další důkazy o hranicích vět a odstavců.

Viz také

Reference

  1. ^ UAX # 29
  2. ^ Freddy Y. Y. Choi (2000). „Pokroky v lineární segmentaci textu nezávislé na doméně“ (PDF). Sborník z 1. zasedání severoamerické kapitoly Asociace pro počítačovou lingvistiku (ANLP-NAACL-00). 26–33.
  3. ^ Jeffrey C. Reynar (1998). "Segmentace tématu: Algoritmy a aplikace" (PDF). IRCS-98-21. University of Pennsylvania. Citováno 8. listopadu 2007. Citovat deník vyžaduje | deník = (Pomoc)