Sémantická komprese - Semantic compression
v zpracování přirozeného jazyka, sémantická komprese je proces zhutňování lexikonu používaného k vytváření textového dokumentu (nebo sady dokumentů) snížením jazykové heterogenity při zachování textu sémantika. Výsledkem je, že stejné myšlenky lze vyjádřit pomocí menší sady slov.
Ve většině aplikací je sémantická komprese ztrátová komprese, to znamená, že zvýšená prolixita nekompenzuje lexikální kompresi a původní dokument nelze rekonstruovat v obráceném procesu.
Zobecněním
Sémantická komprese je v zásadě dosažena ve dvou krocích pomocí frekvenční slovníky a sémantická síť:
- stanovení kumulovaných četností termínů k identifikaci cílového lexikonu,
- nahrazení méně častých výrazů jejich hypernymy (zobecnění ) z cílového lexikonu.[1]
Krok 1 vyžaduje sestavení frekvencí slov a informace o sémantických vztazích, konkrétně hyponymy. Pohybem vzhůru v hierarchii slov se počítá kumulativní konceptuální frekvence přidáním součtu frekvencí hyponym k frekvenci jejich hypernym: kde je hypernym z Poté se vybere požadovaný počet slov s nejvyššími kumulovanými frekvencemi, aby se vytvořil cílený lexikon.
Ve druhém kroku jsou pro zbývající slova definována pravidla mapování komprese, aby se ve výstupním textu zpracoval každý výskyt méně častého hyponyma jako jeho hypernym.
- Příklad
Níže uvedený fragment textu byl zpracován sémantickou kompresí. Tučná slova byla nahrazena jejich hypernymy.
Jsou oba hnízdo budova sociální hmyz, ale papírové vosy a zlato včely organizovat jejich kolonie
ve velmi odlišných způsoby. V nové studii to vědci uvádějí navzdory jejich rozdíly, tento hmyz spolehnout se na stejnou síť genů, která je vede společenské chováníStudie se objevuje ve sborníku Royal Society B: Biologické vědy. Miláček včely a papírové vosy jsou odděleny více než 100 miliony let
vývoj, a jsou výrazné rozdíly v tom, jak rozdělují práci udržování A kolonie.
Výstupem postupu je následující text:
Jsou oba zařízení budova hmyz, ale hmyz a zlato hmyz uspořádat jejich biologické skupiny
ve velmi odlišných struktura. V nové studii to vědci uvádějí navzdory jejich rozdílnost názorů, tento hmyz akt stejná síť genů řídit jejich vystupování na večírku. Studie se objevuje v řízení o instituce bakterie Biologické vědy. Miláček hmyz a hmyz jsou odděleny více než sto miliony let
organické procesy, a jsou dopadající rozdíly v názorech v tom, jak rozdělují práci potvrzující A biologická skupina.
Implicitní sémantická komprese
Přirozenou tendenci udržovat výstižné výrazy v přirozeném jazyce lze vnímat jako formu implicitní sémantické komprese vynecháním nemyslitelných slov nebo nadbytečných smysluplných slov (zejména aby se zabránilo pleonazmy ).[2]
Aplikace a výhody
V vektorový vesmírný model, zhutnění lexikonu vede ke snížení o rozměrnost, což má za následek méně výpočetní složitost a pozitivní vliv na efektivitu.
Sémantická komprese je výhodná v vyhledávání informací úkoly a zlepšovat jejich efektivitu (z hlediska přesnosti i odvolání).[3] To je způsobeno přesnějšími deskriptory (snížený účinek jazykové rozmanitosti - omezená redundance jazyka, krok k řízenému slovníku).
Stejně jako v předchozím příkladu je možné výstup zobrazit jako přirozený text (opětovné použití inflexe, přidání zastavovacích slov).
Viz také
Reference
- ^ D. Ceglarek, K. Haniewicz, W. Rutkowski, sémantická komprese pro systémy získávání specializovaných informací, Advances in Intelligent Information and Database Systems, sv. 283, s. 111-121, 2010
- ^ N. N. Percova, O typech sémantické komprese textu, COLING '82 Proceedings of the 9th Conference on Computational Linguistics, vol. 2, s. 229-231, 1982
- ^ D. Ceglarek, K. Haniewicz, W. Rutkowski, Kvalita sémantické komprese v klasifikaci Sborník z 2. mezinárodní konference o výpočetní kolektivní inteligenci: technologie a aplikace, sv. 1, s. 162-171, 2010