Kolokační extrakce - Collocation extraction

Kolokační extrakce je úkolem k extrakci použít počítač kolokace automaticky od a korpus.

Tradiční metodou provádění kolokační extrakce je najít vzorec založený na statistických množstvích těchto slov pro výpočet skóre spojeného s každým slovním párem. Navrhované vzorce jsou vzájemné informace, t-test, z test, chí-kvadrát test a míra pravděpodobnosti.^[1]

V oblasti korpusová lingvistika, kolokace je definován jako sled slov nebo podmínky který se vyskytují společně častěji, než by se dalo očekávat náhodou. „Křišťálově čistý“, „střední management“, „nukleární rodina“ a „kosmetická chirurgie“ jsou příklady uspořádaných párů slov. Některá slova se často nacházejí společně, protože tvoří a složené podstatné jméno, například „jezdecké boty“ nebo „motocyklista“.

Viz také

externí odkazy

Co je to kolokace

Reference

^ Manning, C. D .; Schütze, H. (1999). Základy statistického zpracování přirozeného jazyka. Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9.

Tento výpočetní lingvistika související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to.

[1] Manning, C. D .; Schütze, H. (1999). Základy statistického zpracování přirozeného jazyka. Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9.

[1]

Zpracování přirozeného jazyka
Obecné podmínky	AI-kompletní Pytel slov n-gram Bigram Trigram Porozumění přirozenému jazyku Řečový korpus Stop slova Textový korpus
Analýza textu	Kolokační extrakce Koncept těžby Zpracování složených termínů Rozlišení koreference Lemmatizace Rozpoznání pojmenované entity Učení ontologie Analýza Značení části řeči Sémantická podobnost Analýza sentimentu Stemming Terminologická extrakce Chunking textu Segmentace textu Věta segmentace Segmentace slov Textové zapojení Truecasing Slovní smysl disambiguation
Automatická sumarizace	Shrnutí více dokumentů Extrakce věty Zjednodušení textu
Strojový překlad	S pomocí počítače Na příkladu Na základě pravidel Neurální
Automatická identifikace a sběr dat	Rozpoznávání řeči Segmentace řeči Syntéza řeči Generování přirozeného jazyka Optické rozpoznávání znaků
Tématický model	Latentní Dirichletova alokace Latentní sémantická analýza Pachinko alokace
S pomocí počítače revize	Automatické bodování eseje Harmonikář Kontrola gramatiky Prediktivní text Kontrola pravopisu Syntaxe hádání
Přirozený jazyk uživatelské rozhraní	Chatbot Interaktivní beletrie Odpověď na otázku Virtuální asistent Hlasové uživatelské rozhraní