Kolokační extrakce - Collocation extraction
Kolokační extrakce je úkolem k extrakci použít počítač kolokace automaticky od a korpus.
Tradiční metodou provádění kolokační extrakce je najít vzorec založený na statistických množstvích těchto slov pro výpočet skóre spojeného s každým slovním párem. Navrhované vzorce jsou vzájemné informace, t-test, z test, chí-kvadrát test a míra pravděpodobnosti.[1]
V oblasti korpusová lingvistika, kolokace je definován jako sled slov nebo podmínky který se vyskytují společně častěji, než by se dalo očekávat náhodou. „Křišťálově čistý“, „střední management“, „nukleární rodina“ a „kosmetická chirurgie“ jsou příklady uspořádaných párů slov. Některá slova se často nacházejí společně, protože tvoří a složené podstatné jméno, například „jezdecké boty“ nebo „motocyklista“.
Viz také
- Kolokační omezení
- Kolokační analýza
- Složené podstatné jméno, přídavné jméno a sloveso
- Frázové sloveso
- Siamská dvojčata (anglický jazyk)
- Terminologická extrakce
- n-gram analýza
externí odkazy
Reference
- ^ Manning, C. D .; Schütze, H. (1999). Základy statistického zpracování přirozeného jazyka. Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9.
![]() | Tento výpočetní lingvistika související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |