Morfologický slovník - Morphological dictionary
![]() | tento článek ne uvést žádný Zdroje.Února 2015) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
V oblasti výpočetní lingvistika, a morfologický slovník je jazykový zdroj, který obsahuje korespondenci mezi povrchovou formou a lexikálními tvary slov. Povrchové tvary slov jsou ty, které se nacházejí v jakémkoli textu. Odpovídající lexikální formou povrchové formy je lemma následované gramatickými informacemi (například část mluvy, Rod a číslo ). V angličtině dát, dává, dávat, dal a daný jsou povrchové tvary slovesa dát. Lexikální forma by byla „dej“, sloveso. Existují dva druhy morfologických slovníků: zarovnané a nevyrovnané.
Zarovnané morfologické slovníky
V zarovnaném morfologickém slovníku je korespondence mezi povrchovou formou a lexikální formou slova zarovnána na úrovni znaků, například:
- (h, h) (o, o) (u, u) (s, s) (e, e) (s, ⟨n⟩), (θ, ⟨pl⟩)
Kde θ je prázdný symbol a ⟨n⟩ znamená „podstatné jméno“ a ⟨pl⟩ znamená „množné číslo“.
V příkladu je levá strana povrchová forma (vstup) a pravá strana je lexikální forma (výstup). Tato objednávka se používá v morfologická analýza kde lexikální forma je generována z povrchové formy. V morfologické generaci by bylo toto pořadí obráceno.
Formálně, pokud Σ je abeceda vstupních symbolů, a je abeceda výstupních symbolů, vyrovnaný morfologický slovník je podmnožinou , kde:
je abeceda všech možných zarovnání včetně prázdného symbolu. To znamená, že zarovnaný morfologický slovník je sada řetězců v .
Nezarovnaný morfologický slovník
Nezarovnaný morfologický slovník je jednoduše sada párů vstupních a výstupních řetězců. Nezarovnaný morfologický slovník by představoval předchozí příklad jako:
- (domy, dům⟨n⟩⟨pl⟩)
Je možné převést nevyrovnaný slovník na zarovnaný slovník. Kromě triviálních zarovnání doleva nebo doprava jsou možná lingvisticky motivovaná zarovnání, která zarovnávají znaky k odpovídajícím morfémům.
Lexikální dvojznačnosti
Často existuje více než jedna lexikální forma spojená s povrchovou formou slova. Například „dům“ může být podstatné jméno v jednotném čísle, / haʊs /, nebo může být slovesem v přítomném čase, / haʊz /. V důsledku toho je nutné mít funkci, která spojuje vstupní řetězce s jejich odpovídajícími výstupními řetězci.
Pokud definujeme množinu vstupních slov taková , funkce korespondence by byla definováno jako .