Automatické získávání lexikonu - Automatic acquisition of lexicon - Wikipedia

Automatické získávání lexikonu je počítačový proces používaný k vývoji komplexní morfologické lexiky jazyka. Lexikon je pro NLP nezbytný (Zpracování přirozeného jazyka ), stejně jako předpoklad pro jakýkoli analyzátor širokého pokrytí.[1]Představují dva hlavní požadavky drsný korpus a morfologický popis jazyka. Cílem je poskytnout lemmat to poslouží k vysvětlení všech slov, která se v korpusu vyskytují. Pro dosažení kvalitního lexikonu je nutné vygenerovaná lemata ručně ověřit a celý proces několikrát iterovat. Proces je zaměřen na otevřené slovní třídy (např. podstatná jména, přídavná jména, slovesa). Uzavřené třídy (např. Předložky, zájmena, číslovky) jsou vyloučeny. Tato metoda je použitelná pro jazyky s bohatou morfologií, jako je slovenský, ruský nebo chorvatský jazyk.

Aplikován na Slovák, protože je flektivním jazykem, automatická akvizice se zaměřuje na flektivní morfologii i na derivační morfologii. Tato skutečnost umožňuje uživatelům v lexikonu zjistit informace o derivačních vztazích (např. Adjektivizace, předpony). Například slovenské slovo korpusový je adjektivizace korpus (angl. corpus).

Třístupňová smyčka

V souladu s Benoîtem Sagotem,[1] získávání lemmat probíhá ve třech fázích:

  • 1. Generování a skloňování
  • 2. Hodnocení
  • 3. Ruční validace

Čím více iterací bude provedeno, tím přesnější lexikon bude získán. Pro každou iteraci jsou nezbytné informace poskytnuté ručním ověřovatelem.

Generování a skloňování

Nejprve jsou z daného korpusu ručně vyloučena všechna slova, která představují uzavřené slovní třídy (zájmena, předložky, číslovky). Je uveden počet jejich výskytů v korpusu. Poté dojde k automatické generaci, kdy jsou vytvořena hypotetická lemata podle morfologického popisu jazyka. Generovaná lemata se následně ohýbají, takže se vytvářejí všechny jejich ohýbané formy. Získané formy jsou spojeny s příslušným lemmatem a morfologickou značkou.

Hodnocení

Byl vytvořen pravděpodobnostní model, představovaný algoritmem fixního bodu, k seřazení hypotetických lemmat generovaných v prvním kroku. Očekává se, že nejlépe hodnocená lemata budou v ideálním případě všechna správná, zatímco nejméně hodnocená bývají nesprávná.

Ruční ověření

Správnost nejlépe hodnocených lemmat vytvořených v předchozím kroku kontroluje manuální validátor, který by měl být rodilým mluvčím. Lemata jsou v této fázi rozdělena do tří kategorií: - platná lemata připojená k lexikonům - chybná lemata generovaná platnými formuláři (později přidružené k jiným lemmatům) - chybná lemata generovaná neplatnými formuláři (je třeba je vyloučit)

Budoucí vývoj

Automatické získávání se ve srovnání s čistě manuálním vývojem lexikonů jeví jako slibné vzhledem k budoucímu vývoji, a to z důvodu krátké doby potřebné k ověření a relativně malého množství lidské práce.

Reference

  1. ^ A b Sagot, Benoît. Automatická akvizice slovenského lexikonu od Raw Corpus. [1]

externí odkazy

  • Publikace Benoîta Sagota [2]