Katzs back-off model - Katzs back-off model - Wikipedia
Katz ustoupil je generativní n-gram jazykový model který odhaduje podmíněná pravděpodobnost slova vzhledem k jeho historii v n-gram. Dosahuje tohoto odhadu couvání prostřednictvím postupně kratších modelů historie za určitých podmínek.[1] Tímto způsobem se k dosažení lepších výsledků používá model s nejspolehlivějšími informacemi o dané historii.
Model představil v roce 1987 Slava M. Katz. Před tím byly jazykové modely n-gram konstruovány trénováním jednotlivých modelů pro různé objednávky n-gram pomocí odhadu maximální pravděpodobnosti a jejich následnou interpolací.
Metoda
Rovnice pro Katzův back-off model je: [2]
kde
- C(X) = počet opakování X se objeví v tréninku
- wi = ito slovo v daném kontextu
V zásadě to znamená, že pokud n-gram bylo viděno více než k krát v tréninku je podmíněná pravděpodobnost slova vzhledem k jeho historii úměrná maximální pravděpodobnost odhad toho n-gram. Jinak se podmíněná pravděpodobnost rovná podmíněné pravděpodobnosti back-off (n - 1) gram.
Složitější částí je stanovení hodnot pro k, d aα.
je nejméně důležitý z parametrů. Obvykle je zvoleno 0. Empirické testování však může najít lepší hodnoty pro k.
je obvykle částka slevy zjištěná Dobrý – Turing odhad. Jinými slovy, pokud odhadne Good-Turing tak jako , pak
Vypočítat , je užitečné nejprve definovat veličinu β, což je zbylá pravděpodobnostní hmotnost pro (n - 1) -gram:
Poté se vypočítá zpětná hmotnost α takto:
Výše uvedený vzorec platí pouze v případě, že existují údaje pro „(n - 1) -gram ". Pokud ne, algoritmus přeskočí n-1 úplně a použije Katzův odhad pro n-2. (A tak dále, dokud nebude nalezen n-gram s daty)
Diskuse
Tento model v praxi obecně funguje dobře, ale za určitých okolností selže. Předpokládejme například, že bigram „a b“ a unigram „c“ jsou velmi běžné, ale trigram „a b c“ nikdy nevidíme. Protože „a b“ a „c“ jsou velmi běžná, může být významné (tj. Nikoli náhodou), že „a b c“ nikdy není vidět. Pravidla gramatiky to možná neumožňují. Místo přiřazení vhodnější hodnoty 0 se metoda vrátí zpět k bigramu a odhadu P(C | b), který může být příliš vysoký.[3]
Reference
- ^ "N-gramové modely" (PDF). Cornell.
- ^ Katz, S. M. (1987). Odhad pravděpodobností z řídkých dat pro komponentu jazykového modelu rozpoznávače řeči. Transakce IEEE na akustiku, řeč a zpracování signálu, 35 (3), 400–401.
- ^ Manning a Schütze, Základy statistického zpracování přirozeného jazyka, MIT Press (1999), ISBN 978-0-262-13360-9.