Hranice disambiguation věty - Sentence boundary disambiguation
Hranice disambiguation věty (SBD), také známý jako lámání vět, detekce hranice věty, a členění vět, je problém v zpracování přirozeného jazyka rozhodování kde věty začátek a konec. Nástroje pro zpracování přirozeného jazyka často vyžadují, aby byl jejich vstup rozdělen na věty; identifikace hranice věty však může být náročná kvůli potenciální nejednoznačnosti interpunkční znaménka. v psaná angličtina, a doba může znamenat konec věty nebo může označovat zkratka, a desetinná čárka, an elipsa, nebo e-mailovou adresu, mimo jiné možnosti. Asi 47% období v EU Wall Street Journal korpus označit zkratky.[1] Otazníky a vykřičníky může být podobně nejednoznačný kvůli použití v emotikony, počítačový kód, a slang.
Některé jazyky, včetně japonštiny a čínštiny, mají jednoznačné značky pro ukončení věty.
Strategie
Standardní 'vanilka „přístup k nalezení konce věty:[je zapotřebí objasnění ]
- (a) Je-li to tečka, končí věta.
- (b) Pokud je předchozí token v ručně kompilován seznam zkratek, pak to nekončí větu.
- (c) Pokud je další žeton kapitalizován, končí věta.
Tato strategie opraví přibližně 95% vět.[2] Věci jako zkrácená jména, např. "D. H. Lawrence "(s mezery mezi jednotlivými slovy, která tvoří celé jméno), idiosynkratická pravopisná hláskování používaná pro stylistické účely (často odkazující na jeden koncept, např. název zábavního produktu jako „.hack // PODPIS ") a použití nestandardní interpunkce (nebo nestandardní použití z interpunkce) v textu často spadají pod zbývajících 5%.
Dalším přístupem je automatické učení sady pravidel ze sady dokumentů, kde jsou předznačené konce vět. Řešení byla založena na a model maximální entropie.[3] The SATZ architektura používá neuronovou síť k disambiguaci hranic vět a dosahuje přesnosti 98,5%.
Software
- Příklady použití kompatibilních s Perlem regulární výrazy ("PCRE ")
((?<=[a-z0-9] [.?!])|(?<=[a-z0-9] [.?!]")) (s |) (? ="?[A-Z])
$ věty = preg_split(„/(?, $ text, -1, PREG_SPLIT_DELIM_CAPTURE);
(pro PHP )
- Online použití, knihovny a API
- sent_detector - Java
- Lingua-EN-věta - perl
- Věta - perl
- SATZ - Adaptivní segmentační systém věty - David D. Palmer - C
- Sady nástrojů, které zahrnují detekci vět
Viz také
- Rozteč vět
- Rozdělovač slov
- Oslabení
- Interpunkce
- Segmentace textu
- Segmentace řeči
- Extrakce věty
- Překladová paměť
- Víceslovný výraz
Reference
- ^ E. STAMATATOS; N. FAKOTAKIS & G. KOKKINAKIS. „1 AUTOMATICKÁ VÝLUHA PRAVIDEL PRO VĚCI Hraniční disambigace“. University of Patras. Citováno 2009-01-03.
- ^ O'Neil, Johne. „Věci se slovy, část druhá: Detekce hranice věty“. Citováno 2009-01-03.
- ^ Reynar, JC; Ratnaparkhi, A. „Přístup maximální entropie k určení hranic věty“ (PDF). Citováno 2009-01-03.