Automatická extrakce obsahu - Automatic content extraction - Wikipedia
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
Automatická extrakce obsahu (ESO) je výzkumný program pro vývoj pokročilých extrakce informací technologie svolané NIST v letech 1999 až 2008 uspěl MUC a předchozí Konference o analýze textu.
Cíle a úsilí
Obecným cílem je program ACE motivován a řeší stejné problémy jako program MUC, který mu předcházel. Program ACE však definuje cíle výzkumu z hlediska cílových objektů (tj. Entit, vztahů a událostí) spíše než z hlediska slov v textu. Například takzvanou úlohou „pojmenovaná entita“, jak je definována v MUC, je identifikovat ta slova (na stránce), která jsou názvy entit. Na druhé straně v ACE je odpovídajícím úkolem identifikovat takto pojmenovanou entitu. Jedná se o jiný úkol, který je abstraktnější a který při tvorbě odpovědi zahrnuje explicitnější odvození. Ve skutečném smyslu je úkolem detekovat věci, které „tam nejsou“.
Zatímco program ACE je zaměřen na extrakci informací z Zvuk a obraz zdroje kromě čistého textu se výzkumné úsilí omezuje na extrakci informací z textu. Aktuální transdukce zvukových a obrazových dat do textu není součástí výzkumného úsilí ACE, ačkoli zpracování ASR a OCR výstup z těchto převodníků je.
Úsilí zahrnuje:
- podrobně definovat výzkumné úkoly,
- shromažďování a anotování údajů potřebných pro školení, vývoj a hodnocení,
- podpora výzkumu hodnotícími nástroji a výzkumné semináře.
Témata a cvičení
Vzhledem k tomu, text v přirozený jazyk, výzvou ACE je detekovat:
- subjekty zmíněné v textu, například: osoby, organizace, místa, zařízení, zbraně, vozidla a geopolitické subjekty.
- vztahy mezi entitami, jako například: osoba A je manažerem společnosti B. Mezi typy vztahů patří: role, část, lokalizace, blízko a sociální.
- Události zmíněné v textu, například: interakce, pohyb, přenos, tvorba a destrukce.
Tento program se týká Angličtina, arabština a čínština texty.
Korpus ACE je jedním ze standardních standardů pro testování extrakce nových informací algoritmy.
Reference
- George Doddington @ NIS T, Alexis Mitchell @ LD C, Mark Przybocki @ NIS T, Lance Ramshaw @ BB N, Stephanie Strassel @ LD C, Ralph Weischedel @ BB N. Program automatické extrakce obsahu (ACE) - úkoly, data a vyhodnocení. 2004