Ručně anotovaný subkorpus - Manually Annotated Sub-Corpus - Wikipedia
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
MASC je vyvážená podmnožina 500 tis. slov psaných textů a přepsané řeči čerpané primárně z Open Americký národní korpus (OANC). OANC je 15měsíční (a rostoucí) korpus americké angličtiny vyprodukovaný od roku 1990, který je ve veřejné doméně nebo jinak bez omezení použití a přerozdělování.
Všechny MASC obsahují ručně ověřené anotace pro logickou strukturu (nadpisy, oddíly, odstavce atd.), Hranice vět, tři různé tokenizace s přidruženou částí značek řeči, mělká analýza (kusy podstatného jména a slovesa), pojmenované entity (osoba, umístění, organizace, datum a čas) a Penn Treebank syntax. Další ručně vytvořené nebo ověřené anotace byly vytvořeny projektem MASC pro části sub-korpusu, včetně fulltextových anotací pro FrameNet rámové prvky a korpus věty 100K + s WordNet 3.1 snímací značky, z nichž jedna desetina je také opatřena poznámkami FrameNet prvky rámu. K anotacím celého subkorpusu nebo jeho částí pro širokou škálu dalších jazykových jevů přispěly další projekty, včetně PropBank, TimeBank, Stanovisko MPQA a několik dalších. Vydání anotací a hranic klauzulí celého korpusu MASC je naplánováno na konec roku 2016.
V distribuci MASC jsou také zahrnuty anotace smyslů WordNet pro všechny výskyty 114 slov FrameNet anotace pro 50–100 výskytů každého ze 114 slov. Věty s WordNet a FrameNet poznámky jsou také distribuovány jako součást Korpus věty MASC.
Žánry
Na rozdíl od většiny volně dostupných korpusů včetně široké škály jazykových anotací obsahuje MASC vyvážený výběr textů z široké škály žánrů:
Žánr | Žádné soubory | Žádná slova | Pct korpus |
---|---|---|---|
Soudní přepis | 2 | 30052 | 6% |
Přepis debaty | 2 | 32325 | 6% |
E-mailem | 78 | 27642 | 6% |
Esej | 7 | 25590 | 5% |
Beletrie | 5 | 31518 | 6% |
Nemám dokumenty | 5 | 24578 | 5% |
Časopis | 10 | 25635 | 5% |
Písmena | 40 | 23325 | 5% |
Noviny | 41 | 23545 | 5% |
Literatura faktu | 4 | 25182 | 5% |
Mluvený | 11 | 25783 | 5% |
Technický | 8 | 27895 | 6% |
Cestovní průvodci | 7 | 26708 | 5% |
Cvrlikání | 2 | 24180 | 5% |
Blog | 21 | 28199 | 6% |
Ficlety | 5 | 26299 | 5% |
Filmový scénář | 2 | 28240 | 6% |
Spam | 110 | 23490 | 5% |
Vtipy | 16 | 26582 | 5% |
CELKOVÝ | 376 | 506768 |
Anotace
V současné době MASC obsahuje sedmnáct různých typů jazykových poznámek (* = v produkci; ** aktuálně k dispozici pouze v původním formátu):
Typ poznámky | Žádná slova |
---|---|
Logický | 506768 |
Žeton | 506768 |
Věta | 506768 |
POS / lemma (BRÁNA) | 506768 |
POS (Penn Treebank) | 506768 |
POS (FrameNet) | 506768 |
Podstatné kusy | 506768 |
Slovesné kousky | 506768 |
Pojmenované subjekty (osoba, organizace, místo, datum) | 506768 |
Syntaxe Penn Treebank | 506768 |
Koreference | *506768 |
Hranice klauzule, rozlišení jádra / satelitu, diskurzní značky | *506768 |
FrameNet rámy / prvky rámu | 39160 |
PropBank | **88530 |
Názor | 51243 |
TimeBank | *55599 |
Zavázaná víra | 4614 |
událost | 4614 |
Závislostní strom | **5434 |
Lexikální substituce | **35,547 |
Všechny anotace MASC, ať už vlastními nebo vytvořenými, jsou přenášeny do formátu Graph Annotation Format (GrAF) definovaného v rámci Linguistic Annotation Framework (LAF) ISO TC37 SC4. Online nástroj ANC2Go může převádět anotace na celé MASC nebo jeho části do některého z několika dalších formátů, včetně formátu CONLL IOB a formátů pro použití v UIMA a Obecná architektura pro textové inženýrství.
Rozdělení
MASC je zdroj otevřených dat, který může kdokoli použít k jakémukoli účelu. Zároveň se jedná o společný komunitní zdroj, který je udržován příspěvky komunity z anotací a odvozených dat. Je volně ke stažení z Stránka ke stažení MASC nebo prostřednictvím Konsorcium jazykových dat.
MASC je také distribuován ve formě značené částí řeči s Sada nástrojů pro přirozený jazyk.
Viz také
Reference
- Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). Manuálně anotovaný subkorpus: Komunitní zdroj pro lidi a lidmi. Sborník ze 48. výročního zasedání Asociace pro výpočetní lingvistiku ve Uppsale ve Švédsku.
- Passonneau, R., Baker, C., Fellbaum, C., Ide, N. (2012). Korpus věty pro smysl slova MASC. Proceedings of the Eighth Language Resources and Evaluation Conference, Istanbul.
- Ide, N., Suderman, K., Simms, B. (2010). ANC2Go: Webová aplikace pro tvorbu přizpůsobeného korpusu. Sborník příspěvků ze Sedmé jazykové konference a hodnotící konference (LREC 2010), Valletta, Malta.