Ručně anotovaný subkorpus - Manually Annotated Sub-Corpus - Wikipedia

MASC je vyvážená podmnožina 500 tis. slov psaných textů a přepsané řeči čerpané primárně z Open Americký národní korpus (OANC). OANC je 15měsíční (a rostoucí) korpus americké angličtiny vyprodukovaný od roku 1990, který je ve veřejné doméně nebo jinak bez omezení použití a přerozdělování.

Všechny MASC obsahují ručně ověřené anotace pro logickou strukturu (nadpisy, oddíly, odstavce atd.), Hranice vět, tři různé tokenizace s přidruženou částí značek řeči, mělká analýza (kusy podstatného jména a slovesa), pojmenované entity (osoba, umístění, organizace, datum a čas) a Penn Treebank syntax. Další ručně vytvořené nebo ověřené anotace byly vytvořeny projektem MASC pro části sub-korpusu, včetně fulltextových anotací pro FrameNet rámové prvky a korpus věty 100K + s WordNet 3.1 snímací značky, z nichž jedna desetina je také opatřena poznámkami FrameNet prvky rámu. K anotacím celého subkorpusu nebo jeho částí pro širokou škálu dalších jazykových jevů přispěly další projekty, včetně PropBank, TimeBank, Stanovisko MPQA a několik dalších. Vydání anotací a hranic klauzulí celého korpusu MASC je naplánováno na konec roku 2016.

V distribuci MASC jsou také zahrnuty anotace smyslů WordNet pro všechny výskyty 114 slov FrameNet anotace pro 50–100 výskytů každého ze 114 slov. Věty s WordNet a FrameNet poznámky jsou také distribuovány jako součást Korpus věty MASC.

Žánry

Na rozdíl od většiny volně dostupných korpusů včetně široké škály jazykových anotací obsahuje MASC vyvážený výběr textů z široké škály žánrů:

ŽánrŽádné souboryŽádná slovaPct korpus
Soudní přepis2300526%
Přepis debaty2323256%
E-mailem78276426%
Esej7255905%
Beletrie5315186%
Nemám dokumenty5245785%
Časopis10256355%
Písmena40233255%
Noviny41235455%
Literatura faktu4251825%
Mluvený11257835%
Technický8278956%
Cestovní průvodci7267085%
Cvrlikání2241805%
Blog21281996%
Ficlety5262995%
Filmový scénář2282406%
Spam110234905%
Vtipy16265825%
CELKOVÝ376506768

Anotace

V současné době MASC obsahuje sedmnáct různých typů jazykových poznámek (* = v produkci; ** aktuálně k dispozici pouze v původním formátu):

Typ poznámkyŽádná slova
Logický506768
Žeton506768
Věta506768
POS / lemma (BRÁNA)506768
POS (Penn Treebank)506768
POS (FrameNet)506768
Podstatné kusy506768
Slovesné kousky506768
Pojmenované subjekty (osoba, organizace, místo, datum)506768
Syntaxe Penn Treebank506768
Koreference*506768
Hranice klauzule, rozlišení jádra / satelitu, diskurzní značky*506768
FrameNet rámy / prvky rámu39160
PropBank**88530
Názor51243
TimeBank*55599
Zavázaná víra4614
událost4614
Závislostní strom**5434
Lexikální substituce**35,547

Všechny anotace MASC, ať už vlastními nebo vytvořenými, jsou přenášeny do formátu Graph Annotation Format (GrAF) definovaného v rámci Linguistic Annotation Framework (LAF) ISO TC37 SC4. Online nástroj ANC2Go může převádět anotace na celé MASC nebo jeho části do některého z několika dalších formátů, včetně formátu CONLL IOB a formátů pro použití v UIMA a Obecná architektura pro textové inženýrství.

Rozdělení

MASC je zdroj otevřených dat, který může kdokoli použít k jakémukoli účelu. Zároveň se jedná o společný komunitní zdroj, který je udržován příspěvky komunity z anotací a odvozených dat. Je volně ke stažení z Stránka ke stažení MASC nebo prostřednictvím Konsorcium jazykových dat.

MASC je také distribuován ve formě značené částí řeči s Sada nástrojů pro přirozený jazyk.

Viz také

Reference

externí odkazy