Hnědý korpus - Brown Corpus

The Brown University Standard Corpus současné americké angličtiny (nebo prostě Hnědý korpus) je elektronická sbírka textových vzorků americké angličtiny, první hlavní strukturované korpus různých žánrů. Tento korpus nejprve nastavil laťku pro vědecké studium frekvence a distribuce kategorií slov v každodenním používání jazyka. Zkompilovaný Henry Kučera a W. Nelson Francis na Brown University, v Rhode Island, je to obecný jazykový korpus obsahující 500 vzorků angličtiny, celkem zhruba jeden milion slov, sestavený z děl vydaných ve Spojených státech v roce 1961.

Dějiny

V roce 1967 vydali Kučera a Francis své klasické dílo Výpočetní analýza současné americké angličtiny, která poskytla základní statistiky o tom, co je dnes známé jednoduše jako Hnědý korpus.^[1]

Brown Corpus byl pečlivě sestavený výběr současné americké angličtiny, celkem asi milion slov čerpaných z nejrůznějších zdrojů. Kučera a Francis jej podrobili různým výpočetním analýzám, ze kterých sestavili bohatý a pestrý opus kombinující prvky lingvistiky, psychologie, statistiky a sociologie. To bylo velmi široce používán v výpočetní lingvistika, a byl po mnoho let jedním z nejcitovanějších zdrojů v oboru.^[2]

Krátce po zveřejnění prvního lexikostatistické analýza, Boston vydavatel Houghton-Mifflin oslovil Kučeru, aby dodala milión slov, třířádkovou citační základnu pro její nový Slovník amerického dědictví. Tento průkopnický nový slovník, který se poprvé objevil v roce 1969, byl prvním slovníkem, který byl sestaven pomocí korpusové lingvistiky pro frekvenci slov a další informace.

Původní Brown Corpus měl pouze samotná slova, plus identifikátor polohy pro každé z nich. Během následujících několika let byly použity části řeči. Program označování Greene a Rubin (viz níže) součást značkování řeči ) v tom značně pomohl, ale vysoká chybovost znamenala, že byla nutná rozsáhlá manuální korektura.

Označený Brown Corpus použil výběr asi 80 částí řeči, stejně jako speciální indikátory pro složené tvary, kontrakce, cizí slova a několik dalších jevů, a vytvořil model pro mnoho pozdějších korpusů, jako je Korpus Lancaster-Oslo-Bergen (Britská angličtina od počátku 90. let) a Freiburg-Brownův korpus americké angličtiny (FROWN) (Americká angličtina od počátku 90. let).^[3]^[4] Označení korpusu umožnilo mnohem sofistikovanější statistickou analýzu, jako je práce naprogramovaná Andrewem Mackiem a dokumentovaná v knihách o anglické gramatice.^[5]

Jedním zajímavým výsledkem je, že i pro poměrně velké vzorky grafy slov v pořadí podle klesající frekvence výskytu ukazují a hyperbola: frekvence n-té nejčastější slovo je zhruba úměrné 1 /n. „„ “Tedy představuje téměř 7% hnědého korpusu,„ do “a„ z “více než další 3%; zatímco přibližně polovina celkového slovníku asi 50 000 slov je hapax legomena: slova, která se v korpusu vyskytují pouze jednou.^[6] Tento jednoduchý vztah mezi řadou a frekvencí byl zaznamenán u mimořádné rozmanitosti jevů George Kingsley Zipf (například viz Psychobiologie jazyka) a je znám jako Zipfův zákon.

Ačkoli Brown Corpus propagoval pole korpusové lingvistiky, dnes již typické korpusy (jako např Korpus současné americké angličtiny, Britský národní korpus nebo Mezinárodní korpus angličtiny ) bývají mnohem větší, řádově 100 milionů slov.

Distribuce vzorků

Korpus se skládá z 500 vzorků rozdělených do 15 žánrů v hrubém poměru k množství publikovanému v roce 1961 v každém z těchto žánrů. Všechny vybrané práce byly publikovány v roce 1961; pokud bylo možné určit, že jsou za prvé publikovány poté a byly napsány rodilými mluvčími americké angličtiny.

Každý vzorek začínal náhodnou hranicí věty ve vybraném článku nebo jiné jednotce a pokračoval až k hranici první věty po 2 000 slovech. V několika málo případech vedly omyly k tomu, že vzorky byly necelých 2 000 slov.

Původní zadávání dat bylo provedeno pouze velkými písmeny úder kláves stroje; velká písmena byla označena předchozí hvězdičkou a různé speciální položky, například vzorce, měly také speciální kódy.

Korpus původně (1961) obsahoval 1014 312 slov vzorkovaných z 15 textových kategorií:

A. TISK: Reportáž (44 textů)
- Politický
- Sportovní
- Společnost
- Aktuální zprávy
- Finanční
- Kulturní
B. TISK: Redakční (27 textů)
- Institucionální denně
- Osobní
- Dopisy editorovi
C. TISK: Recenze (17 textů)
- divadlo
- knihy
- hudba
- tanec
D. NÁBOŽENSTVÍ (17 textů)
- Knihy
- Periodika
- Traktáty
E. DOVEDNOST A ZÁLOHY (36 textů)
- Knihy
- Periodika
F. POPULÁRNÍ VÍCE (48 textů)
- Knihy
- Periodika
G. BELLES-LETTRES - Životopis, Monografie atd. (75 textů)
- Knihy
- Periodika
H. RŮZNÉ: Vládní a domácí orgány USA (30 textů)
- Vládní dokumenty
- Zprávy nadace
- Zprávy z odvětví
- Katalog vysoké školy
- Industry House varhany
J. UČENO (80 textů)
- Přírodní vědy
- Lék
- Matematika
- Společenské a behaviorální vědy
- Politologie, právo, vzdělání
- Humanitní vědy
- Technologie a inženýrství
K. FIKCE: Obecné (29 textů)
- Romány
- Povídky
L. FICTION: Mystery and Detective Fiction (24 textů)
- Romány
- Povídky
M. FIKCE: Věda (6 textů)
- Romány
- Povídky
N. FIKCE: Dobrodružné a západní (29 textů)
- Romány
- Povídky
P. FICTION: Romantika a milostný příběh (29 textů)
- Romány
- Povídky
R. HUMOR (9 textů)
- Romány
- Eseje atd.

Použité značky řeči

Štítek	Definice
.	věta (.;? *)
(	levá paren
)	pravý paren
*	ne, ne
--	pomlčka
,	čárka
:	dvojtečka
ABL	předkvalifikace (spíše, spíše)
ABN	předkvantifikátor (poloviční, všechny)
ABX	předkvantifikátor (oba)
AP	post-determinátor (mnoho, několik, další)
NA	článek (a, ne)
BÝT	být
POSTEL	byly
BEDZ	byl
ŽEBRAT	bytost
BEM	dopoledne
BEN	byl
BER	jsou, umění
BBB	je
CC	koordinační spojka (a nebo)
CD	základní číslice (jedna, dvě, 2 atd.)
CS	podřadná spojka (je-li)
DĚLAT	dělat
DOD	dělal
DOZ	dělá
DT	singulární determinátor / kvantifikátor (to, to)
DTI	singulární nebo množné číslo determinátor / kvantifikátor (některé, libovolné)
DTS	množné číslo určující (tyto, ty)
DTX	determinátor / dvojitá spojka (buď)
EX	existenciální tam
FW	cizí slovo (před běžnou značkou rozděleno)
HL	slovo vyskytující se v nadpisu (za běžnou značkou rozděleno)
HV	mít
HVD	měl (minulý čas)
HVG	mít
HVN	měl (minulé příčestí)
HVZ	má
V	předložka
JJ	přídavné jméno
JJR	srovnávací přídavné jméno
JJS	sémanticky superlativní adjektivum (hlavní, horní)
JJT	morfologicky superlativní adjektivum (největší)
MD	modální pomocný (může, měl, bude)
NC	citované slovo (za běžnou značkou rozděleno)
NN	jednotné nebo hromadné podstatné jméno
NN $	přivlastňovací singulární podstatné jméno
NNS	Podstatné jméno v množném čísle
NNS $	přivlastňovací množné jméno
NP	vlastní jméno nebo část fráze jména
NP $	přivlastňovací vlastní podstatné jméno
NPS	množné vlastní podstatné jméno
NPS $	přivlastňovací množné číslo vlastní podstatné jméno
NR	příslovkové podstatné jméno (domov, dnes, západ)
NRS	množné příslovkové podstatné jméno
OD	pořadové číslo (první, druhé)
PN	jmenné zájmeno (všichni, nic)
PN $	přivlastňovací jmenné zájmeno
PP $	přivlastňovací osobní zájmeno (moje, naše)
PP $$	druhé (jmenné) přivlastňovací zájmeno (moje, naše)
PPL	singulární zvratné / intenzivní osobní zájmeno (já)
PPLS	množné zvratné / intenzivní osobní zájmeno (sami)
PPO	objektivní osobní zájmeno (já, on, on, oni)
PPS	3. místo singulární jmenné zájmeno (on, ona, ono, jeden)
PPSS	další jmenované osobní zájmeno (já, my, oni, vy)
QL	kvalifikátor (velmi, spravedlivě)
QLP	post-kvalifikace (opravdu dost)
RB	příslovce
RBR	srovnávací příslovce
RBT	superlativní příslovce
RN	nominální příslovce (zde tedy uvnitř)
RP	příslovce / částice (asi, vypnuto, nahoru)
TL	slovo vyskytující se v názvu (za běžnou značkou rozděleno)
NA	infinitivní značka do
UH	citoslovce, vykřičník
VB	sloveso, základní forma
VBD	sloveso, minulý čas
VBG	sloveso, přítomné příčestí / gerund
VBN	sloveso, minulé příčestí
VBP	sloveso, třetí osoba, singulární, přítomný
VBZ	sloveso, 3. místo. singulární dárek
WDT	wh- determinátor (co, který)
WP $	přivlastňovací wh- zájmeno (jehož)
WPO	objektivní wh- zájmeno (koho, které, to)
WPS	jmenovaný wh- zájmeno (kdo, který, ten)
WQL	wh- kvalifikátor (jak)
WRB	wh- příslovce (jak, kde, kdy)

Některé verze označeného hnědého korpusu obsahují kombinované značky. Například slovo „wanna“ je označeno VB + TO, protože se jedná o smluvní formu dvou slov, want / VB a to / TO. Mohou být také negovány některé značky, například „ne“ by bylo označeno „BER *“, kde * znamená negaci. Značky mohou mít navíc dělení slov: Značka -HL je rozdělena na běžné značky slov v nadpisech. Značka -TL je rozdělena na běžné značky slov v nadpisech. Dělení slov -NC znamená zdůrazněno slovo. Někdy má značka předponu FW, což znamená cizí slovo.^{[Citace je zapotřebí ]}

Viz také

LOB korpus, korpus britské angličtiny založený na stejných parametrech jako hnědý korpus
Britský národní korpus

Reference

^ Francis, W. Nelson a Henry Kučera. 1967. Výpočetní analýza současné americké angličtiny. Providence, RI: Brown University Press.
^ Francis, W. Nelson a Henry Kučera. 1979. BROWN CORPUS MANUAL: Manuál informací doprovázející standardní korpus současné upravené angličtiny pro použití v digitálních počítačích. http://icame.uib.no/brown/bcm.html.
^ Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manuál informací doprovázející korpus americké angličtiny Freiburg-Brown (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
^ Leech, Geoffrey a Nicholas Smith. 2005. Rozšíření možností korpusového výzkumu angličtiny ve dvacátém století: prequel k LOB a FLOB. ICAME Journal 29. 83–98.
^ Winthrop Nelson Francis a Henry Kučera. 1983. Frekvenční analýza používání angličtiny: Lexicon and Grammar, Houghton Mifflin.
^ Kirsten Malmkjær, Lingvistická encyklopedie, 2. vydání, Routledge, 2002, ISBN 0-415-22210-9, str. 87.

externí odkazy

[1] Francis, W. Nelson a Henry Kučera. 1967. Výpočetní analýza současné americké angličtiny. Providence, RI: Brown University Press.

[2] Francis, W. Nelson a Henry Kučera. 1979. BROWN CORPUS MANUAL: Manuál informací doprovázející standardní korpus současné upravené angličtiny pro použití v digitálních počítačích. http://icame.uib.no/brown/bcm.html.

[3] Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manuál informací doprovázející korpus americké angličtiny Freiburg-Brown (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM

[4] Leech, Geoffrey a Nicholas Smith. 2005. Rozšíření možností korpusového výzkumu angličtiny ve dvacátém století: prequel k LOB a FLOB. ICAME Journal 29. 83–98.

[5] Winthrop Nelson Francis a Henry Kučera. 1983. Frekvenční analýza používání angličtiny: Lexicon and Grammar, Houghton Mifflin.

[6] Kirsten Malmkjær, Lingvistická encyklopedie, 2. vydání, Routledge, 2002, ISBN 0-415-22210-9, str. 87.

[1]

[2]

[3]

[4]

[5]

[6]

Korpusová lingvistika
Textové korpusy, anglicky	Americký národní korpus Bank of English Bergen Corpus of London Teenage Language Britský národní korpus Hnědý korpus Buckeye Corpus Cambridge English Corpus Korpus současné americké angličtiny Enron Corpus EnTenTen Mezinárodní korpus angličtiny Korpus Lancaster-Oslo-Bergen Oxford English Corpus PropBank Mluvený anglický korpus TIMIT VerbNet Wellingtonský korpus z mluvené novozélandské angličtiny
Textové korpusy, jiné než anglické	Bijankhan Corpus DĚTI CorCenCC Národní korpus současné velštiny Korpus v chorvatském jazyce Chorvatský národní korpus Český národní korpus Europarl Corpus Německý referenční korpus Hamshahri Corpus Polský národní korpus Projekt neoasyrského textového korpusu Koránský arabský korpus Ruský národní korpus Skotský korpus textů a řeči Slovinský národní korpus TalkBank Tatoeba Teheránský jednojazyčný korpus Tekstaro de Esperanto TenTen Corpus Family Tezaurus Linguae Graecae
Organizace	Konsorcium BNC COBUILD Skica Engine