Hnědý korpus - Brown Corpus
The Brown University Standard Corpus současné americké angličtiny (nebo prostě Hnědý korpus) je elektronická sbírka textových vzorků americké angličtiny, první hlavní strukturované korpus různých žánrů. Tento korpus nejprve nastavil laťku pro vědecké studium frekvence a distribuce kategorií slov v každodenním používání jazyka. Zkompilovaný Henry Kučera a W. Nelson Francis na Brown University, v Rhode Island, je to obecný jazykový korpus obsahující 500 vzorků angličtiny, celkem zhruba jeden milion slov, sestavený z děl vydaných ve Spojených státech v roce 1961.
Dějiny
V roce 1967 vydali Kučera a Francis své klasické dílo Výpočetní analýza současné americké angličtiny, která poskytla základní statistiky o tom, co je dnes známé jednoduše jako Hnědý korpus.[1]
Brown Corpus byl pečlivě sestavený výběr současné americké angličtiny, celkem asi milion slov čerpaných z nejrůznějších zdrojů. Kučera a Francis jej podrobili různým výpočetním analýzám, ze kterých sestavili bohatý a pestrý opus kombinující prvky lingvistiky, psychologie, statistiky a sociologie. To bylo velmi široce používán v výpočetní lingvistika, a byl po mnoho let jedním z nejcitovanějších zdrojů v oboru.[2]
Krátce po zveřejnění prvního lexikostatistické analýza, Boston vydavatel Houghton-Mifflin oslovil Kučeru, aby dodala milión slov, třířádkovou citační základnu pro její nový Slovník amerického dědictví. Tento průkopnický nový slovník, který se poprvé objevil v roce 1969, byl prvním slovníkem, který byl sestaven pomocí korpusové lingvistiky pro frekvenci slov a další informace.
Původní Brown Corpus měl pouze samotná slova, plus identifikátor polohy pro každé z nich. Během následujících několika let byly použity části řeči. Program označování Greene a Rubin (viz níže) součást značkování řeči ) v tom značně pomohl, ale vysoká chybovost znamenala, že byla nutná rozsáhlá manuální korektura.
Označený Brown Corpus použil výběr asi 80 částí řeči, stejně jako speciální indikátory pro složené tvary, kontrakce, cizí slova a několik dalších jevů, a vytvořil model pro mnoho pozdějších korpusů, jako je Korpus Lancaster-Oslo-Bergen (Britská angličtina od počátku 90. let) a Freiburg-Brownův korpus americké angličtiny (FROWN) (Americká angličtina od počátku 90. let).[3][4] Označení korpusu umožnilo mnohem sofistikovanější statistickou analýzu, jako je práce naprogramovaná Andrewem Mackiem a dokumentovaná v knihách o anglické gramatice.[5]
Jedním zajímavým výsledkem je, že i pro poměrně velké vzorky grafy slov v pořadí podle klesající frekvence výskytu ukazují a hyperbola: frekvence n-té nejčastější slovo je zhruba úměrné 1 /n. „„ “Tedy představuje téměř 7% hnědého korpusu,„ do “a„ z “více než další 3%; zatímco přibližně polovina celkového slovníku asi 50 000 slov je hapax legomena: slova, která se v korpusu vyskytují pouze jednou.[6] Tento jednoduchý vztah mezi řadou a frekvencí byl zaznamenán u mimořádné rozmanitosti jevů George Kingsley Zipf (například viz Psychobiologie jazyka) a je znám jako Zipfův zákon.
Ačkoli Brown Corpus propagoval pole korpusové lingvistiky, dnes již typické korpusy (jako např Korpus současné americké angličtiny, Britský národní korpus nebo Mezinárodní korpus angličtiny ) bývají mnohem větší, řádově 100 milionů slov.
Distribuce vzorků
Korpus se skládá z 500 vzorků rozdělených do 15 žánrů v hrubém poměru k množství publikovanému v roce 1961 v každém z těchto žánrů. Všechny vybrané práce byly publikovány v roce 1961; pokud bylo možné určit, že jsou za prvé publikovány poté a byly napsány rodilými mluvčími americké angličtiny.
Každý vzorek začínal náhodnou hranicí věty ve vybraném článku nebo jiné jednotce a pokračoval až k hranici první věty po 2 000 slovech. V několika málo případech vedly omyly k tomu, že vzorky byly necelých 2 000 slov.
Původní zadávání dat bylo provedeno pouze velkými písmeny úder kláves stroje; velká písmena byla označena předchozí hvězdičkou a různé speciální položky, například vzorce, měly také speciální kódy.
Korpus původně (1961) obsahoval 1014 312 slov vzorkovaných z 15 textových kategorií:
- A. TISK: Reportáž (44 textů)
- Politický
- Sportovní
- Společnost
- Aktuální zprávy
- Finanční
- Kulturní
- B. TISK: Redakční (27 textů)
- Institucionální denně
- Osobní
- Dopisy editorovi
- C. TISK: Recenze (17 textů)
- divadlo
- knihy
- hudba
- tanec
- D. NÁBOŽENSTVÍ (17 textů)
- Knihy
- Periodika
- Traktáty
- E. DOVEDNOST A ZÁLOHY (36 textů)
- Knihy
- Periodika
- F. POPULÁRNÍ VÍCE (48 textů)
- Knihy
- Periodika
- G. BELLES-LETTRES - Životopis, Monografie atd. (75 textů)
- Knihy
- Periodika
- H. RŮZNÉ: Vládní a domácí orgány USA (30 textů)
- Vládní dokumenty
- Zprávy nadace
- Zprávy z odvětví
- Katalog vysoké školy
- Industry House varhany
- J. UČENO (80 textů)
- Přírodní vědy
- Lék
- Matematika
- Společenské a behaviorální vědy
- Politologie, právo, vzdělání
- Humanitní vědy
- Technologie a inženýrství
- K. FIKCE: Obecné (29 textů)
- Romány
- Povídky
- L. FICTION: Mystery and Detective Fiction (24 textů)
- Romány
- Povídky
- M. FIKCE: Věda (6 textů)
- Romány
- Povídky
- N. FIKCE: Dobrodružné a západní (29 textů)
- Romány
- Povídky
- P. FICTION: Romantika a milostný příběh (29 textů)
- Romány
- Povídky
- R. HUMOR (9 textů)
- Romány
- Eseje atd.
Použité značky řeči
Štítek | Definice |
---|---|
. | věta (.;? *) |
( | levá paren |
) | pravý paren |
* | ne, ne |
-- | pomlčka |
, | čárka |
: | dvojtečka |
ABL | předkvalifikace (spíše, spíše) |
ABN | předkvantifikátor (poloviční, všechny) |
ABX | předkvantifikátor (oba) |
AP | post-determinátor (mnoho, několik, další) |
NA | článek (a, ne) |
BÝT | být |
POSTEL | byly |
BEDZ | byl |
ŽEBRAT | bytost |
BEM | dopoledne |
BEN | byl |
BER | jsou, umění |
BBB | je |
CC | koordinační spojka (a nebo) |
CD | základní číslice (jedna, dvě, 2 atd.) |
CS | podřadná spojka (je-li) |
DĚLAT | dělat |
DOD | dělal |
DOZ | dělá |
DT | singulární determinátor / kvantifikátor (to, to) |
DTI | singulární nebo množné číslo determinátor / kvantifikátor (některé, libovolné) |
DTS | množné číslo určující (tyto, ty) |
DTX | determinátor / dvojitá spojka (buď) |
EX | existenciální tam |
FW | cizí slovo (před běžnou značkou rozděleno) |
HL | slovo vyskytující se v nadpisu (za běžnou značkou rozděleno) |
HV | mít |
HVD | měl (minulý čas) |
HVG | mít |
HVN | měl (minulé příčestí) |
HVZ | má |
V | předložka |
JJ | přídavné jméno |
JJR | srovnávací přídavné jméno |
JJS | sémanticky superlativní adjektivum (hlavní, horní) |
JJT | morfologicky superlativní adjektivum (největší) |
MD | modální pomocný (může, měl, bude) |
NC | citované slovo (za běžnou značkou rozděleno) |
NN | jednotné nebo hromadné podstatné jméno |
NN $ | přivlastňovací singulární podstatné jméno |
NNS | Podstatné jméno v množném čísle |
NNS $ | přivlastňovací množné jméno |
NP | vlastní jméno nebo část fráze jména |
NP $ | přivlastňovací vlastní podstatné jméno |
NPS | množné vlastní podstatné jméno |
NPS $ | přivlastňovací množné číslo vlastní podstatné jméno |
NR | příslovkové podstatné jméno (domov, dnes, západ) |
NRS | množné příslovkové podstatné jméno |
OD | pořadové číslo (první, druhé) |
PN | jmenné zájmeno (všichni, nic) |
PN $ | přivlastňovací jmenné zájmeno |
PP $ | přivlastňovací osobní zájmeno (moje, naše) |
PP $$ | druhé (jmenné) přivlastňovací zájmeno (moje, naše) |
PPL | singulární zvratné / intenzivní osobní zájmeno (já) |
PPLS | množné zvratné / intenzivní osobní zájmeno (sami) |
PPO | objektivní osobní zájmeno (já, on, on, oni) |
PPS | 3. místo singulární jmenné zájmeno (on, ona, ono, jeden) |
PPSS | další jmenované osobní zájmeno (já, my, oni, vy) |
QL | kvalifikátor (velmi, spravedlivě) |
QLP | post-kvalifikace (opravdu dost) |
RB | příslovce |
RBR | srovnávací příslovce |
RBT | superlativní příslovce |
RN | nominální příslovce (zde tedy uvnitř) |
RP | příslovce / částice (asi, vypnuto, nahoru) |
TL | slovo vyskytující se v názvu (za běžnou značkou rozděleno) |
NA | infinitivní značka do |
UH | citoslovce, vykřičník |
VB | sloveso, základní forma |
VBD | sloveso, minulý čas |
VBG | sloveso, přítomné příčestí / gerund |
VBN | sloveso, minulé příčestí |
VBP | sloveso, třetí osoba, singulární, přítomný |
VBZ | sloveso, 3. místo. singulární dárek |
WDT | wh- determinátor (co, který) |
WP $ | přivlastňovací wh- zájmeno (jehož) |
WPO | objektivní wh- zájmeno (koho, které, to) |
WPS | jmenovaný wh- zájmeno (kdo, který, ten) |
WQL | wh- kvalifikátor (jak) |
WRB | wh- příslovce (jak, kde, kdy) |
Některé verze označeného hnědého korpusu obsahují kombinované značky. Například slovo „wanna“ je označeno VB + TO, protože se jedná o smluvní formu dvou slov, want / VB a to / TO. Mohou být také negovány některé značky, například „ne“ by bylo označeno „BER *“, kde * znamená negaci. Značky mohou mít navíc dělení slov: Značka -HL je rozdělena na běžné značky slov v nadpisech. Značka -TL je rozdělena na běžné značky slov v nadpisech. Dělení slov -NC znamená zdůrazněno slovo. Někdy má značka předponu FW, což znamená cizí slovo.[Citace je zapotřebí ]
Viz také
- LOB korpus, korpus britské angličtiny založený na stejných parametrech jako hnědý korpus
- Britský národní korpus
Reference
- ^ Francis, W. Nelson a Henry Kučera. 1967. Výpočetní analýza současné americké angličtiny. Providence, RI: Brown University Press.
- ^ Francis, W. Nelson a Henry Kučera. 1979. BROWN CORPUS MANUAL: Manuál informací doprovázející standardní korpus současné upravené angličtiny pro použití v digitálních počítačích. http://icame.uib.no/brown/bcm.html.
- ^ Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manuál informací doprovázející korpus americké angličtiny Freiburg-Brown (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
- ^ Leech, Geoffrey a Nicholas Smith. 2005. Rozšíření možností korpusového výzkumu angličtiny ve dvacátém století: prequel k LOB a FLOB. ICAME Journal 29. 83–98.
- ^ Winthrop Nelson Francis a Henry Kučera. 1983. Frekvenční analýza používání angličtiny: Lexicon and Grammar, Houghton Mifflin.
- ^ Kirsten Malmkjær, Lingvistická encyklopedie, 2. vydání, Routledge, 2002, ISBN 0-415-22210-9, str. 87.