Korpus Lancaster-Oslo-Bergen - Lancaster-Oslo-Bergen Corpus
The Lancaster-Oslo / Bergen Corpus (často zkráceno jako LOB korpus) je miliónová sbírka britských anglických textů, která byla sestavena v 70. letech ve spolupráci mezi University of Lancaster, University of Oslo a Norské výpočetní středisko pro humanitní obory, Bergen, poskytnout britský protějšek k Hnědý korpus zkompilovaný Henry Kučera a W. Nelson Francis pro americkou angličtinu v 60. letech.
Jeho složení bylo navrženo tak, aby co nejvíce odpovídalo původnímu hnědému korpusu, pokud jde o jeho velikost a žánry, s využitím dokumentů publikovaných ve Velké Británii britskými autory. Oba korpusy se skládají z 500 vzorků, z nichž každý obsahuje přibližně 2 000 slov v následujících žánrech:
Označení | Textová kategorie | Hnědý korpus | LOB korpus |
---|---|---|---|
A | Tisk: reportáž | 44 | 44 |
B | Tisk: redakční | 27 | 27 |
C | Tisk: recenze | 17 | 17 |
D | Náboženství | 17 | 17 |
E | Dovednosti, řemesla a koníčky | 36 | 38 |
F | Populární tradice | 48 | 44 |
G | Belles lettres, biografie, eseje | 75 | 77 |
H | Různé (dokumenty, zprávy atd.) | 30 | 30 |
J | Učené a vědecké spisy | 80 | 80 |
K. | Obecná beletrie | 29 | 29 |
L | Tajemství a detektivní fikce | 24 | 24 |
M | Sci-fi | 6 | 6 |
N | Dobrodružství a westernová beletrie | 29 | 29 |
P | Romantika a milostný příběh | 29 | 29 |
R | Humor | 9 | 9 |
Celkový | 500 | 500 |
Korpus také byl označeno, tj. část mluvy každému slovu byly přiřazeny kategorie.[Citace je zapotřebí ]