Korpusová lingvistika - Corpus linguistics
Korpusová lingvistika je studium jazyka jak je vyjádřeno v korpusy (ukázky) textu „skutečného světa“. Korpusová lingvistika navrhuje, že spolehlivá jazyková analýza je proveditelnější u korpusů shromážděných v poli v jeho přirozeném kontextu („realia“) as minimálním experimentálním rušením.
Pole lingvistiky korpusu nabízí odlišné názory na hodnotu anotace korpusu. Rozsah těchto pohledů je od John McHardy Sinclair, který prosazuje minimální anotace, aby texty hovořily samy za sebe,[1] do Průzkum používání angličtiny tým (University College v Londýně ), kteří obhajují anotaci jako prostředek umožňující lepší jazykové porozumění prostřednictvím pečlivého záznamu.[2]
Metoda textového korpusu je trávicí přístup, který odvozuje soubor abstraktních pravidel, kterými se řídí a přirozený jazyk z textů v tomto jazyce a zkoumá, jak tento jazyk souvisí s jinými jazyky. Korpusy, které byly původně odvozeny ručně, jsou nyní automaticky odvozeny ze zdrojových textů.
Kromě lingvistického výzkumu byly ke kompilaci použity sestavené korpusy slovníky (začínání s The American Heritage Dictionary of the English Language v roce 1969) a gramatičtí průvodci, jako např Komplexní gramatika anglického jazyka, publikovaná v roce 1985.
Dějiny
Část série na |
Lingvistika |
---|
![]() |
Některé z prvních snah o gramatický popis byly založeny alespoň částečně na korpusech zvláštního náboženského nebo kulturního významu. Například, Prātiśākhya literatura popisovala zvukové vzorce Sanskrt jak je uvedeno v Védy, a Pāṇini gramatika jazyka klasický sanskrt byl založen alespoň částečně na analýze stejného korpusu. Podobně brzy Arabští gramatici věnovala zvláštní pozornost jazyku EU Korán. V západoevropské tradici se učenci připravovali konkordance umožnit podrobné studium jazyka Bible a dalších kanonických textů.
Anglické korpusy
Mezníkem v moderní lingvistice korpusu byla publikace Henry Kučera a W. Nelson Francis z Výpočetní analýza současné americké angličtiny v roce 1967 dílo založené na analýze Hnědý korpus, pečlivě sestavený výběr současné americké angličtiny, celkem asi milion slov čerpaných z nejrůznějších zdrojů. Kučera a Francis jej podrobili různým výpočetním analýzám, ze kterých sestavili bohatý a pestrý opus kombinující prvky lingvistiky, výuky jazyků, psychologie, statistiky a sociologie. Další klíčovou publikací byla Randolph Quirk „Směrem k popisu anglického použití“ (1960)[3] ve kterém se představil Průzkum používání angličtiny.
Krátce nato vydavatel Boston Houghton-Mifflin oslovila Kučeru, aby dodala milion slovní třířádkovou citační základnu pro její novou Slovník amerického dědictví, první slovník sestaveno pomocí korpusové lingvistiky. AHD učinila inovativní krok kombinací normativních prvků (jak jazyk by měl použít) s popisnými informacemi (jak to vlastně je je použitý).
Následovali další vydavatelé. Britský vydavatel Collins ' COBUILD jednojazyčný slovník žáka, určené pro učení uživatelů Angličtina jako cizí jazyk, byl sestaven pomocí Bank of English. The Průzkum používání angličtiny Korpus byl použit při vývoji jedné z nejdůležitějších gramatik založených na korpusu, Komplexní gramatika angličtiny (Quirk et al. 1985).[4]
The Hnědý korpus také vytvořil řadu podobně strukturovaných korpusů: LOB korpus (1960 Britská angličtina ), Kolhapur (Indická angličtina ), Wellington (Nový Zéland Angličtina ), Australský korpus angličtiny (Australská angličtina ), Frown Corpus (počátkem 90. let americká angličtina ) a FLOB Corpus (britská angličtina z 90. let). Ostatní korpusy představují mnoho jazyků, odrůd a režimů a zahrnují Mezinárodní korpus angličtiny a Britský národní korpus, 100 milionů slovní kolekce celé řady mluvených a psaných textů, vytvořená v 90. letech konsorciem vydavatelů, univerzit (Oxford a Lancaster ) a Britská knihovna. U současné americké angličtiny se práce zastavila na Americký národní korpus, ale více než 400 milionů slov Korpus současné americké angličtiny (1990 – současnost) je nyní k dispozici prostřednictvím webového rozhraní.
První počítačový korpus přepsaného mluveného jazyka byl postaven v roce 1971 francouzským projektem v Montrealu,[5] obsahující jeden milion slov, která inspirovala Shana Poplack je mnohem větší korpus mluvené francouzštiny v oblasti Ottawa-Hull.[6]
Vícejazyčné korpusy
V 90. letech došlo k významným raným úspěchům statistických metod v NLP v oblasti strojový překlad, zejména kvůli práci ve společnosti IBM Research. Tyto systémy byly schopny využít výhody existující vícejazyčnosti textové korpusy které byly vyrobeny Parlament Kanady a Evropská unie v důsledku zákonů požadujících překlad všech vládních řízení do všech úředních jazyků příslušných vládních systémů.
Korpusy starověkých jazyků
Kromě těchto korpusů živých jazyků byly také vytvořeny počítačové korpusy ze sbírek textů ve starověkých jazycích. Příkladem je Andersene -Forbes databáze hebrejské Bible, vyvinutá od 70. let, ve které je každá klauzule analyzována pomocí grafů představujících až sedm úrovní syntaxe a každý segment je označen sedmi informačními poli.[7][8] The Koránský arabský korpus je anotovaný korpus pro klasický arabský jazyk Korán. Toto je nedávný projekt s více vrstvami anotací včetně morfologické segmentace, značení části řeči a syntaktická analýza pomocí gramatiky závislostí.[9]
Korpusy ze specifických oborů
Kromě čistého lingvistického výzkumu začali vědci aplikovat korpusovou lingvistiku i na další akademické a profesní obory, jako je rozvíjející se subdisciplína právo a korpusová lingvistika, která se snaží porozumět právním textům pomocí korpusových dat a nástrojů.
Metody
Korpusová lingvistika vygenerovala řadu výzkumných metod, které se pokoušejí vystopovat cestu od dat k teorii. Wallis a Nelson (2001)[10] nejprve představili to, čemu říkali perspektiva 3A: Anotace, Abstrakce a analýza.
- Anotace spočívá v aplikaci schématu na texty. Anotace mohou zahrnovat strukturální označení, část mluvy značkování, analýza a mnoho dalších reprezentací.
- Abstrakce Skládá se z překladu (mapování) termínů ve schématu na termíny v teoreticky motivovaném modelu nebo datové sadě. Abstrakce obvykle zahrnuje vyhledávání zaměřené na lingvisty, ale může zahrnovat např. Učení pravidel pro analyzátory.
- Analýza Skládá se ze statistického zkoumání, manipulace a generalizace z datové sady. Analýza může zahrnovat statistické vyhodnocení, optimalizaci základny pravidel nebo metody zjišťování znalostí.
Většina lexikálních korpusů je dnes označena částí řeči (POS). I korpusoví lingvisté, kteří pracují s „anotovaným prostým textem“, však nevyhnutelně používají určitou metodu k izolování hlavních výrazů. V takových situacích jsou anotace a abstrakce kombinovány při lexikálním hledání.
Výhodou publikování anotovaného korpusu je, že ostatní uživatelé pak mohou na korpusu provádět experimenty (prostřednictvím korpusoví manažeři ). Lingvisté, kteří mají jiné zájmy a liší se perspektivou než původci, mohou tuto práci využít. Sdílením údajů mohou lingvisté korpusu zacházet s korpusem jako s místem lingvistické debaty a dalšího studia.[11]
Viz také
- Linguistic Atlas of Early Middle English
- Kolokace
- Kolokační analýza
- Shoda (KWIC )
- Evropská asociace jazykových zdrojů
- Klíčové slovo (lingvistika)
- Konsorcium jazykových dat
- Seznam textových korpusů
- Strojový překlad
- Sada nástrojů pro přirozený jazyk
- Vzorová gramatika
- Vyhledávače: přistupují k „webovému korpusu“
- Sémantická prozódie
- Řečový korpus
- Textový korpus
- Překladová paměť
- Treebank
Poznámky a odkazy
- ^ Sinclair, J. „Automatická analýza korpusů“, Svartvik, J. (ed.) Pokyny v korpusové lingvistice (Proceedings of Nobel Symposium 82). Berlín: Mouton de Gruyter. 1992.
- ^ Wallis, S. „Annotation, Retrieval and Experimentation“, Meurman-Solin, A. & Nurmi, A.A. (ed.) Anotace variace a změny. Helsinky: Varieng, [univerzita v Helsinkách]. 2007. e-Publikováno
- ^ Quirk, R. „Směrem k popisu anglického použití“, Transakce filologické společnosti. 1960. 40–61.
- ^ Quirk, R., Greenbaum, S., Leech, G. a Svartvik, J. Komplexní gramatika anglického jazyka London: Longman. 1985.
- ^ Sankoff, D. & Sankoff, G. Ukázkové metody průzkumu a počítačová analýza při studiu gramatických variací. V Darnell R. (ed.) Kanadské jazyky v jejich sociálním kontextu Edmonton: Linguistic Research Incorporated. 1973. 7–64.
- ^ Poplack, S. Péče o mega-korpus a manipulace s ním. In Fasold, R. & Schiffrin D. (eds.) Změna a variace jazyka, Amsterdam: Benjamins. 1989. 411–451.
- ^ Andersen, Francis I .; Forbes, A. Dean (2003), „Hebrew Grammar Visualized: I. Syntax“, Starověká studia Blízkého východu, 40, str. 43–61 [45]
- ^ Eyland, E. Ann (1987), „Zjevení od počtu slov“, Newing, Edward G .; Conrad, Edgar W. (eds.), Perspektivy jazyka a textu: Eseje a básně na počest šedesátých narozenin Františka I. Andersena, 28. července 1985, Winona Lake, IN: Eisenbrauns, str. 51, ISBN 0-931464-26-9
- ^ Dukes, K., Atwell, E. a Habash, N. 'Supervised Collaboration for Syntaktic Annotation of Quranic Arabic'. Jazykové zdroje a hodnotící deník. 2011.
- ^ Wallis, S. a Nelson G. Objevování znalostí v gramaticky analyzovaných korpusech. Těžba dat a vyhledávání znalostí, 5: 307–340. 2001.
- ^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulační metodologické přístupy v korpusově-lingvistickém výzkumu. New York: Routledge.
Další čtení
Knihy
- Biber, D., Conrad, S., Reppen R. Korpusová lingvistika, zkoumání jazykové struktury a použití, Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
- McCarthy, D. a Sampson G. Korpusová lingvistika: Čtení v rozšiřující se disciplíně, Continuum, 2005. ISBN 0-8264-8803-X
- Facchinetti, R. Teoretický popis a praktické aplikace jazykových korpusů. Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3
- Facchinetti, R. (ed.) Korpusová lingvistika po 25 letech. New York / Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
- Facchinetti, R. a Rissanen M. (eds.) Korpusová studia diachronické angličtiny. Bern: Peter Lang, 2006 ISBN 3-03910-851-4
- Věřitelé, W. Výpočetní lexikografie a lingvistika korpusu do ca. 1970/1980, in: Gouws, R. H., Heid, U., Schweickard, W., Wiegand, H. E. (eds.) Slovníky - mezinárodní encyklopedie lexikografie. Doplňkový svazek: Nedávný vývoj se zaměřením na elektronickou a výpočetní lexikografii. Berlin: De Gruyter Mouton, 2013 ISBN 978-3112146651
- Fuß, Eric a kol. (Eds.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi: 10,17885 / heiup.361,509 (digitální otevřený přístup ).
Knižní série
Knižní série v této oblasti zahrnují:
- Jazyk a počítače (Brill)
- Studium korpusové lingvistiky (John Benjamins)
- Anglický korpusová lingvistika (Peter Lang)
- Korpus a diskurz (Bloomsbury)
Časopisy
Existuje několik mezinárodních recenzovaných časopisů věnovaných korpusové lingvistice, například:
- Korpusy
- Korpusová lingvistika a lingvistická teorie
- ICAME Journal
- International Journal of Corpus Linguistics
- Jazykové zdroje a hodnotící deník, podporováno Evropská asociace jazykových zdrojů
- Výzkum korpusové lingvistiky, podporováno Španělská asociace pro korpusovou lingvistiku (AELINCO)
externí odkazy
- Záložky pro lingvisty založené na korpusu - velmi komplexní web s kategorizovanými a komentovanými odkazy na jazykové korpusy, software, odkazy atd.
- Seznam diskuzí o korpusech
- Volně dostupné webové korpusy (každý 100 milionů - 400 milionů slov): americké (COCA, COHA), britské (BNC), TIME, španělské, portugalské
- Stránka s přehledem Manuela Barbery
- Seznam referencí Przemek Kaszubski
- AskOxford.com složení a použití Oxfordského korpusu
- DMCBC.com
- Vícejazyčné korpusy Datum Na základě čínského bezplatného stahování vzorků
- Komunita Corpus4u čínské online fórum pro lingvistiku korpusu
- McEnery and Wilson's Corpus Linguistics Page
- Korpusová lingvistika s adresářem R.
- Oddělení výzkumu a vývoje pro anglická studia
- Průzkum používání angličtiny
- Centrum korpusové lingvistiky na Birmingham University
- Nástroje pro korpusovou lingvistiku (anotovaný seznam)
- Brána do korpusové lingvistiky na internetu: anotovaný průvodce zdroji korpusu na webu
- Biomedicínské korpusy
- Konsorcium jazykových dat, hlavní distributor korpusů
- Penn analyzoval korpusy historické angličtiny
- Korsika: (dříve Tenka Text) an open-source (GPLed ) nástroj pro analýzu korpusu napsaný v C #
- ICECUP a Fuzzy fragmenty stromů
- Diskusní skupina dolování textu
- Komunita diskusní komunity Google+ o lingvistice korpusu pro studium a výuku jazyků
- Konference o korpusové lingvistice MAG 2017: Najdete některé informace a související události Metadiscourse Across Genres návštěvou webových stránek MAG 2017.
- Korpus politických projevů, veřejně přístupný s projevy ze Spojených států, Hongkongu, Tchaj-wanu a Číny, které poskytl Hongkongská baptistická univerzitní knihovna
- Synchronní korpus LIVAC