Korpusová lingvistika - Corpus linguistics

Korpusová lingvistika je studium jazyka jak je vyjádřeno v korpusy (ukázky) textu „skutečného světa“. Korpusová lingvistika navrhuje, že spolehlivá jazyková analýza je proveditelnější u korpusů shromážděných v poli v jeho přirozeném kontextu („realia“) as minimálním experimentálním rušením.

Pole lingvistiky korpusu nabízí odlišné názory na hodnotu anotace korpusu. Rozsah těchto pohledů je od John McHardy Sinclair, který prosazuje minimální anotace, aby texty hovořily samy za sebe,^[1] do Průzkum používání angličtiny tým (University College v Londýně ), kteří obhajují anotaci jako prostředek umožňující lepší jazykové porozumění prostřednictvím pečlivého záznamu.^[2]

Metoda textového korpusu je trávicí přístup, který odvozuje soubor abstraktních pravidel, kterými se řídí a přirozený jazyk z textů v tomto jazyce a zkoumá, jak tento jazyk souvisí s jinými jazyky. Korpusy, které byly původně odvozeny ručně, jsou nyní automaticky odvozeny ze zdrojových textů.

Kromě lingvistického výzkumu byly ke kompilaci použity sestavené korpusy slovníky (začínání s The American Heritage Dictionary of the English Language v roce 1969) a gramatičtí průvodci, jako např Komplexní gramatika anglického jazyka, publikovaná v roce 1985.

Dějiny

Některé z prvních snah o gramatický popis byly založeny alespoň částečně na korpusech zvláštního náboženského nebo kulturního významu. Například, Prātiśākhya literatura popisovala zvukové vzorce Sanskrt jak je uvedeno v Védy, a Pāṇini gramatika jazyka klasický sanskrt byl založen alespoň částečně na analýze stejného korpusu. Podobně brzy Arabští gramatici věnovala zvláštní pozornost jazyku EU Korán. V západoevropské tradici se učenci připravovali konkordance umožnit podrobné studium jazyka Bible a dalších kanonických textů.

Anglické korpusy

Mezníkem v moderní lingvistice korpusu byla publikace Henry Kučera a W. Nelson Francis z Výpočetní analýza současné americké angličtiny v roce 1967 dílo založené na analýze Hnědý korpus, pečlivě sestavený výběr současné americké angličtiny, celkem asi milion slov čerpaných z nejrůznějších zdrojů. Kučera a Francis jej podrobili různým výpočetním analýzám, ze kterých sestavili bohatý a pestrý opus kombinující prvky lingvistiky, výuky jazyků, psychologie, statistiky a sociologie. Další klíčovou publikací byla Randolph Quirk „Směrem k popisu anglického použití“ (1960)^[3] ve kterém se představil Průzkum používání angličtiny.

Krátce nato vydavatel Boston Houghton-Mifflin oslovila Kučeru, aby dodala milion slovní třířádkovou citační základnu pro její novou Slovník amerického dědictví, první slovník sestaveno pomocí korpusové lingvistiky. AHD učinila inovativní krok kombinací normativních prvků (jak jazyk by měl použít) s popisnými informacemi (jak to vlastně je je použitý).

Následovali další vydavatelé. Britský vydavatel Collins ' COBUILD jednojazyčný slovník žáka, určené pro učení uživatelů Angličtina jako cizí jazyk, byl sestaven pomocí Bank of English. The Průzkum používání angličtiny Korpus byl použit při vývoji jedné z nejdůležitějších gramatik založených na korpusu, Komplexní gramatika angličtiny (Quirk et al. 1985).^[4]

The Hnědý korpus také vytvořil řadu podobně strukturovaných korpusů: LOB korpus (1960 Britská angličtina ), Kolhapur (Indická angličtina ), Wellington (Nový Zéland Angličtina ), Australský korpus angličtiny (Australská angličtina ), Frown Corpus (počátkem 90. let americká angličtina ) a FLOB Corpus (britská angličtina z 90. let). Ostatní korpusy představují mnoho jazyků, odrůd a režimů a zahrnují Mezinárodní korpus angličtiny a Britský národní korpus, 100 milionů slovní kolekce celé řady mluvených a psaných textů, vytvořená v 90. letech konsorciem vydavatelů, univerzit (Oxford a Lancaster ) a Britská knihovna. U současné americké angličtiny se práce zastavila na Americký národní korpus, ale více než 400 milionů slov Korpus současné americké angličtiny (1990 – současnost) je nyní k dispozici prostřednictvím webového rozhraní.

První počítačový korpus přepsaného mluveného jazyka byl postaven v roce 1971 francouzským projektem v Montrealu,^[5] obsahující jeden milion slov, která inspirovala Shana Poplack je mnohem větší korpus mluvené francouzštiny v oblasti Ottawa-Hull.^[6]

Vícejazyčné korpusy

V 90. letech došlo k významným raným úspěchům statistických metod v NLP v oblasti strojový překlad, zejména kvůli práci ve společnosti IBM Research. Tyto systémy byly schopny využít výhody existující vícejazyčnosti textové korpusy které byly vyrobeny Parlament Kanady a Evropská unie v důsledku zákonů požadujících překlad všech vládních řízení do všech úředních jazyků příslušných vládních systémů.

Korpusy starověkých jazyků

Kromě těchto korpusů živých jazyků byly také vytvořeny počítačové korpusy ze sbírek textů ve starověkých jazycích. Příkladem je Andersene -Forbes databáze hebrejské Bible, vyvinutá od 70. let, ve které je každá klauzule analyzována pomocí grafů představujících až sedm úrovní syntaxe a každý segment je označen sedmi informačními poli.^[7]^[8] The Koránský arabský korpus je anotovaný korpus pro klasický arabský jazyk Korán. Toto je nedávný projekt s více vrstvami anotací včetně morfologické segmentace, značení části řeči a syntaktická analýza pomocí gramatiky závislostí.^[9]

Korpusy ze specifických oborů

Kromě čistého lingvistického výzkumu začali vědci aplikovat korpusovou lingvistiku i na další akademické a profesní obory, jako je rozvíjející se subdisciplína právo a korpusová lingvistika, která se snaží porozumět právním textům pomocí korpusových dat a nástrojů.

Metody

Korpusová lingvistika vygenerovala řadu výzkumných metod, které se pokoušejí vystopovat cestu od dat k teorii. Wallis a Nelson (2001)^[10] nejprve představili to, čemu říkali perspektiva 3A: Anotace, Abstrakce a analýza.

Anotace spočívá v aplikaci schématu na texty. Anotace mohou zahrnovat strukturální označení, část mluvy značkování, analýza a mnoho dalších reprezentací.
Abstrakce Skládá se z překladu (mapování) termínů ve schématu na termíny v teoreticky motivovaném modelu nebo datové sadě. Abstrakce obvykle zahrnuje vyhledávání zaměřené na lingvisty, ale může zahrnovat např. Učení pravidel pro analyzátory.
Analýza Skládá se ze statistického zkoumání, manipulace a generalizace z datové sady. Analýza může zahrnovat statistické vyhodnocení, optimalizaci základny pravidel nebo metody zjišťování znalostí.

Většina lexikálních korpusů je dnes označena částí řeči (POS). I korpusoví lingvisté, kteří pracují s „anotovaným prostým textem“, však nevyhnutelně používají určitou metodu k izolování hlavních výrazů. V takových situacích jsou anotace a abstrakce kombinovány při lexikálním hledání.

Výhodou publikování anotovaného korpusu je, že ostatní uživatelé pak mohou na korpusu provádět experimenty (prostřednictvím korpusoví manažeři ). Lingvisté, kteří mají jiné zájmy a liší se perspektivou než původci, mohou tuto práci využít. Sdílením údajů mohou lingvisté korpusu zacházet s korpusem jako s místem lingvistické debaty a dalšího studia.^[11]

Viz také

Poznámky a odkazy

^ Sinclair, J. „Automatická analýza korpusů“, Svartvik, J. (ed.) Pokyny v korpusové lingvistice (Proceedings of Nobel Symposium 82). Berlín: Mouton de Gruyter. 1992.
^ Wallis, S. „Annotation, Retrieval and Experimentation“, Meurman-Solin, A. & Nurmi, A.A. (ed.) Anotace variace a změny. Helsinky: Varieng, [univerzita v Helsinkách]. 2007. e-Publikováno
^ Quirk, R. „Směrem k popisu anglického použití“, Transakce filologické společnosti. 1960. 40–61.
^ Quirk, R., Greenbaum, S., Leech, G. a Svartvik, J. Komplexní gramatika anglického jazyka London: Longman. 1985.
^ Sankoff, D. & Sankoff, G. Ukázkové metody průzkumu a počítačová analýza při studiu gramatických variací. V Darnell R. (ed.) Kanadské jazyky v jejich sociálním kontextu Edmonton: Linguistic Research Incorporated. 1973. 7–64.
^ Poplack, S. Péče o mega-korpus a manipulace s ním. In Fasold, R. & Schiffrin D. (eds.) Změna a variace jazyka, Amsterdam: Benjamins. 1989. 411–451.
^ Andersen, Francis I .; Forbes, A. Dean (2003), „Hebrew Grammar Visualized: I. Syntax“, Starověká studia Blízkého východu, 40, str. 43–61 [45]
^ Eyland, E. Ann (1987), „Zjevení od počtu slov“, Newing, Edward G .; Conrad, Edgar W. (eds.), Perspektivy jazyka a textu: Eseje a básně na počest šedesátých narozenin Františka I. Andersena, 28. července 1985, Winona Lake, IN: Eisenbrauns, str. 51, ISBN 0-931464-26-9
^ Dukes, K., Atwell, E. a Habash, N. 'Supervised Collaboration for Syntaktic Annotation of Quranic Arabic'. Jazykové zdroje a hodnotící deník. 2011.
^ Wallis, S. a Nelson G. Objevování znalostí v gramaticky analyzovaných korpusech. Těžba dat a vyhledávání znalostí, 5: 307–340. 2001.
^ Baker, Paul; Egbert, Jesse, eds. (2016). Triangulační metodologické přístupy v korpusově-lingvistickém výzkumu. New York: Routledge.

Další čtení

Knihy

Biber, D., Conrad, S., Reppen R. Korpusová lingvistika, zkoumání jazykové struktury a použití, Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
McCarthy, D. a Sampson G. Korpusová lingvistika: Čtení v rozšiřující se disciplíně, Continuum, 2005. ISBN 0-8264-8803-X
Facchinetti, R. Teoretický popis a praktické aplikace jazykových korpusů. Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3
Facchinetti, R. (ed.) Korpusová lingvistika po 25 letech. New York / Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
Facchinetti, R. a Rissanen M. (eds.) Korpusová studia diachronické angličtiny. Bern: Peter Lang, 2006 ISBN 3-03910-851-4
Věřitelé, W. Výpočetní lexikografie a lingvistika korpusu do ca. 1970/1980, in: Gouws, R. H., Heid, U., Schweickard, W., Wiegand, H. E. (eds.) Slovníky - mezinárodní encyklopedie lexikografie. Doplňkový svazek: Nedávný vývoj se zaměřením na elektronickou a výpočetní lexikografii. Berlin: De Gruyter Mouton, 2013 ISBN 978-3112146651
Fuß, Eric a kol. (Eds.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi: 10,17885 / heiup.361,509 (digitální otevřený přístup ).

Knižní série

Knižní série v této oblasti zahrnují:

Časopisy

Existuje několik mezinárodních recenzovaných časopisů věnovaných korpusové lingvistice, například:

externí odkazy

Záložky pro lingvisty založené na korpusu - velmi komplexní web s kategorizovanými a komentovanými odkazy na jazykové korpusy, software, odkazy atd.
Seznam diskuzí o korpusech
Volně dostupné webové korpusy (každý 100 milionů - 400 milionů slov): americké (COCA, COHA), britské (BNC), TIME, španělské, portugalské
Stránka s přehledem Manuela Barbery
Seznam referencí Przemek Kaszubski
AskOxford.com složení a použití Oxfordského korpusu
DMCBC.com
Vícejazyčné korpusy Datum Na základě čínského bezplatného stahování vzorků
Komunita Corpus4u čínské online fórum pro lingvistiku korpusu
McEnery and Wilson's Corpus Linguistics Page
Korpusová lingvistika s adresářem R.
Oddělení výzkumu a vývoje pro anglická studia
Průzkum používání angličtiny
Centrum korpusové lingvistiky na Birmingham University
Nástroje pro korpusovou lingvistiku (anotovaný seznam)
Brána do korpusové lingvistiky na internetu: anotovaný průvodce zdroji korpusu na webu
Biomedicínské korpusy
Konsorcium jazykových dat, hlavní distributor korpusů
Penn analyzoval korpusy historické angličtiny
Korsika: (dříve Tenka Text) an open-source (GPLed ) nástroj pro analýzu korpusu napsaný v C #
ICECUP a Fuzzy fragmenty stromů
Diskusní skupina dolování textu
Komunita diskusní komunity Google+ o lingvistice korpusu pro studium a výuku jazyků
Konference o korpusové lingvistice MAG 2017: Najdete některé informace a související události Metadiscourse Across Genres návštěvou webových stránek MAG 2017.
Korpus politických projevů, veřejně přístupný s projevy ze Spojených států, Hongkongu, Tchaj-wanu a Číny, které poskytl Hongkongská baptistická univerzitní knihovna
Synchronní korpus LIVAC

[1] Sinclair, J. „Automatická analýza korpusů“, Svartvik, J. (ed.) Pokyny v korpusové lingvistice (Proceedings of Nobel Symposium 82). Berlín: Mouton de Gruyter. 1992.

[2] Wallis, S. „Annotation, Retrieval and Experimentation“, Meurman-Solin, A. & Nurmi, A.A. (ed.) Anotace variace a změny. Helsinky: Varieng, [univerzita v Helsinkách]. 2007. e-Publikováno

[3] Quirk, R. „Směrem k popisu anglického použití“, Transakce filologické společnosti. 1960. 40–61.

[4] Quirk, R., Greenbaum, S., Leech, G. a Svartvik, J. Komplexní gramatika anglického jazyka London: Longman. 1985.

[5] Sankoff, D. & Sankoff, G. Ukázkové metody průzkumu a počítačová analýza při studiu gramatických variací. V Darnell R. (ed.) Kanadské jazyky v jejich sociálním kontextu Edmonton: Linguistic Research Incorporated. 1973. 7–64.

[6] Poplack, S. Péče o mega-korpus a manipulace s ním. In Fasold, R. & Schiffrin D. (eds.) Změna a variace jazyka, Amsterdam: Benjamins. 1989. 411–451.

[7] Andersen, Francis I .; Forbes, A. Dean (2003), „Hebrew Grammar Visualized: I. Syntax“, Starověká studia Blízkého východu, 40, str. 43–61 [45]

[8] Eyland, E. Ann (1987), „Zjevení od počtu slov“, Newing, Edward G .; Conrad, Edgar W. (eds.), Perspektivy jazyka a textu: Eseje a básně na počest šedesátých narozenin Františka I. Andersena, 28. července 1985, Winona Lake, IN: Eisenbrauns, str. 51, ISBN 0-931464-26-9

[9] Dukes, K., Atwell, E. a Habash, N. 'Supervised Collaboration for Syntaktic Annotation of Quranic Arabic'. Jazykové zdroje a hodnotící deník. 2011.

[10] Wallis, S. a Nelson G. Objevování znalostí v gramaticky analyzovaných korpusech. Těžba dat a vyhledávání znalostí, 5: 307–340. 2001.

[11] Baker, Paul; Egbert, Jesse, eds. (2016). Triangulační metodologické přístupy v korpusově-lingvistickém výzkumu. New York: Routledge.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]