Kolokace - Collocation - Wikipedia
Část série na |
anglická gramatika |
---|
v korpusová lingvistika, a kolokace je řada slov nebo podmínky že se vyskytují společně častěji, než by se dalo očekávat náhodou. v frazeologie, kolokace je podtyp frazém. Příklad frazeologické kolokace, jak navrhuje Michael Halliday,[1] je výraz silný čaj. Stejný význam by mohl vyjádřit zhruba ekvivalent silný čaj, je tento výraz anglickými mluvčími považován za nadměrný a nepříjemný. Naopak odpovídající výraz v technologii, výkonný počítač, je upřednostňováno před silný počítač. Frazeologické kolokace by se neměly zaměňovat idiomy, kde význam idiomu je odvozen od jeho konvence jako záskok pro něco jiného, zatímco kolokace je pouhá populární skladba.
Existuje asi šest hlavních typů kolokací: adjektivum + podstatné jméno, podstatné jméno + podstatné jméno (např hromadná podstatná jména ), sloveso + podstatné jméno, příslovce + přídavné jméno, slovesa + předložková fráze (frázová slovesa ) a sloveso + příslovce.
Kolokační extrakce je výpočetní technika, která pomocí různých vyhledává kolokace v dokumentu nebo korpusu výpočetní lingvistika prvky připomínající dolování dat.
Rozšířená definice
Kolokace jsou částečně nebo plně fixní výrazy, které se vytvářejí opakovaným kontextově závislým použitím. Příklady pojmů „křišťálově čistý“, „střední management“, „nukleární rodina“ a „kosmetická chirurgie“ jsou příklady uspořádaných párů slov.
Sdružení mohou být v a syntaktický vztah (např sloveso – objekt: 'make' and 'decision'), lexikální vztah (např antonymy ), nebo nemohou být v žádném lingvisticky definovaném vztahu. Znalost kolokací je nezbytná pro kompetentní používání jazyka: a gramaticky správná věta bude vystupovat jako nepříjemná, pokud budou porušeny kolokační preference. Díky tomu je kolokace zajímavou oblastí pro výuku jazyků.
Korpusoví lingvisté specifikují a klíčové slovo v souvislosti s (KWIC ) a identifikujte slova, která je bezprostředně obklopují. To poskytuje představu o způsobu použití slov.
Zpracování kolokací zahrnuje řadu parametrů, z nichž nejdůležitější je míra sdružení, která hodnotí, zda společný výskyt je čistě náhodou nebo statisticky významný. Vzhledem k nenáhodné povaze jazyka je většina kolokací klasifikována jako významná a skóre asociace se jednoduše používá k hodnocení výsledků. Mezi běžně používaná opatření sdružení patří vzájemné informace, t skóre, a logaritmická pravděpodobnost.[2][3]
Spíše než vybrat jednu definici, Gledhill[4] navrhuje, aby kolokace zahrnovala alespoň tři různé pohledy: (i) společný výskyt, statistický pohled, který vidí kolokaci jako opakující se výskyt v textu uzlu a jeho kolokacích,[5][6][7] ii) konstrukce, která považuje kolokaci buď za korelaci mezi lexémem a lexikálně-gramatickým vzorem,[8] nebo jako vztah mezi základnou a jejími partnerskými partnery[9] a (iii) výraz, pragmatický pohled na kolokaci jako konvenční výrazovou jednotku, bez ohledu na formu.[10][11] Tyto různé perspektivy kontrastují s obvyklým způsobem prezentace kolokace ve frazeologických studiích. Tradičně řečeno, kolokace je vysvětlena z hlediska všech tří perspektiv najednou, v kontinuu:
- 'Free Combination' ↔ 'Bound Collocation' ↔ 'Frozen Idiom'
Ve slovnících
V roce 1933 Harold Palmer je Druhá průběžná zpráva o anglických kolokacích zdůraznil význam kolokace jako klíče k produkci přirozeně znějícího jazyka pro každého, kdo se učí a cizí jazyk.[12] Od 40. let 20. století se tedy informace o opakujících se slovních spojeních staly standardním rysem jednojazyčné slovníky studentů. Protože se tyto slovníky staly „méně zaměřenými na slovo a více zaměřenými na fráze“,[13] více pozornosti bylo věnováno kolokaci. Tento trend byl od počátku 21. století podporován dostupností velkého textu korpusy a inteligentní software pro korpusové dotazy, což umožňuje poskytnout systematičtější popis kolokace ve slovnících. Pomocí těchto nástrojů, slovníky, jako je Macmillan anglický slovník a Longman Dictionary of Contemporary English zahrnuty krabice nebo panely se seznamy častých kolokací.[14]
Existuje také řada specializované slovníky věnovaný popisu častých kolokací v jazyce.[15] Patří mezi ně (pro španělštinu) Redes: Diccionario combineatorio del español contemporaneo (2004), (pro francouzštinu) Le Robert: dictionnaire des combinaisons de mots (2007) a (pro angličtinu) Slovník LTP vybraných kolokací (1997) a Macmillan Collocations Dictionary (2010).[16]
Statisticky významná kolokace
Studentův t-test lze použít k určení, zda je výskyt kolokace v korpusu statisticky významný.[17] Pro bigram , nechť být bezpodmínečná pravděpodobnost výskytu v korpusu s velikostí a nechte být bezpodmínečná pravděpodobnost výskytu v korpusu. Pak t-skóre pro bigram se počítá jako:
kde je výběrový průměr výskytu , je počet výskytů , je pravděpodobnost podle nulové hypotézy, že a se v textu zobrazí samostatně a - je rozptyl vzorku. S velkým , t-test je ekvivalentní a z-test.
Viz také
Reference
- ^ Halliday, M.A.K., 'Lexis as a Linguistic Level', Journal of Linguistics 2 (1) 1966: 57–67
- ^ Dunning, Ted (1993): "Přesné metody pro statistiku překvapení a shody okolností ". Výpočetní lingvistika 19, 1 (březen 1993), 61–74.
- ^ Dunning, Ted (2008-03-21). „Překvapení a náhoda“. blogspot.com. Citováno 2012-04-09.
- ^ Gledhill C. (2000): Kolokace v psaní vědy, Narr, Tübingen
- ^ Firth J.R. (1957): Papíry z lingvistiky 1934–1951. Oxford: Oxford University Press.
- ^ Sinclair J. (1996): „Hledání významových jednotek“, Textus, IX, 75–106.
- ^ Smadja F. A & McKeown, K. R. (1990): "Automatická extrakce a reprezentace kolokací pro generování jazyků ", Proceedings of ACL'90, 252–259, Pittsburgh, Pensylvánie.
- ^ Hunston S. a Francis G. (2000): Vzorová gramatika - korpusový přístup k lexikální gramatice angličtiny, Amsterdam, John Benjamins
- ^ Hausmann F. J. (1989): Le dictionnaire de collocations. In Hausmann F.J., Reichmann O., Wiegand H.E., Zgusta L. (eds), Wörterbücher: ein internationales Handbuch zur Lexikographie. Slovníky. Slovníky. Berlín / New York: De Gruyter. 1010–1019.
- ^ Moon R. (1998): Fixed Expressions and Idioms, a Corpus-Based Approach. Oxford, Oxford University Press.
- ^ Frath P. a Gledhill C. (2005): „Klastry ve volném výběhu nebo zmrazené kusy? Odkaz jako definující kritérium pro jazykové jednotky „, in Recherches anglaises et Nord-américaines, sv. 38: 25–43
- ^ Cowie, A.P., Anglické slovníky pro zahraniční studenty, Oxford University Press 1999: 54–56
- ^ Bejoint, H., Lexikografie angličtiny, Oxford University Press 2010: 318
- ^ „MED Second Edition - Klíčové vlastnosti - Macmillan“. macmillandictionaries.com.
- ^ Herbst, T. a Klotz, M. 'Syntagmatické a frazeologické slovníky' v Cowie, A.P. (ed.) Oxfordské dějiny anglické lexikografie, 2009: část 2, 234–243
- ^ „Macmillan Collocation Dictionary - jak byl napsán - Macmillan“. macmillandictionaries.com.
- ^ Manning, Chris; Schütze, Hinrich (1999). Základy statistického zpracování přirozeného jazyka. Cambridge, MA: MIT Press. str.163 –166. ISBN 0262133601.
externí odkazy
- Ozdic Collocation Dictionary
- Malý systém pro ukládání španělských kolokací (Igor A. Bolshakov & Sabino Miranda-Jiménez)
- Morfologická charakterizace kolokací a sémantických vztahů ve španělštině (Sabino Miranda-Jiménez a Igor A. Bolshakov)
- Příklad kolokací pro slovo „Chirurgie“