Identifikace v nativním jazyce - Native-language identification - Wikipedia

Identifikace v nativním jazyce (NLI) je úkolem určit autora rodný jazyk (L1) pouze na základě jejich spisů v a druhý jazyk (L2).[1] NLI funguje prostřednictvím identifikace vzorců používání jazyka, které jsou společné pro konkrétní skupiny L1, a poté pomocí těchto znalostí předpovídá rodný jazyk dříve neviditelných textů. To je částečně motivováno aplikacemi v získávání druhého jazyka, výuka jazyků a forenzní lingvistika, mimo jiné.

Přehled

NLI pracuje za předpokladu, že autorova L1 je zbaví konkrétních vzorů jazykové produkce v jejich L2, ovlivněných jejich mateřským jazykem. To se týká cross-lingvistického vlivu (CLI), klíčového tématu v oblasti získávání druhého jazyka (SLA), které analyzuje přenosové efekty z L1 na později naučené jazyky.

Pomocí rozsáhlých dat z angličtiny dosahují metody NLI přes 80% přesnosti v predikci rodného jazyka textů napsaných autory z 11 různých prostředí L1. To lze přirovnat k základní hodnotě 9% pro náhodný výběr.

Aplikace

Pedagogika a přenos jazyků

Tato identifikace vlastností specifických pro L1 byla použita ke studiu jazykový přenos efekty při získávání druhého jazyka.[2] To je užitečné pro vývoj pedagogického materiálu, výukových metod, pokynů specifických pro L1 a vytváření zpětné vazby od studentů, která je šitá na míru jejich mateřskému jazyku.

Forenzní lingvistika

Metody NLI lze také použít v forenzní lingvistika jako metoda provádění profilování autorství za účelem odvození atributů autora, včetně jejich jazykového pozadí. To je užitečné zejména v situacích, kdy text, např. anonymní dopis je klíčovým důkazním materiálem při vyšetřování a stopy o rodném jazyce spisovatele mohou vyšetřovatelům pomoci při identifikaci zdroje. To již přilákalo zájem a financování zpravodajskými agenturami.[3]

Metodologie

Zpracování přirozeného jazyka metody se používají k extrakci a identifikaci vzorců používání jazyků běžných pro mluvčí skupiny L1. To se provádí pomocí údajů o žácích jazyků, obvykle od a studijní korpus. Další, strojové učení se aplikuje na vlakové klasifikátory, jako podporovat vektorové stroje, pro predikci L1 neviditelných textů.[4]K úkolu byla také použita řada systémů založených na souborech a ukázalo se, že zlepšují výkon oproti systémům s jedním klasifikátorem.[5]

Pro tento úkol byly použity různé typy jazykových funkcí. Patří mezi ně syntaktické funkce, jako jsou analýzy prvků, gramatické závislosti a značky řeči. Lexikální funkce na úrovni povrchu, jako jsou znaky, slova a lemma n-gramů bylo také shledáno jako velmi užitečné pro tento úkol. Zdá se však, že znak n-gramů[6][7] jsou jedinou nejlepší funkcí pro tento úkol.

2013 sdílený úkol

Workshop Building Educational Applications (BEA) na adrese NAACL V roce 2013 se uskutečnil zahajovací sdílený úkol NLI.[8] Soutěž vyústila v 29 příspěvků od týmů z celého světa, 24 z nich také zveřejnilo článek popisující jejich systémy a přístupy.

Viz také

Reference

  1. ^ Wong, Sze-Meng Jojo a Mark Dras. „Exploiting parse structures for native language identification“. Sborník z konference o empirických metodách ve zpracování přirozeného jazyka. Sdružení pro počítačovou lingvistiku, 2011.
  2. ^ Malmasi, Shervin a Mark Dras. „Hypotézy jazykového přenosu s lineárními váhami SVM.“ Sborník konference z roku 2014 o empirických metodách ve zpracování přirozeného jazyka (EMNLP). 2014.
  3. ^ Ria Perkins. 2014. „Lingvistické identifikátory perských mluvčích L1 psaných anglicky: NLID pro autorskou analýzu“. Ph.D. diplomová práce, Aston University.
  4. ^ Tetreault a kol., „Native Tongues, Lost and Found: Resources and Empirical Evaluation in Native Language Identification“, V Proc. Mezinárodní konf. o počítačové lingvistice (COLING), 2012
  5. ^ Malmasi, Shervin, Sze-Meng Jojo Wong a Mark Dras. „NLI Shared Task 2013: MQ submission“. Sborník z osmého workshopu o inovativním využití NLP pro vytváření vzdělávacích aplikací. 2013.
  6. ^ Radu Tudor Ionescu, Marius Popescu a Aoife Cahill. "Řetězcová jádra pro identifikaci nativního jazyka: postřehy ze zákulisí", Výpočetní lingvistika, 2016
  7. ^ Radu Tudor Ionescu a Marius Popescu. „Mohou jádra řetězců obstát v testu času v identifikaci nativního jazyka?“, Ve sborníku BEA12, 2017.
  8. ^ Tetreault a kol., „Zpráva o prvním sdíleném úkolu identifikace rodného jazyka“, 2013