Slovo skica - Word sketch
![](http://upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Word_sketch_of_verb_%22read%22.png/220px-Word_sketch_of_verb_%22read%22.png)
A slovo skica je jednostránkový automatický souhrn gramatického a kolokačního chování slova odvozený od korpusu. Náčrtky slov byly poprvé představeny britským lingvistou korpusu Adam Kilgarriff[1] a využívány v rámci Skica Engine[2]systém správy korpusu. Jsou rozšířením generála kolokace koncept používaný v korpusové lingvistice v tom, že seskupují kolokace podle konkrétních gramatických vztahů (např. předmět, předmět, modifikátor atd.). Kandidáti na kolokaci ve skici slova jsou řazeni buď podle jejich frekvence, nebo pomocí lexikografického skóre asociace jako Kostky, T-skóre nebo MI skóre.
Od úvodu používají lexikografové slovní skici k vývoji moderních slovníků založených na korpusu předními vydavatelstvími včetně Oxford English Dictionary,[3] Macmillan anglický slovník[1] a obsahuje desítky jazyků včetně angličtiny,[1]Čínština,[4]Slovinština,[5]Japonský,[6]Holandský,[7]Rumunština,[8]Ruština,[9] Čeština,[10]Polština,[11]Vietnamština,[12]Turečtina,[13] Portugalština,[14]Hindština,[15] španělština[16] a další.[17]
Formální účet
A slovo skica triple je trojnásobek skládající se z heslo, gramatický vztah, kolokace (např. muž, modifikátor, mladý). Zvažování podkladového nástroje textový korpus, a slovo skica pětinásobek je pětinásobek skládající se z heslové slovo, gramatický vztah, kolokace, poloha heslového slova v korpusu, pozice kolokace v korpusu (např. muž, modifikátor, mladý, 104, 103).A databáze skic slov je sada takových trojic nebo pětinásobků, které lze generovat buď dotazem na korpus pomocí korpusového dotazovacího jazyka[18] nebo analýzou korpusu pomocí analyzátoru přirozeného jazyka.[19]
Reference
- ^ A b C Kilgarriff, Adam; Rychlý, Pavel; Smrž, Pavel; Tugwell, David (2004) Sketch Engine. Informační technologie, 2004
- ^ Kilgarriff, Adam; Baisa, Vít; Bušta, Jan; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, Jan; Rychlý, Pavel; Suchomel, Vít (2004) Sketch Engine: Ten Years On. V Lexikografii, strana 7-36, Springer Berlin Heidelberg
- ^ Jonathan Culpeper (2009) Metajazyk nepolitičnosti: Využití nástroje Sketch Engine k prozkoumání Oxfordského anglického korpusu. V současné korpusové lingvistice
- ^ Chu-Ren Huang, Adam Kilgarriff, Yiching Wu, Chih-Ming Chiu, Simon Smith, Pavel Rychlý, Ming-Hong Bai a Keh-Jiann Chen (2005). Čínský skicář a extrakce gramatických kolokací. Ve čtvrtém workshopu SIGHAN o zpracování čínského jazyka, Korea, str. 48–55
- ^ Simon Krek a Adam Kilgarriff (2006). Slovinské náčrtky slov. In Proceedings 5th Slovenian Languages Technology Conference, Slovenia
- ^ Irena Srdanović, Tomaž Erjavec a Adam Kilgarriff (2008) Webový korpus a náčrt slov pro japonštinu. V 『自然 言語 処理』 (Journal of Natural Language Processing) 15/2, 137--159.
- ^ Carole Tiberius a Adam Kilgarriff (2009). Sketch Engine pro holandštinu s korpusem ANW. Ve Fons Verbhorum, Festschrift pro Fons Moerdijk. Instituut voor Nederlandse Lexicologie, Nizozemsko, s. 273--255
- ^ Monica Macoveiciuc a Adam Kilgarriff (2010) Korpus RoWaC a skici rumunského slova. In Vícejazyčnost a interoperabilita ve zpracování jazyků s důrazem na rumunskou, rumunskou akademii věd.
- ^ Maria Khokhlova a Victor Zakharov (2010) Studium skic slov pro ruštinu. Ve sborníku ze sedmé mezinárodní konference o jazykových zdrojích a hodnocení (LREC'12)
- ^ Karel Pala a Pavel Rychlý (2010) Případová studie ve skicách slov - české sloveso vidět. Na cestě slovy: Nedávné pokroky v lexikální teorii a analýze. Festschrift pro Patricka Hankse.
- ^ Adam Radziszewski, Adam Kilgarriff a Robert Lew (2011) Polské slovní skici. Ve sborníku z 5. jazykové a technologické konference (LTC)
- ^ Adam Kilgarriff a Phuong Le-Hong (2012) Vietnamese Word Sketches. Na workshopu o zpracování vietnamského jazyka a řeči (IEEE-RIVF 9)
- ^ Bharat Ram Ambati, Siva Reddy a Adam Kilgarriff (2012) Word Sketches for Turkish. Ve sborníku z osmé mezinárodní konference o jazykových zdrojích a hodnocení (LREC'12)
- ^ Adam Kilgarriff, Miloš Jakubíček, Jan Pomikálek, Tony Berber Sardinha a Pete Whitelock (2014) PtTenTen: Korpus pro portugalskou lexikografii. Ve spolupráci s portugalskými korpusy, Bloomsbury Publishing
- ^ Anil Krishna Eragani, Varun Kuchibhotla, Dipti Sharma, Siva Reddy a Adam Kilgarriff (2014) Hindi Word Sketches. Ve sborníku z konference o zpracování přirozeného jazyka (ICON-11)
- ^ Adam Kilgarriff a Irene Renau (2013) esTenTen, rozsáhlý webový korpus poloostrovní a americké španělštiny. In Procedia - sociální a behaviorální vědy
- ^ https://www.sketchengine.co.uk/documentation/wiki/SkE/Biblio
- ^ Miloš Jakubíček, Adam Kilgarriff, Diana McCarthy a Pavel Rychlý (2010) Rychlé syntaktické vyhledávání ve velkých korpusech pro mnoho jazyků. In Proceedings of Workshop on Advanced Corpus Solutions, PACLIC 24, Japan.
- ^ Aleš Horák, Pavel Rychlý, Adam Kilgarriff (2009) Vztahy skic českého slova s úplným syntaktickým analyzátorem. Po půlstoletí slovanského zpracování přirozeného jazyka.
externí odkazy
- Word Sketch - slovní spojení v uživatelské příručce ke Sketch Engine