TenTen Corpus Family - TenTen Corpus Family - Wikipedia

The TenTen Corpus Family (také zvaný TenTen korpusy) je sada srovnatelného webu textové korpusy, tj. sbírky textů, které již byly plazil se z Celosvětová Síť a zpracovány tak, aby odpovídaly stejným standardům. Tyto korpusy jsou zpřístupňovány prostřednictvím Skica Engine korpusový manažer. Existují korporace TenTen pro více než 35 jazyků. Jejich cílová velikost je 10 miliard (1010) slov na jazyk, což vedlo ke vzniku názvu rodiny korpusů.[1]

Při vytváření korpusů TenTen se zpracovávají data procházená z World Wide Web zpracování přirozeného jazyka nástroje vyvinuté Střediskem zpracování přirozeného jazyka na Fakultě informatiky v Brně Masarykova univerzita (Brno, Česká republika ) a společností Lexical Computing (vývojář Sketch Engine).

Korpusová lingvistika

v korpusová lingvistika, a textový korpus je velká a strukturovaná sbírka textů, které jsou elektronicky ukládány a zpracovávány. Používá se k testování hypotéz o jazycích, ověřování jazykových pravidel nebo frekvenční distribuci slov (n-gramů ) v jazycích.

Elektronicky zpracované korpusy poskytují rychlé vyhledávání. Procedury zpracování textu jako např tokenizace, značení části řeči a slovesná disambiguace obohatit korpusové texty o podrobné jazykové informace. To umožňuje zúžit vyhledávání na konkrétní části řeči, slovní posloupnosti nebo konkrétní část korpusu.

První textové korpusy byly vytvořeny v šedesátých letech, například 1 milion slov Hnědý korpus z americká angličtina. Postupem času bylo vyrobeno mnoho dalších korpusů (např Britský národní korpus a LOB korpus ) a začaly práce také na korpusech větších velikostí a pokrývajících jiné jazyky než angličtinu. Tento vývoj byl spojen se vznikem nástrojů pro vytváření korpusu, které pomáhají dosáhnout větší velikosti, širšího pokrytí, čistších dat atd.

Výroba korpusů TenTen

Postup výroby korpusů TenTen je založen na dřívějším výzkumu tvůrců při přípravě webových korpusů a jejich následném zpracování.[2][3][4]

Na začátku je obrovské množství textových dat staženo z webu pomocí vyhrazeného webového prohledávače SpiderLing.[5] V pozdější fázi tyto texty podstoupí čištění, který spočívá v odstranění veškerého netextového materiálu, jako jsou navigační odkazy, záhlaví a zápatí, z HTML zdrojový kód webových stránek pomocí nástroje jusText[6], takže zůstanou zachovány pouze plné pevné věty. Nakonec nástroj CIBULE[6] se vztahuje na odstranit duplicitní části textu z korpusu, které se přirozeně vyskytují na internetu díky praktikám jako citovat, citovat, kopírování atd.[1]

Datová struktura korporací TenTen

Korpusy TenTen se řídí specifickou strukturou metadat, která je společná všem. Metadata jsou obsažena ve strukturálních atributech, které se vztahují k jednotlivým dokumentům a odstavcům v korpusu. Některé korpusy TenTen mohou obsahovat další specifické atributy.

Atributy dokumentu

  • doména nejvyšší úrovně - doména na nejvyšší úrovni hierarchické Domain Name System (např. „com“)
  • webová stránka - identifikační řetězec definující oblast administrativní autonomie v Internetu (např. „Wikipedia.org“)
  • webová doména - sbírka souvisejících webových stránek (např. „La.wikipedia.org“)
  • procházet datum - datum, kdy byl dokument stažen z webu
  • url - Jednotný vyhledávač zdrojů s odkazem na zdroj dokumentu
  • wordcount - počet slov v dokumentu
  • délka - klasifikace dokumentu do rozsahu podle jeho délky měřené v tisících slov

Atributy odstavce

  • nadpis - rozlišující číselný atribut záhlaví a podobné tituly z obyčejných hlavní text (1, pokud je odstavec nadpis, jinak 0)

Dostupné korporace TenTen

Následující korpusy jsou přístupné prostřednictvím Sketch Engine od října 2018:[7]

  1. arTenTen (arabština webový korpus)[8]
  2. beTenTen (Běloruský webový korpus)[9]
  3. bgTenTen (bulharský webový korpus)[10]
  4. caTenTen (Katalánština webový korpus)
  5. csTenTen (čeština webový korpus)[11]
  6. daTenTen (dánština webový korpus)
  7. deTenTen (Němec webový korpus)
  8. elTenTen (řecký webový korpus)
  9. ENTENTEN (Angličtina webový korpus)[12]
  10. esTenTen (španělština webový korpus s evropský /Americká španělština subcorpora)[13]
  11. etTenTen (estonština webový korpus)[14]
  12. fiTenTen (Finština webový korpus)
  13. frTenTen (francouzština webový korpus)
  14. heTenTen (hebrejština webový korpus)
  15. hiTenTen (hindština webový korpus)
  16. huTenTen (maďarský webový korpus)
  17. itTenTen (italština webový korpus)
  18. jaTenTen (japonský webový korpus)
  19. kmTenTen (Khmer webový korpus)
  20. koTenTen (korejština webový korpus)
  21. loTenTen (Lao & Je webový korpus)
  22. ltTenTen (Litevský webový korpus)
  23. lvTenTen (lotyšský webový korpus)
  24. mkTenTen (Makedonština webový korpus)
  25. nlTenTen (holandský webový korpus)
  26. noTenTen (Norština webový korpus)
  27. plTenTen (polština webový korpus)
  28. ptTenTen (portugalština webový korpus)
  29. roTenTen (rumunština webový korpus)
  30. ruTenTen (ruština webový korpus)
  31. skTenTen (Slovák webový korpus)
  32. slTenTen (slovinský webový korpus)
  33. svTenTen (švédský webový korpus)
  34. thTenTen (Thai webový korpus)
  35. tlTenTen (Tagalog webový korpus)
  36. trTenTen (turečtina webový korpus)[15]
  37. ukTenTen (ukrajinština webový korpus)
  38. zhTenTen (Zjednodušené čínské znaky webový korpus)

Viz také

Reference

  1. ^ A b Jakubíček, Miloš; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (červenec 2013). Rodina Tenten Corpus (PDF). 7. mezinárodní korpusová lingvistická konference CL. Lancaster, Velká Británie: Lancaster University. str. 125–127. Citováno 13. června 2017.
  2. ^ Baroni, Marco; Kilgarriff, Adam; Kovář, Vojtěch; Rychlý, Pavel; Suchomel, Vít (červenec 2013). Velké jazykově zpracované webové korpusy pro více jazyků (PDF). 11. konference evropské kapitoly Asociace pro výpočetní lingvistiku: Plakáty a ukázky. Sdružení pro výpočetní lingvistiku. Trento, Itálie: Lancaster University. str. 87–90. Citováno 13. června 2017.
  3. ^ Kilgarriff, Adam; Reddy, Siva; Pomikálek, Jan; Avinesh, PVS (květen 2010). Korpusová továrna na mnoho jazyků. 7. konference o jazykových zdrojích a hodnocení. Valletta, Malta: ELRA. Citováno 13. června 2017.
  4. ^ Sharoff, Serge (2006). „Vytváření korpusů pro všeobecné účely pomocí automatizovaných dotazů vyhledávače“ (PDF). V Baroni, Marco; Bernardini, Silvia (eds.). Šílený! Pracovní dokumenty na webu jako Corpus. Bologna, Itálie: GEDIT. str. 63–98. ISBN  978-88-6027-004-7.
  5. ^ Suchomel, Vít; Pomikálek, Jan (17. dubna 2012). „Efektivní procházení webu pro velké textové korpusy“ (PDF). Sborník ze sedmého webu jako Corpus Workshop (WAC7). 7. web jako Workshop Corpus. Lyon, Francie: Association for Computational Linguistics (ACL) on Web jako Corpus. 39–43. Citováno 13. června 2017.
  6. ^ A b Pomikálek, Jan (2011). Odstranění standardního a duplicitního obsahu z webových korpusů (PhD). Fakulta informatiky Masarykovy univerzity. Citováno 17. dubna 2017.
  7. ^ „TenTen Corpus Family“. www.sketchengine.eu. Skica Engine. Citováno 23. října 2018.
  8. ^ Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: nový, rozsáhlý korpus pro arabštinu. Sborník WACL.
  9. ^ „Nový běloruský korpus (beTenTen)“. Skica Engine. Lexikální výpočty. 26. 02. 2018. Citováno 2018-04-06.
  10. ^ Kilgarriff, A., Jakubíček, M., Pomikalek, J., Sardinha, T. B., & Whitelock, P. (2014). PtTenTen: korpus pro portugalskou lexikografii. Práce s portugalskými korpusy, 111-30.
  11. ^ Suchomel, Vít (7. – 9. Prosince 2012). „Nedávné české webové korpusy“. In Horák, A .; Rychlý, P. (eds.). Sborník nedávných pokroků ve zpracování slovanského přirozeného jazyka, RASLAN 2012. Tribunál EU. str. 77–83.
  12. ^ Kilgarriff, Adam (2012). „Seznámení s vaším korpusem“. Text, řeč a dialog. Přednášky z informatiky. 7499. s. 3–15. CiteSeerX  10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN  978-3-642-32789-6.
  13. ^ Kilgarriff, A., & Renau, I. (2013). esTenTen, rozsáhlý webový korpus poloostrovní a americké španělštiny. Procedurálně-sociální a behaviorální vědy, 95, 12-19.
  14. ^ SRDANOVIĆ, I. (2016). Výzkumný projekt jazykových zdrojů pro studenty japonštiny. Inter Fakulta, 6.
  15. ^ Baisa, Vít; Suchomel, Vít (2015). „Turkic Language Support in Sketch Engine“. Sborník mezinárodní konference „Zpracování Turkic jazyků: TurkLang 2015“. Kazan: Akademie věd Republiky Tatarstán Press. 214–223. ISBN  978-5-9690-0262-3 - přes IS MU.

externí odkazy