Seznamy slov podle frekvence - Word lists by frequency

Seznamy slov podle frekvence jsou seznamy slov jazyka seskupené podle četnosti výskytu v určitém rozsahu textový korpus, buď podle úrovní, nebo jako seřazený seznam, sloužící účelu získávání slovní zásoby. Seznam slov podle frekvence „poskytuje racionální základnu pro zajištění toho, aby studenti získali nejlepší návratnost za své úsilí při učení slovní zásoby“ (Národ 1997 ), ale je určen hlavně pro tvůrce kurzů, nikoli přímo pro studenty. Seznamy frekvencí jsou také vytvářeny pro lexikografické účely, slouží jako jakési kontrolní seznam zajistit, aby běžná slova nebyla vynechána. Některé hlavní úskalí jsou obsah korpusu, korpus Registrovat a definice „slovo ". Zatímco počítání slov je staré tisíc let, stále ještě v polovině 20. století byla ručně provedena gigantická analýza," elektronické zpracování v přirozeném jazyce velkých korpusů, jako jsou filmové titulky (megastudie SUBTLEX), zrychlilo pole výzkumu.

v výpočetní lingvistika, a seznam frekvencí je seřazený seznam slova (typy slov) spolu s jejich frekvence, kde frekvence zde obvykle znamená počet výskytů v daném korpus, ze kterého lze odvodit hodnost jako pozici v seznamu.

TypUdálostiHodnost
the37896541. místo
on20987622. místo
[...]
král578971356
chlapec569751357
[...]
stringyfy534 589
[...]
transducionalify1123567

Metodologie

Faktory

Národ (Národ 1997 ) zaznamenal neuvěřitelnou pomoc poskytovanou výpočetními schopnostmi, díky níž je analýza korpusu mnohem jednodušší. Uvedl několik klíčových otázek, které ovlivňují konstrukci seznamů frekvencí:

  • reprezentativnost korpusu
  • frekvence a rozsah slov
  • zacházení se slovními rodinami
  • zacházení s idiomy a pevnými výrazy
  • rozsah informací
  • různá další kritéria

Korpusy

Tradiční psaný korpus

Většina aktuálně dostupných studií je založena na písemných textový korpus, snadněji dostupné a snadno zpracovatelné.

SUBTLEX pohyb

Nicméně, New et al. 2007 navrhuje analyzovat velké množství projevů online, které jsou k dispozici online. Brysbaert & New 2009 provedl dlouhé kritické zhodnocení tradičního přístupu k textové analýze a podpořil přechod od písemného korpusu k analýze ústních korpusů a díky otevřeným filmovým titulkům dostupným online. Na to nedávno navázalo několik následných studií[1], který poskytuje cennou analýzu počtu frekvencí pro různé jazyky. Ve skutečnosti hnutí SUBTLEX dokončilo za pět let úplné studium francouzštiny (New et al. 2007 ), Americká angličtina (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012 ), Holandština (Keuleers & New 2010 ), Čínština (Cai & Brysbaert 2010 ), Španělština (Cuetos a kol. 2011 ), Řecký (Dimitropoulou a kol. 2010 ), Vietnamština (Pham, Bolger & Baayen 2011 ), Brazilská portugalština (Tang 2012 ) a Portugalsko portugalština (Soares a kol. 2015), albánština (Avdyli & Cuetos 2013 ) a polština (Mandera a kol. 2014 ). SUBTLEX-IT (2015) poskytuje pouze nezpracovaná data[1].

Lexikální jednotka

V každém případě by měla být definována základní „slovní“ jednotka. U latinských skriptů jsou slova obvykle jeden nebo několik znaků oddělených mezerami nebo interpunkcí. Mohou však nastat výjimky, jako je angličtina „can't“, francouzština „aujourd'hui“ nebo idiomy. Může být také výhodnější seskupit slova a slovo rodina pod zastoupením jeho základní slovo. Tím pádem, možná, nemožná, možnost jsou slova stejné rodiny slov, představovaná základním slovem * possib *. Pro statistické účely jsou všechna tato slova shrnuta do základního slovního tvaru * possib *, což umožňuje hodnocení pojmu a výskytu formy. Jiné jazyky mohou navíc představovat zvláštní potíže. Tak je tomu v čínštině, která nepoužívá mezery mezi slovy a kde lze zadaný řetězec několika znaků interpretovat buď jako frázi slov s jedinečným znakem, nebo jako víceznakové slovo.

Statistika

Zdá se, že Zipfův zákon platí pro seznamy frekvencí čerpané z delších textů libovolného přirozeného jazyka. Seznamy frekvencí jsou užitečným nástrojem při vytváření elektronického slovníku, což je předpokladem pro širokou škálu aplikací v výpočetní lingvistika.

Němečtí lingvisté definují Häufigkeitsklasse (frekvenční třída) položky v seznamu pomocí logaritmus základny 2 poměru mezi jeho frekvencí a frekvencí nejčastější položky. Nejběžnější položka patří do frekvenční třídy 0 (nula) a jakákoli položka, která je přibližně o polovinu častější, patří do třídy 1. Ve výše uvedeném seznamu příkladů je chybně napsané slovo pobuřující má poměr 76/3789654 a patří do třídy 16.

kde je funkce podlahy.

Seznamy frekvencí spolu s sémantické sítě, se používají k identifikaci nejméně běžných specializovaných výrazů, které mají být nahrazeny hypernymy v procesu sémantická komprese.

Pedagogika

Účelem těchto seznamů není poskytnout je přímo studentům, nýbrž sloužit jako vodítko pro učitele a autory učebnic (Národ 1997 ). Paul Nation Shrnutí výuky moderního jazyka vybízí nejprve k „přechodu od vysokofrekvenční slovní zásoby a [tematické] slovní zásoby k nízkofrekvenční slovní zásobě, poté k učení strategií pro udržení autonomní expanze slovní zásoby“ (Nation & 2006la).

Účinky četnosti slov

Je známo, že četnost slov má různé účinky (Brysbaert a kol. 2011; Rudell 1993 ). Zapamatování je pozitivně ovlivněno vyšší frekvencí slov, pravděpodobně proto, že student je vystaven více expozicím (Laufer 1997). Lexikální přístup je pozitivně ovlivněn vysokou frekvencí slov, což je jev zvaný efekt frekvence slov (Segui a kol. ). Účinek četnosti slov souvisí s účinkem věk akvizice, věk, ve kterém se slovo naučilo.

Jazyky

Níže je uveden přehled dostupných zdrojů.

Angličtina

Počítání slov se datuje do Helénistické čas. Společnost Thorndike & Lorge za pomoci svých kolegů napočítala 18 000 000 běžících slov, aby poskytla první rozsáhlý seznam frekvencí v roce 1944, než moderní počítače tyto projekty výrazně usnadnily (Národ 1997 ).

Tradiční seznamy

Všichni trpí svým věkem. Zejména slova týkající se technologie, například „blog“, jehož četnost byla v roce 2014 # 7665[2] v Korpusu současné americké angličtiny,[3] byl poprvé doložen v roce 1999,[4][5][6] a neobjevuje se v žádném z těchto tří seznamů.

Slovní kniha učitelů o 30 000 slovech (Thorndike a Lorge, 1944)

TWB obsahuje 30 000 lemmat nebo ~ 13 000 slovních rodin (Goulden, Nation and Read, 1990). Korpus 18 milionů psaných slov byl ručně analyzován. Velikost jeho zdrojového korpusu zvýšila jeho užitečnost, ale jeho věk a jazykové změny snížily jeho použitelnost (Národ 1997 ).

The Seznam obecných služeb (West, 1953)

GSL obsahuje 2 000 hesel rozdělených do dvou sad 1 000 slov. Ve čtyřicátých letech byl analyzován korpus 5 milionů psaných slov. Je uvedena míra výskytu (%) pro různé významy a slovní druhy klíčového slova. Na korpus byla pečlivě aplikována různá kritéria, kromě frekvence a rozsahu. Navzdory svému stáří, některým chybám a korpusu, který je zcela psaným textem, je to stále vynikající databáze četnosti slov, četnosti významů a redukce šumu (Národ 1997 ). Tento seznam aktualizovali v roce 2013 Dr. Charles Browne, Dr. Brent Culligan a Joseph Phillips jako Nový obecný seznam služeb.

Frekvenční kniha amerického dědictví (Carroll, Davies a Richman, 1971)

Korpus 5 milionů běžících slov z písemných textů používaných na školách Spojených států (různé ročníky, různé obory). Jeho hodnota spočívá v jeho zaměření na školní učební materiály a v označování slov podle frekvence každého slova, v každém ročníku školy a v každé z učebních oblastí (Národ 1997 ).

Brown (Francis a Kučera, 1982) LOB a související korpusy

Ty nyní obsahují 1 milion slov z písemného korpusu představujících různé dialekty angličtiny. Tyto zdroje se používají k vytváření seznamů frekvencí (Národ 1997 ).

francouzština

Tradiční datové sady

Recenze byla provedena uživatelem Nové, pallier a 3.01Pokus byl učiněn v 50. až 60. letech s Français fondamental. Zahrnuje seznam F.F.1 s 1500 vysokofrekvenčními slovy, doplněný pozdějším seznamem F.F.2 s 1700 středofrekvenčními slovy a nejpoužívanějšími pravidly syntaxe.[7] Tvrdí se, že 70 gramatických slov tvoří 50% komunikativní věty,[8] zatímco 3 680 slov tvoří přibližně 95 ~ 98% pokrytí.[9] K dispozici je seznam 3 000 častých slov.[10]

Francouzské ministerstvo školství rovněž uvádí seřazený seznam 1 500 nejčastějších světové rodiny, poskytnuté lexikologem Étienne Brunet.[11] Jean Baudot provedl studii na modelu studie American Brown nazvanou „Fréquences d'utilisation des mots en français écrit contemporain“.[12]

Více nedávno, projekt Lexique3 poskytuje 142 000 francouzských slov s pravopis, fonetický, slabikování, část mluvy, Rod, počet výskytů ve zdrojovém korpusu, frekvence, související lexémy atd. dostupné pod otevřenou licencí CC-by-sa-4.0.[13]

Subtlex

Tento Lexique3 je kontinuální studie, ze které pochází Subtlexní pohyb citováno výše. Nový 2007 udělal zcela nové počítání na základě online filmových titulků.

španělština

Existuje několik studií četnosti španělských slov (Cuetos a kol. 2011 ).[14]

čínština

Čínské korpusy byly dlouho studovány z pohledu seznamů frekvencí. Historický způsob, jak se naučit čínskou slovní zásobu, je založen na frekvenci znaků (Allanic 2003 ). Americký sinolog John DeFrancis zmínil její význam pro čínštinu jako výuku a výuku cizích jazyků v Proč Johnny neumí číst čínsky (DeFrancis 1966 ). Jako soubor frekvenčních nástrojů Da (Da 1998 ) a tchajwanské ministerstvo školství (TME 1997 ) poskytl rozsáhlé databáze s frekvenční řadou znaků a slov. The HSK seznam 8 848 slov s vysokou a střední frekvencí v souboru Čínská lidová republika a Čínská republika (Tchaj-wan) je HORNÍ seznam přibližně 8 600 běžných tradičních čínských slov jsou dva další seznamy zobrazující běžná čínská slova a znaky. Po hnutí SUBTLEX Cai & Brysbaert 2010 nedávno provedl bohatou studii čínských frekvencí slov a znaků.

jiný

Nejčastěji používaná slova v různých jazycích na základě Wikipedie nebo kombinovaných korpusů.[15]

Viz také

Poznámky

  1. ^ A b "Crr» Frekvence titulků ".
  2. ^ „Slova a fráze: frekvence, žánry, kolokace, konkordance, synonyma a WordNet“.
  3. ^ „Corpus of Contemporary American English (COCA)“.
  4. ^ „To jsou odkazy, hloupé“. Ekonom. 2006-04-20. Citováno 2008-06-05.
  5. ^ Merholz, Peter (1999). „Peterme.com“. Internetový archiv. Archivovány od originál dne 13.10.1999. Citováno 2008-06-05.
  6. ^ Kottke, Jasone (2003-08-26). „kottke.org“. Citováno 2008-06-05.
  7. ^ „Le français fondamental“. Archivovány od originál 4. července 2010.
  8. ^ Ouzoulias, André (2004), Comprendre et aider les enfants en obtížné scolaire: Le Vocabulaire fondamental, 70 mots essentiels (PDF), Retz - Cituji V.A.C Henmona
  9. ^ „Obecné informace“.
  10. ^ „PDF 3000 francouzská slova“.
  11. ^ „Maitrise de la langue à l'école: Vocabulaire“. Ministère de l'éducation nationale.
  12. ^ Baudot, J. (1992), Fréquences d'utilisation des mots en français écrit contemporain, Presses de L'Université, ISBN  978-2-7606-1563-2
  13. ^ "Lexique".
  14. ^ "Seznamy frekvencí španělských slov". Vocabularywiki.pbworks.com.
  15. ^ Nejčastěji používaná slova v různých jazycích, ezglot

Reference

Teoretické koncepty

Databáze psaných textů

SUBTLEX pohyb