Seznamy slov podle frekvence - Word lists by frequency
Seznamy slov podle frekvence jsou seznamy slov jazyka seskupené podle četnosti výskytu v určitém rozsahu textový korpus, buď podle úrovní, nebo jako seřazený seznam, sloužící účelu získávání slovní zásoby. Seznam slov podle frekvence „poskytuje racionální základnu pro zajištění toho, aby studenti získali nejlepší návratnost za své úsilí při učení slovní zásoby“ (Národ 1997 ), ale je určen hlavně pro tvůrce kurzů, nikoli přímo pro studenty. Seznamy frekvencí jsou také vytvářeny pro lexikografické účely, slouží jako jakési kontrolní seznam zajistit, aby běžná slova nebyla vynechána. Některé hlavní úskalí jsou obsah korpusu, korpus Registrovat a definice „slovo ". Zatímco počítání slov je staré tisíc let, stále ještě v polovině 20. století byla ručně provedena gigantická analýza," elektronické zpracování v přirozeném jazyce velkých korpusů, jako jsou filmové titulky (megastudie SUBTLEX), zrychlilo pole výzkumu.
v výpočetní lingvistika, a seznam frekvencí je seřazený seznam slova (typy slov) spolu s jejich frekvence, kde frekvence zde obvykle znamená počet výskytů v daném korpus, ze kterého lze odvodit hodnost jako pozici v seznamu.
Typ | Události | Hodnost |
---|---|---|
the | 3789654 | 1. místo |
on | 2098762 | 2. místo |
[...] | ||
král | 57897 | 1356 |
chlapec | 56975 | 1357 |
[...] | ||
stringyfy | 5 | 34 589 |
[...] | ||
transducionalify | 1 | 123567 |
Metodologie
Faktory
Národ (Národ 1997 ) zaznamenal neuvěřitelnou pomoc poskytovanou výpočetními schopnostmi, díky níž je analýza korpusu mnohem jednodušší. Uvedl několik klíčových otázek, které ovlivňují konstrukci seznamů frekvencí:
- reprezentativnost korpusu
- frekvence a rozsah slov
- zacházení se slovními rodinami
- zacházení s idiomy a pevnými výrazy
- rozsah informací
- různá další kritéria
Korpusy
Tradiční psaný korpus

Většina aktuálně dostupných studií je založena na písemných textový korpus, snadněji dostupné a snadno zpracovatelné.
SUBTLEX pohyb
Nicméně, New et al. 2007 navrhuje analyzovat velké množství projevů online, které jsou k dispozici online. Brysbaert & New 2009 provedl dlouhé kritické zhodnocení tradičního přístupu k textové analýze a podpořil přechod od písemného korpusu k analýze ústních korpusů a díky otevřeným filmovým titulkům dostupným online. Na to nedávno navázalo několik následných studií[1], který poskytuje cennou analýzu počtu frekvencí pro různé jazyky. Ve skutečnosti hnutí SUBTLEX dokončilo za pět let úplné studium francouzštiny (New et al. 2007 ), Americká angličtina (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012 ), Holandština (Keuleers & New 2010 ), Čínština (Cai & Brysbaert 2010 ), Španělština (Cuetos a kol. 2011 ), Řecký (Dimitropoulou a kol. 2010 ), Vietnamština (Pham, Bolger & Baayen 2011 ), Brazilská portugalština (Tang 2012 ) a Portugalsko portugalština (Soares a kol. 2015), albánština (Avdyli & Cuetos 2013 ) a polština (Mandera a kol. 2014 ). SUBTLEX-IT (2015) poskytuje pouze nezpracovaná data[1].
Lexikální jednotka
V každém případě by měla být definována základní „slovní“ jednotka. U latinských skriptů jsou slova obvykle jeden nebo několik znaků oddělených mezerami nebo interpunkcí. Mohou však nastat výjimky, jako je angličtina „can't“, francouzština „aujourd'hui“ nebo idiomy. Může být také výhodnější seskupit slova a slovo rodina pod zastoupením jeho základní slovo. Tím pádem, možná, nemožná, možnost jsou slova stejné rodiny slov, představovaná základním slovem * possib *. Pro statistické účely jsou všechna tato slova shrnuta do základního slovního tvaru * possib *, což umožňuje hodnocení pojmu a výskytu formy. Jiné jazyky mohou navíc představovat zvláštní potíže. Tak je tomu v čínštině, která nepoužívá mezery mezi slovy a kde lze zadaný řetězec několika znaků interpretovat buď jako frázi slov s jedinečným znakem, nebo jako víceznakové slovo.
Statistika
Zdá se, že Zipfův zákon platí pro seznamy frekvencí čerpané z delších textů libovolného přirozeného jazyka. Seznamy frekvencí jsou užitečným nástrojem při vytváření elektronického slovníku, což je předpokladem pro širokou škálu aplikací v výpočetní lingvistika.
Němečtí lingvisté definují Häufigkeitsklasse (frekvenční třída) položky v seznamu pomocí logaritmus základny 2 poměru mezi jeho frekvencí a frekvencí nejčastější položky. Nejběžnější položka patří do frekvenční třídy 0 (nula) a jakákoli položka, která je přibližně o polovinu častější, patří do třídy 1. Ve výše uvedeném seznamu příkladů je chybně napsané slovo pobuřující má poměr 76/3789654 a patří do třídy 16.
kde je funkce podlahy.
Seznamy frekvencí spolu s sémantické sítě, se používají k identifikaci nejméně běžných specializovaných výrazů, které mají být nahrazeny hypernymy v procesu sémantická komprese.
Pedagogika
Účelem těchto seznamů není poskytnout je přímo studentům, nýbrž sloužit jako vodítko pro učitele a autory učebnic (Národ 1997 ). Paul Nation Shrnutí výuky moderního jazyka vybízí nejprve k „přechodu od vysokofrekvenční slovní zásoby a [tematické] slovní zásoby k nízkofrekvenční slovní zásobě, poté k učení strategií pro udržení autonomní expanze slovní zásoby“ (Nation & 2006la ).
Účinky četnosti slov
Je známo, že četnost slov má různé účinky (Brysbaert a kol. 2011; Rudell 1993 ). Zapamatování je pozitivně ovlivněno vyšší frekvencí slov, pravděpodobně proto, že student je vystaven více expozicím (Laufer 1997 ). Lexikální přístup je pozitivně ovlivněn vysokou frekvencí slov, což je jev zvaný efekt frekvence slov (Segui a kol. ). Účinek četnosti slov souvisí s účinkem věk akvizice, věk, ve kterém se slovo naučilo.
Jazyky
Níže je uveden přehled dostupných zdrojů.
Angličtina
Počítání slov se datuje do Helénistické čas. Společnost Thorndike & Lorge za pomoci svých kolegů napočítala 18 000 000 běžících slov, aby poskytla první rozsáhlý seznam frekvencí v roce 1944, než moderní počítače tyto projekty výrazně usnadnily (Národ 1997 ).
Tradiční seznamy
Všichni trpí svým věkem. Zejména slova týkající se technologie, například „blog“, jehož četnost byla v roce 2014 # 7665[2] v Korpusu současné americké angličtiny,[3] byl poprvé doložen v roce 1999,[4][5][6] a neobjevuje se v žádném z těchto tří seznamů.
- Slovní kniha učitelů o 30 000 slovech (Thorndike a Lorge, 1944)
TWB obsahuje 30 000 lemmat nebo ~ 13 000 slovních rodin (Goulden, Nation and Read, 1990). Korpus 18 milionů psaných slov byl ručně analyzován. Velikost jeho zdrojového korpusu zvýšila jeho užitečnost, ale jeho věk a jazykové změny snížily jeho použitelnost (Národ 1997 ).
- The Seznam obecných služeb (West, 1953)
GSL obsahuje 2 000 hesel rozdělených do dvou sad 1 000 slov. Ve čtyřicátých letech byl analyzován korpus 5 milionů psaných slov. Je uvedena míra výskytu (%) pro různé významy a slovní druhy klíčového slova. Na korpus byla pečlivě aplikována různá kritéria, kromě frekvence a rozsahu. Navzdory svému stáří, některým chybám a korpusu, který je zcela psaným textem, je to stále vynikající databáze četnosti slov, četnosti významů a redukce šumu (Národ 1997 ). Tento seznam aktualizovali v roce 2013 Dr. Charles Browne, Dr. Brent Culligan a Joseph Phillips jako Nový obecný seznam služeb.
- Frekvenční kniha amerického dědictví (Carroll, Davies a Richman, 1971)
Korpus 5 milionů běžících slov z písemných textů používaných na školách Spojených států (různé ročníky, různé obory). Jeho hodnota spočívá v jeho zaměření na školní učební materiály a v označování slov podle frekvence každého slova, v každém ročníku školy a v každé z učebních oblastí (Národ 1997 ).
- Brown (Francis a Kučera, 1982) LOB a související korpusy
Ty nyní obsahují 1 milion slov z písemného korpusu představujících různé dialekty angličtiny. Tyto zdroje se používají k vytváření seznamů frekvencí (Národ 1997 ).
francouzština
- Tradiční datové sady
Recenze byla provedena uživatelem Nové, pallier a 3.01 Pokus byl učiněn v 50. až 60. letech s Français fondamental. Zahrnuje seznam F.F.1 s 1500 vysokofrekvenčními slovy, doplněný pozdějším seznamem F.F.2 s 1700 středofrekvenčními slovy a nejpoužívanějšími pravidly syntaxe.[7] Tvrdí se, že 70 gramatických slov tvoří 50% komunikativní věty,[8] zatímco 3 680 slov tvoří přibližně 95 ~ 98% pokrytí.[9] K dispozici je seznam 3 000 častých slov.[10]
Francouzské ministerstvo školství rovněž uvádí seřazený seznam 1 500 nejčastějších světové rodiny, poskytnuté lexikologem Étienne Brunet.[11] Jean Baudot provedl studii na modelu studie American Brown nazvanou „Fréquences d'utilisation des mots en français écrit contemporain“.[12]
Více nedávno, projekt Lexique3 poskytuje 142 000 francouzských slov s pravopis, fonetický, slabikování, část mluvy, Rod, počet výskytů ve zdrojovém korpusu, frekvence, související lexémy atd. dostupné pod otevřenou licencí CC-by-sa-4.0.[13]
- Subtlex
Tento Lexique3 je kontinuální studie, ze které pochází Subtlexní pohyb citováno výše. Nový 2007 udělal zcela nové počítání na základě online filmových titulků.
španělština
Existuje několik studií četnosti španělských slov (Cuetos a kol. 2011 ).[14]
čínština
Čínské korpusy byly dlouho studovány z pohledu seznamů frekvencí. Historický způsob, jak se naučit čínskou slovní zásobu, je založen na frekvenci znaků (Allanic 2003 ). Americký sinolog John DeFrancis zmínil její význam pro čínštinu jako výuku a výuku cizích jazyků v Proč Johnny neumí číst čínsky (DeFrancis 1966 ). Jako soubor frekvenčních nástrojů Da (Da 1998 ) a tchajwanské ministerstvo školství (TME 1997 ) poskytl rozsáhlé databáze s frekvenční řadou znaků a slov. The HSK seznam 8 848 slov s vysokou a střední frekvencí v souboru Čínská lidová republika a Čínská republika (Tchaj-wan) je HORNÍ seznam přibližně 8 600 běžných tradičních čínských slov jsou dva další seznamy zobrazující běžná čínská slova a znaky. Po hnutí SUBTLEX Cai & Brysbaert 2010 nedávno provedl bohatou studii čínských frekvencí slov a znaků.
jiný
Nejčastěji používaná slova v různých jazycích na základě Wikipedie nebo kombinovaných korpusů.[15]
Viz také
- Frekvence písmen
- Nejběžnější slova v angličtině
- Dlouhý ocas
- Prohlížeč Google Ngram - zobrazuje změny frekvence slov / frází (a relativní frekvence) v průběhu času
Poznámky
- ^ A b "Crr» Frekvence titulků ".
- ^ „Slova a fráze: frekvence, žánry, kolokace, konkordance, synonyma a WordNet“.
- ^ „Corpus of Contemporary American English (COCA)“.
- ^ „To jsou odkazy, hloupé“. Ekonom. 2006-04-20. Citováno 2008-06-05.
- ^ Merholz, Peter (1999). „Peterme.com“. Internetový archiv. Archivovány od originál dne 13.10.1999. Citováno 2008-06-05.
- ^ Kottke, Jasone (2003-08-26). „kottke.org“. Citováno 2008-06-05.
- ^ „Le français fondamental“. Archivovány od originál 4. července 2010.
- ^ Ouzoulias, André (2004), Comprendre et aider les enfants en obtížné scolaire: Le Vocabulaire fondamental, 70 mots essentiels (PDF), Retz - Cituji V.A.C Henmona
- ^ „Obecné informace“.
- ^ „PDF 3000 francouzská slova“.
- ^ „Maitrise de la langue à l'école: Vocabulaire“. Ministère de l'éducation nationale.
- ^ Baudot, J. (1992), Fréquences d'utilisation des mots en français écrit contemporain, Presses de L'Université, ISBN 978-2-7606-1563-2
- ^ "Lexique".
- ^ "Seznamy frekvencí španělských slov". Vocabularywiki.pbworks.com.
- ^ Nejčastěji používaná slova v různých jazycích, ezglot
Reference
Teoretické koncepty
- Nation, I.S.P. (1997), „Velikost slovníku, pokrytí textu a seznamy slov“, ve Schmittu; McCarthy (eds.), Slovník: Popis, získávání a pedagogika, Cambridge: Cambridge University Press, s. 6–19, ISBN 978-0-521-58551-4
- Laufer ,, B. (1997), „Co je ve slově, které to ztěžuje nebo usnadňuje? Některé intralexikální faktory, které ovlivňují učení slov.“, Slovník: Popis, získávání a pedagogika, Cambridge: Cambridge University Press, s. 140–155, ISBN 9780521585514CS1 maint: více jmen: seznam autorů (odkaz)
- Nation, I.S.P. (2006la), „Language Education - Vocabulary“, Encyklopedie jazyka a lingvistiky, Oxford: 494–499, doi:10.1016 / B0-08-044854-2 / 00678-7, ISBN 9780080448541 Zkontrolujte hodnoty data v:
| rok =
(Pomoc). - Brysbaert, Marc; Buchmeier, Matthias; Conrad, Markus; Jacobs, Arthur M; Bölte, Jens; Böhl, Andrea (2011). „Slovo efekt frekvence: přehled posledního vývoje a důsledků pro výběr odhadů frekvence v němčině.“ (PDF). Efekt kmitočtu slova. Experimentální psychologie. 58. 412–424. doi:10.1027 / 1618-3169 / a000123. PMID 21768069.
- Rudell, A.P. (1993), "Frekvence používání slov a vnímaná obtížnost slov: Hodnocení slov Kučery a Františka", Většina, 25, str. 455–463
- Segui, J .; Mehler, Jacques; Frauenfelder, Uli; Morton, John (1982), „Efekt frekvence slova a lexikální přístup“, Neuropsychologie, 20 (6): 615–627, doi:10.1016/0028-3932(82)90061-6, PMID 7162585, S2CID 39694258
- Helmut Meier: Deutsche Sprachstatistik. Hildesheim: Olms 1967. (seznam frekvencí německých slov)
- DeFrancis, John (1966), Proč Johnny neumí číst čínsky (PDF)
- Allanic, Bernard (2003), Korpus postav a jejich pedagogický aspekt ve starověké a současné Číně (fr: Les corpus de caractères et leur dimenze pédagogique dans la Chine ancienne et contemporaine), Paříž, INALCO
Databáze psaných textů
- Da, červen (1998), Červen Da: Čínský textový výpočet [Zpřístupněno 21. srpna 2010].
- Taiwanské ministerstvo školství (1997), 八十 六年 常用 語詞 調查 報告 書 [Zpřístupněno 21. srpna 2010].
- Nový; Pallier (3,01), Manuel de Lexique 3 Zkontrolujte hodnoty data v:
| rok =
(Pomoc) - Gimenes, Manuel; Nové, Boris (2016), „Worldlex: Twitter a frekvence blogů pro 66 jazyků“, Metody výzkumu chování, 48 (3): 963–972, doi:10,3758 / s13428-015-0621-0, ISSN 1554-3528, PMID 26170053
SUBTLEX pohyb
- New, B .; Brysbaert, M .; Veronis, J .; Pallier, C. (2007), „SUBTLEX-FR: Použití filmových titulků k odhadu frekvencí slov“ (PDF), Aplikovaná psycholingvistika, 28 (4): 661, doi:10,1017 / s014271640707035x, hdl:1854 / LU-599589, archivovány z originál (PDF) dne 24. 10. 2016
- Brysbaert, Marc; Nové, Boris (2009), „Přechod za Kučeru a Františka: kritické vyhodnocení současných norem frekvence slov a zavedení nového a vylepšeného opatření pro frekvenci slov pro americkou angličtinu“ (PDF), Metody výzkumu chování, 41 (4): 977–990, doi:10,3758 / brm. 41,4,977, PMID 19897807, S2CID 4792474
- Keuleers, E, M, B .; Nové, B. (2010), „SUBTLEX - NL: Nové opatření pro frekvenci nizozemských slov na základě filmových titulků“, Metody výzkumu chování, 42 (3): 643–650, doi:10,3758 / brm. 42.3.643, PMID 20805586
- Cai, Q .; Brysbaert, M. (2010), „SUBTLEX-CH: Čínské slovo a četnost znaků podle filmových titulků“, PLOS ONE, 5 (6): 8, Bibcode:2010PLoSO ... 510729C, doi:10.1371 / journal.pone.0010729, PMC 2880003, PMID 20532192
- Cuetos, F .; Glez-nosti, Maria; Barbón, Analía; Brysbaert, Marc (2011), „SUBTLEX-ESP: frekvence španělských slov na základě titulků k filmu“ (PDF), Psicológica, 32: 133–143
- Dimitropoulou, M .; Duñabeitia, Jon Andoni; Avilés, Alberto; Corral, José; Carreiras, Manuel (2010), „SUBTLEX-GR: Frekvence slov podle titulků jako nejlepší odhad chování při čtení: Případ řečtiny“, Hranice v psychologii, 1 (Prosinec): 12, doi:10.3389 / fpsyg.2010.00218, PMC 3153823, PMID 21833273
- Pham, H .; Bolger, P .; Baayen, R.H. (2011), „SUBTLEX-VIE: Opatření pro vietnamské slovo a četnost znaků na filmových titulcích“, ACOL
- Brysbaert, M .; Nový, Boris; Keuleers, E. (2012), „SUBTLEX-US: Přidání části informací o řeči k frekvencím slov SUBTLEXus“ (PDF), Metody výzkumu chování: 1–22 (databáze )
- SUBTLEX-DE: [Dosud nezveřejněno: Buchmeier 2012:] Buchmeier (2012), Slovo efekt frekvence: Přehled nedávného vývoje a důsledků pro výběr odhadů frekvence v němčině, PMID 21768069 databáze
- Mandera, P; Keuleers, E; Wodniecka, Z; Brysbaert, M (2014). "Subtlex-pl: odhady četnosti slov podle titulků pro polštinu" (PDF). Metody Behav Res. 47 (2): 471–83. doi:10,3758 / s13428-014-0489-4. PMID 24942246. S2CID 2334688.
- Tang, K. (2012), „Korpus 61 milionů slov brazilských portugalských filmových titulků jako zdroj pro lingvistický výzkum“, UCL Work Pap Linguist (24): 208–214
- Avdyli, Rrezarta; Cuetos, Fernando (červen 2013), „SUBTLEXAL: Albánské slovní kmitočty na základě titulků k filmu“, Mezinárodní recenze ILIRIA, 3 (1): 285–292, doi:10.21113 / iir.v3i1.112, ISSN 2365-8592
- Soares, Ana Paula; Machado, João; Costa, Ana; Iriarte, Álvaro; Simões, Alberto; de Almeida, José João; Comesaña, Montserrat; Perea, Manuel (2014), „O výhodách četnosti slov a opatření kontextové rozmanitosti získaných z titulků: Případ portugalštiny“, Quarterly Journal of Experimental Psychology, 68 (4): 680–696, doi:10.1080/17470218.2014.964271, PMID 25263599, S2CID 5376519
![]() | Tento článek obsahuje jazyk seznam seznamů. Pokud interní odkaz nesprávně vás sem přivedl, možná budete chtít změnit odkaz tak, aby odkazoval přímo na zamýšlený článek. |