Prohlížeč Google Ngram - Google Ngram Viewer - Wikipedia
The Prohlížeč Google Ngram nebo Prohlížeč Ngramů Google Books je online vyhledávač, který mapuje frekvence libovolné sady vyhledávacích řetězců pomocí ročního počtu n-gramů nalezené ve zdrojích vytištěných mezi 1500 a 2019[1][2][3][4][5] v Google textové korpusy v angličtině, čínštině (zjednodušené), francouzštině, němčině, hebrejštině, italštině, ruštině nebo španělštině.[2][6] Existují také některé specializované anglické korpusy, jako je americká angličtina, britská angličtina a anglická beletrie.[7]
Program může vyhledat slovo nebo a fráze, včetně překlepů nebo hatmatilka.[6] N-gramy jsou porovnány s textem ve vybraném korpusu, volitelně pomocí rozeznává velká a malá písmena pravopis (který porovnává přesné použití velkých písmen),[8] a pokud se nacházejí ve 40 nebo více knihách, zobrazí se jako graf.[9]
Prohlížeč Google Ngram Viewer podporuje vyhledávání části řeči a zástupné znaky.[7] Běžně se používá ve výzkumu.[10][11]
Dějiny
Tento program vyvinuli Jon Orwant a Will Brockman a byl vydán v polovině prosince 2010.[2][3] Byl inspirován prototypem „Bookworm“ vytvořeným Jean-Baptiste Michel a Erez Aiden od Harvarda Kulturní observatoř a Yuan Shen z MIT a Steven Pinker.[12]
Prohlížeč Ngram byl původně založen na vydání Google Books Ngram Corpus z roku 2009. Od července 2020[Aktualizace], program podporuje korpusy 2009, 2012 a 2019.
Provoz a omezení
Čárky oddělují vyhledávací termíny zadané uživatelem a označují každé jednotlivé slovo nebo frázi, kterou chcete vyhledat.[9] Prohlížeč Ngram vrátí vynesené spojnicový graf během několika sekund od stisknutí tlačítka Zadejte klíč nebo tlačítko „Hledat“ na obrazovce.
Jako úprava pro více knih, které byly vydány během několika let, jsou data normalizováno, jako relativní úroveň, podle počtu knih vydaných v každém roce.[9]
Z důvodu omezení velikosti databáze Ngram jsou v databázi indexovány pouze shody nalezené v nejméně 40 knihách; jinak by databáze nemohla uložit všechny možné kombinace.[9]
Hledané výrazy obvykle nemohou končit interpunkcí, i když jsou samostatné tečka (období) lze vyhledávat.[9] Také konec otazník (jako v části „Proč?“) způsobí druhé hledání otazníku samostatně.[9]
Vynechání teček ve zkratkách umožní určitou formu shody, například použití „R M S“ k vyhledání „R.M.S.“ versus „RMS“.
Korpusy
The korpusy použité pro vyhledávání se skládají ze souborů total_counts, 1-gramů, 2-gramů, 3-gramů, 4-gramů a 5-gramových souborů pro každý jazyk. Formát souboru každého ze souborů je údaje oddělené tabulátorem. Každý řádek má následující formát:[13]
- soubor total_counts
- rok TAB match_count TAB page_count TAB volume_count NEWLINE
- Soubor verze 1 ngram (vygenerováno v červenci 2009)
- ngram TAB rok TAB match_count TAB page_count TAB volume_count NEWLINE
- Soubor verze 2 ngram (vygenerováno v červenci 2012)
- ngram TAB rok TAB match_count TAB volume_count NEWLINE
Prohlížeč Google Ngram Viewer používá k vykreslení grafu match_count.
Jako příklad lze uvést slovo „Wikipedia“ ze souboru verze 2 anglických 1 gramů takto:[14]
ngram | rok | match_count | objem_počet |
---|---|---|---|
Wikipedia | 1904 | 1 | 1 |
Wikipedia | 1912 | 11 | 1 |
Wikipedia | 1924 | 1 | 1 |
Wikipedia | 1925 | 11 | 1 |
Wikipedia | 1929 | 11 | 1 |
Wikipedia | 1943 | 11 | 1 |
Wikipedia | 1946 | 11 | 1 |
Wikipedia | 1947 | 11 | 1 |
Wikipedia | 1949 | 11 | 1 |
Wikipedia | 1951 | 11 | 1 |
Wikipedia | 1953 | 22 | 2 |
Wikipedia | 1955 | 11 | 1 |
Wikipedia | 1958 | 1 | 1 |
Wikipedia | 1961 | 22 | 2 |
Wikipedia | 1964 | 22 | 2 |
Wikipedia | 1965 | 11 | 1 |
Wikipedia | 1966 | 15 | 2 |
Wikipedia | 1969 | 33 | 3 |
Wikipedia | 1970 | 129 | 4 |
Wikipedia | 1971 | 44 | 4 |
Wikipedia | 1972 | 22 | 2 |
Wikipedia | 1973 | 1 | 1 |
Wikipedia | 1974 | 2 | 1 |
Wikipedia | 1975 | 33 | 3 |
Wikipedia | 1976 | 11 | 1 |
Wikipedia | 1977 | 13 | 3 |
Wikipedia | 1978 | 11 | 1 |
Wikipedia | 1979 | 112 | 12 |
Wikipedia | 1980 | 13 | 4 |
Wikipedia | 1982 | 11 | 1 |
Wikipedia | 1983 | 3 | 2 |
Wikipedia | 1984 | 48 | 3 |
Wikipedia | 1985 | 37 | 3 |
Wikipedia | 1986 | 6 | 4 |
Wikipedia | 1987 | 13 | 2 |
Wikipedia | 1988 | 14 | 3 |
Wikipedia | 1990 | 12 | 2 |
Wikipedia | 1991 | 8 | 5 |
Wikipedia | 1992 | 1 | 1 |
Wikipedia | 1993 | 1 | 1 |
Wikipedia | 1994 | 23 | 3 |
Wikipedia | 1995 | 4 | 1 |
Wikipedia | 1996 | 23 | 3 |
Wikipedia | 1997 | 6 | 1 |
Wikipedia | 1998 | 32 | 10 |
Wikipedia | 1999 | 39 | 11 |
Wikipedia | 2000 | 43 | 12 |
Wikipedia | 2001 | 59 | 14 |
Wikipedia | 2002 | 105 | 19 |
Wikipedia | 2003 | 149 | 53 |
Wikipedia | 2004 | 803 | 285 |
Wikipedia | 2005 | 2964 | 911 |
Wikipedia | 2006 | 9818 | 2655 |
Wikipedia | 2007 | 20017 | 5400 |
Wikipedia | 2008 | 33722 | 6825 |
Graf vykreslený prohlížečem Google Ngram Viewer pomocí výše uvedených údajů je zde:[15]
Kritika
Soubor dat byl kritizován za to, že se spoléhal na nepřesnost OCR, nadbytek vědecké literatury, a za zahrnutí velkého množství nesprávně datovaných a kategorizovaných textů.[16][17] Z důvodu těchto chyb a proto, že je nekontrolovaný pro zkreslení[18] (jako je rostoucí množství vědecké literatury, která způsobuje pokles popularity jiných termínů), je riskantní používat tento korpus ke studiu jazyka nebo k testování teorií.[19] Protože soubor dat nezahrnuje metadata, nemusí odrážet obecné jazykové nebo kulturní změny[20] a může jen naznačit takový účinek.
Byly navrženy pokyny pro provádění výzkumu s údaji z Google Ngram, které řeší mnoho výše diskutovaných problémů.[21]
Problémy s OCR
Optické rozpoznávání znaků neboli OCR není vždy spolehlivé a některé znaky nemusí být správně naskenovány. Zejména systémové chyby, jako je záměna „s“ a „f“ v textech před 19. stoletím (kvůli použití dlouhá s který měl podobný vzhled jako „f“) může způsobit systémové zkreslení. Ačkoli Google Ngram Viewer tvrdí, že výsledky jsou spolehlivé od roku 1800, špatné OCR a nedostatečné údaje znamenají, že frekvence udávané pro jazyky, jako je čínština, mohou být přesné pouze od roku 1970, přičemž dřívější části korpusu pro běžné výrazy nevykazují vůbec žádné výsledky a data za několik let obsahující více než 50% šumu.[22][23]
Viz také
Reference
- ^ „Kvantitativní analýza kultury pomocí milionů digitalizovaných knih“ JB Michel a kol., Science 2011, DOI: 10.1126 / science.1199644[1]
- ^ A b C „Databáze Google Ngram sleduje popularitu 500 miliard slov“ Huffington Post, 17. prosince 2010, webová stránka: HP8150.
- ^ A b „Google Ngram Viewer: Time time for wordplay“, Cnet.com, 17. prosince 2010, webová stránka: CN93.
- ^ „Obrázek má hodnotu 500 miliard slov - autor Rusty S. Thompson“, HarrisburgMagazine.com, 20. září 2011, webová stránka: HBMag20[trvalý mrtvý odkaz ].
- ^ Google SearchLiaison. „Prohlížeč Google Books Ngram Viewer byl nyní do roku 2019 aktualizován o nová data.“. Cvrlikání. Citováno 2020-08-11.
- ^ A b „Google Books Ngram Viewer - University at Buffalo Libraries“, Lib.Buffalo.edu, 22. srpna 2011, webová stránka: Buf497 Archivováno 02.07.2013 na Wayback Machine.
- ^ A b Informační stránka Google Books Ngram Viewer: https://books.google.com/ngrams/info
- ^ „Google Ngram Viewer - Knihy Google“, Books.Google.com, květen 2012, webová stránka: G-Ngramy.
- ^ A b C d E F „Google Ngram Viewer - Knihy Google“ (informace), Books.Google.com, 16. prosince 2010, webová stránka: G-Ngrams-informace: poznámky bigrams a použití uvozovek pro slova s apostrofy.
- ^ Greenfield P. M. (2013). Měnící se psychologie kultury od roku 1800 do roku 2000. Psychological Science, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387
- ^ Younes, N., & Reips, U.-D. (2018). Měnící se psychologie kultury v Německu: studie Google Ngram. International Journal of Psychology, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
- ^ RSA (4. února 2010). „Steven Pinker - Věc myšlení: Jazyk jako okno do lidské přirozenosti“ - přes YouTube.
- ^ „Google Books Ngram Viewer“.
- ^ googlebooks-eng-all-1gram-20120701-w.gz na http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- ^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
- ^ Google Ngrams: OCR a metadata Archivováno 2016-04-27 na Wayback Machine. ResourceShelf, 19. prosince 2010
- ^ Nunberg, Geoff (16. prosince 2010). „Humanitní výzkum s korpusem Knih Google“. Archivovány od originál dne 10. března 2016.
- ^ Pechenick, Eitan Adam; Danforth, Christopher M .; Dodds, Peter Sheridan; Barrat, Alain (7. října 2015). „Charakterizace korpusu Knih Google: Silná omezení pro závěry sociokulturní a jazykové evoluce“. PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. doi:10.1371 / journal.pone.0137041. PMC 4596490. PMID 26445406.
- ^ Zhang, Sarah. „Úskalí používání Google Ngram ke studiu jazyka“. WIRED. Citováno 2017-05-24.
- ^ Koplenig, Alexander (02.09.2015). „Dopad chybějících metadat pro měření kulturních a jazykových změn pomocí datových souborů Google Ngram - rekonstrukce složení německého korpusu v dobách druhé světové války“. Digitální stipendium v humanitních oborech (zveřejněno 2017-04-01). 32 (1): 169–188. doi:10.1093 / llc / fqv037. ISSN 2055-7671.
- ^ Younes, N., & Reips, U.-D. (2019). Pokyny pro zvýšení spolehlivosti studií Google Ngram: Důkazy z náboženských pojmů. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
- ^ Google n-gramy a pre-moderní čínština. digitalsinology.org.
- ^ Když se n-gramy pokazí. digitalsinology.org.
Bibliografie
- Lin, Yuri; et al. (Červenec 2012). „Syntaktické poznámky k korpusu Knih Google Ngram“ (PDF). Sborník z 50. výročního zasedání. Demo papíry. Jeju, Korejská republika: Sdružení pro výpočetní lingvistiku. 2: 169–174. 2390499.
Bílý papír představujeme vydání Knih Google Ngram Corpus pro rok 2012