Zákon Zipfs - Zipfs law - Wikipedia
Funkce pravděpodobnostní hmotnosti Zipf PMF pro N = 10 na stupnici log – log. Vodorovná osa je index k . (Upozorňujeme, že funkce je definována pouze při celočíselných hodnotách k. Spojovací linky neznamenají kontinuitu.) | |||
Funkce kumulativní distribuce Zipf CDF pro N = 10. Vodorovná osa je index k . (Upozorňujeme, že funkce je definována pouze při celočíselných hodnotách k. Spojovací linky neznamenají kontinuitu.) | |||
Parametry | (nemovitý ) (celé číslo ) | ||
---|---|---|---|
Podpěra, podpora | |||
PMF | kde HN, s je Nzobecněný harmonické číslo | ||
CDF | |||
Znamenat | |||
Režim | |||
Rozptyl | |||
Entropie | |||
MGF | |||
CF |
Zipfův zákon (/zɪF/, ne /tsɪpF/ stejně jako v němčině) je empirický zákon formulováno pomocí matematická statistika to odkazuje na skutečnost, že mnoho typů údajů studovaných v EU fyzický a sociální vědy lze aproximovat Zipfianovou distribucí, jednou z rodiny příbuzných diskrétních mocenský zákon rozdělení pravděpodobnosti. Distribuce Zipf souvisí s distribuce zeta, ale není totožný.
Zipfův zákon byl původně formulován ve smyslu kvantitativní lingvistika, s uvedením, že vzhledem k některým korpus z přirozený jazyk promluvy, frekvence jakéhokoli slova je nepřímo úměrné do své pozice v frekvenční tabulka. Nejčastější slovo se tedy bude vyskytovat přibližně dvakrát častěji než druhé nejčastější slovo, třikrát častěji než třetí nejčastější slovo atd.: rozdělení frekvence podle pořadí je inverzní vztah. Například v Hnědý korpus textu z americké angličtiny, slovo „the „je nejčastěji se vyskytujícím slovem a samo o sobě představuje téměř 7% všech výskytů slov (69 971 z něco málo přes 1 milion). V souladu se Zipfovým zákonem, slovo na druhém místě“z„odpovídá za něco málo přes 3,5% slov (36 411 výskytů), následovaných“a"(28 852). K pokrytí poloviny Hnědého korpusu je zapotřebí pouze 135 položek slovní zásoby."[1]
Zákon je pojmenován po Američanovi lingvista George Kingsley Zipf (1902–1950), který ji popularizoval a snažil se ji vysvětlit (Zipf 1935, 1949), ačkoli netvrdil, že ji vytvořil.[2] Francouzský stenograf Jean-Baptiste Estoup (1868–1950) si zřejmě všiml pravidelnosti před Zipfem.[3][není ověřeno v těle ] To bylo také uvedeno v roce 1913 německým fyzikem Felix Auerbach (1856–1933).[4]
Další soubory dat
Stejný vztah se vyskytuje v mnoha dalších žebříčcích systémů vytvořených člověkem[5], jako jsou řady matematických výrazů[6] nebo řady not v hudbě[7], a to i v nekontrolovaných prostředích, jako jsou populační řady měst v různých zemích, velikosti korporací, žebříčky příjmů, řady lidí sledujících stejný televizní kanál,[8] a tak dále. Vzhled distribuce v žebříčku měst podle počtu obyvatel si poprvé všiml Felix Auerbach v roce 1913.[4] Empiricky lze soubor dat otestovat a zkontrolovat, zda platí zákon Zipf dobrota fit empirického rozdělení na předpokládané rozdělení zákonu moci s a Kolmogorov – Smirnovův test a poté porovnání (log) pravděpodobnostního poměru distribuce zákonů moci k alternativním distribucím, jako je exponenciální distribuce nebo lognormální distribuce.[9] Při kontrole Zipfova zákona pro města byla nalezena lepší shoda s exponentem s = 1,07; tj největší osada je velikost největší osady.
Teoretický přehled
Zipfův zákon je nejsnadněji dodržován spiknutí data na a log-log graf s osami log (pořadí pořadí) a log (frekvence). Například slovo "the" (jak je popsáno výše) se objeví na X = log (1), y = log (69971). Je také možné vykreslit vzájemné pořadí proti frekvenci nebo reciproční frekvenci nebo mezislovní interval proti pořadí.[2] Údaje odpovídají zákonu Zipf v rozsahu, v jakém je graf lineární.
Formálně nechte:
- N být počet prvků;
- k být jejich hodností;
- s být hodnotou exponenta charakterizujícího rozdělení.
Zipfův zákon to pak předpovídá z populace N prvky, normalizovaná frekvence prvku pořadí k, F(k;s,N), je:
Zipfův zákon platí, pokud počet prvků s danou frekvencí je náhodná proměnná s distribucí zákonů moci [10]
Tvrdilo se, že toto vyjádření Zipfova zákona je vhodnější pro statistické testování, a tímto způsobem bylo analyzováno ve více než 30 000 anglických textech. Testy shody ukazují, že pouze asi 15% textů je statisticky slučitelných s touto formou Zipfova zákona. Mírné odchylky v definici Zipfova zákona mohou toto procento zvýšit až na téměř 50%.[11]
V příkladu četnosti slov v anglickém jazyce N je počet slov v anglickém jazyce, a pokud použijeme klasickou verzi Zipfova zákona, tak exponent s je 1. F(k; s,N) pak bude zlomek času kvyskytuje se nejběžnější slovo.
Zákon může být také napsán:
kde HN, s je Nth zobecněné harmonické číslo.
Nejjednodušší případ Zipfova zákona je „1/F"Funkce. Vzhledem k sadě distribuovaných frekvencí Zipfian, seřazených od nejběžnějších po nejméně běžné, se druhá nejběžnější frekvence bude vyskytovat o polovinu častěji než první, třetí nejčastější frekvence 1/3 tak často jako první a nnastane nejběžnější frekvence 1/n tak často jako první. To však nemůže přesně držet, protože položky se musí vyskytovat celé číslo; nemůže existovat 2,5 výskytů slova. Přesto v poměrně širokém rozsahu a při docela dobré aproximaci se mnoho přírodních jevů řídí Zipfovým zákonem.
V lidských jazycích mají slovní frekvence velmi těžce sledovanou distribuci, a lze je tedy přiměřeně dobře modelovat distribucí Zipf s s téměř 1.
Dokud exponent s přesahuje 1, je možné, aby takový zákon držel nekonečně mnoho slov, protože pokud s > 1 potom
kde ζ je Riemannova funkce zeta.
Statistické vysvětlení
Ačkoli Zipfův zákon platí pro všechny jazyky, i ty nepřirozené esperanto,[12] důvod stále není dobře pochopen.[13] Lze to však částečně vysvětlit statistickou analýzou náhodně generovaných textů. Wentian Li ukázal, že v dokumentu, ve kterém byl každý znak náhodně vybrán z jednotného rozložení všech písmen (plus znak mezery), „slova“ s různou délkou sledují makrotrend Zipfova zákona (čím je pravděpodobnější slova jsou nejkratší se stejnou pravděpodobností).[14] Vitold Belevitch, v příspěvku s názvem O statistických zákonech lingvistické distribuce, nabízí matematickou derivaci. Vzal velkou třídu dobře vychovaných statistické rozdělení (nejen normální distribuce ) a vyjádřil je z hlediska hodnosti. Poté rozšířil každý výraz do a Taylor série. V každém případě Belevitch dosáhl pozoruhodného výsledku, že zkrácení série prvního řádu mělo za následek Zipfův zákon. Dále mělo za následek zkrácení Taylorovy řady druhého řádu Mandelbrotův zákon.[15][16]
The zásada nejmenšího úsilí je další možné vysvětlení: Zipf sám navrhl, že ani mluvčí, ani posluchači používající daný jazyk nechtějí pracovat o nic víc, než je nutné, aby dosáhli porozumění, a proces, jehož výsledkem je přibližně stejné rozdělení úsilí, vede k pozorovanému rozdělení Zipf.[17][18]
Podobně, preferenční přílohu (intuitivně „bohatí zbohatnou“ nebo „úspěch plodí úspěch“), jehož výsledkem je Distribuce Yule – Simon bylo prokázáno, že odpovídá jazykové frekvenci versus pořadí v jazyce[19] a počet obyvatel versus městská hodnost[20] lepší než Zipfův zákon. To bylo původně odvozeno vysvětlit populaci versus hodnost v druhu Yule, a aplikován na města Simon.
Související zákony
Zipfův zákon ve skutečnosti obecněji odkazuje na distribuci kmitočtů "hodnotových dat", ve kterých relativní frekvence nth-hodnocená položka je dána distribuce zeta, 1/(nsζ(s)), kde je parametr s > 1 indexuje členy této rodiny rozdělení pravděpodobnosti. Vskutku, Zipfův zákon je někdy synonymem pro „zeta distribution“, protože pravděpodobnostní distribuce se někdy nazývají „zákony“. Tato distribuce se někdy nazývá Zipfian rozdělení.
Zobecněním Zipfova zákona je Zákon Zipf – Mandelbrot, navrhl Benoit Mandelbrot, jehož frekvence jsou:
„Konstanta“ je převrácená hodnota Funkce Hurwitz zeta hodnoceno na s. V praxi, jak je snadno pozorovatelný na distribučních grafech pro velké korpusy, lze pozorovanou distribuci modelovat přesněji jako součet samostatných distribucí pro různé podmnožiny nebo podtypy slov, která následují po různých parametrizacích distribuce Zipf – Mandelbrot, zejména uzavřené třídy exponátu funkčních slov s nižší než 1, zatímco růst otevřené slovní zásoby s velikostí dokumentu a velikostí korpusu vyžaduje s větší než 1 pro konvergenci Zobecněná harmonická řada.[2]
Zipfian distribuce lze získat z Pareto distribuce výměnou proměnných.[10]
Distribuce Zipf se někdy nazývá diskrétní Paretova distribuce[21] protože je analogický s kontinuem Paretova distribuce stejným způsobem jako diskrétní rovnoměrné rozdělení je analogický s kontinuální rovnoměrné rozdělení.
Ocasní frekvence Distribuce Yule – Simon jsou přibližně
pro jakoukoli volbu ρ > 0.
V parabolická distribuce fraktálů, logaritmus frekvence je kvadratický polynom logaritmu hodnosti. To může výrazně zlepšit přizpůsobení přes jednoduchý vztah moci a práva.[22] Stejně jako fraktální dimenze je možné vypočítat dimenzi Zipf, což je užitečný parametr při analýze textů.[23]
To bylo argumentoval, že Benfordův zákon je zvláštní omezený případ Zipfova zákona,[22] přičemž souvislost mezi těmito dvěma zákony je vysvětlena jejich oběma pocházejícími z neměnných funkčních vztahů stupnice ze statistické fyziky a kritických jevů.[24] Poměry pravděpodobností podle Benfordova zákona nejsou konstantní. Přední číslice dat splňující Zipfův zákon s s = 1 splňují Benfordův zákon.
Benfordův zákon: | ||
---|---|---|
1 | 0.30103000 | |
2 | 0.17609126 | −0.7735840 |
3 | 0.12493874 | −0.8463832 |
4 | 0.09691001 | −0.8830605 |
5 | 0.07918125 | −0.9054412 |
6 | 0.06694679 | −0.9205788 |
7 | 0.05799195 | −0.9315169 |
8 | 0.05115252 | −0.9397966 |
9 | 0.04575749 | −0.9462848 |
Aplikace
v teorie informace, symbol (událost, signál) pravděpodobnosti obsahuje bity informací. Zipfův zákon pro přirozená čísla: je ekvivalentní s číslem obsahující kousky informací. Chcete-li přidat informace ze symbolu pravděpodobnosti do informací již uložených v přirozeném čísle , měli bychom jít do takhle nebo ekvivalentně . Například ve standardním binárním systému bychom měli , pro co je optimální rozdělení pravděpodobnosti. Použitím pravidlo pro obecné rozdělení pravděpodobnosti je základem Asymetrické číselné systémy rodina entropické kódování metody používané v komprese dat, která distribuce státu se rovněž řídí zákonem Zipf.
Zipfův zákon byl použit pro extrakci paralelních fragmentů textů ze srovnatelných korpusů.[25] Zipfův zákon byl také použit Laurance Doyle a další v Institut SETI jako součást hledat mimozemskou inteligenci.[26]
Viz také
- 1% pravidlo (internetová kultura)
- Benfordův zákon
- Bradfordův zákon
- Stručný zákon
- Demografická gravitace
- Seznam frekvencí
- Gibratův zákon
- Hapax legomenon
- Haldův zákon
- Králův efekt
- Lorenzova křivka
- Lotkův zákon
- Menzerathův zákon
- Paretova distribuce
- Paretův princip, aka „pravidlo 80–20“
- Priceův zákon
- Zásada nejmenšího úsilí
- Distribuce podle velikosti
- Stiglerův zákon eponymie
Reference
- ^ Fagan, Stephen; Gençay, Ramazan (2010), „Úvod do textové ekonometrie“, Ullah, Aman; Giles, David E. A. (eds.), Příručka empirické ekonomiky a financí, CRC Press, str. 133–153, ISBN 9781420070361. 139: „Například v Brown Corpus, který se skládá z více než jednoho milionu slov, polovina objemu slov sestává z opakovaného použití pouze 135 slov.“
- ^ A b C Powers, David M W (1998). „Aplikace a vysvětlení zákona Zipf“. Sdružení pro počítačovou lingvistiku: 151–160. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Christopher D. Manning, Hinrich Schütze Základy statistického zpracování přirozeného jazyka, MIT Press (1999), ISBN 978-0-262-13360-9, str. 24
- ^ A b Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann's Geographische Mitteilungen 59, 74–76
- ^ Piantadosi, Steven (25. března 2014). „Zákon Zipfova kmitočtu v přirozeném jazyce: kritická revize a další směry“. Psychon Bull Rev. 21 (5): 1112–1130. doi:10,3758 / s13423-014-0585-6. PMC 4176592. PMID 24664880.
- ^ Greiner-Petter, André; Schubotz, Moritz; Mueller, Fabian; Breitinger, Corinna; Cohl, Howard; Aizawa, Akiko; Gipp, Bela (20. dubna 2020). Objevování matematických objektů zájmu - studie matematických notací. Webová konference (WWW). Tchaj-pej, Tchaj-wan: ACM. arXiv:2002.02712. doi:10.1145/3366423.3380218.
- ^ Zanette, Damián H. (7. června 2004). „Zipfův zákon a tvorba hudebního kontextu“. arXiv:cs / 0406015.
- ^ M. Eriksson, S.M. Hasibur Rahman, F. Fraille, M. Sjöström, Efektivní interaktivní multicast přes DVB-T2 - využití dynamických SFN a PARPS Archivováno 02.05.2014 na Wayback Machine, 2013 IEEE International Conference on Computer and Information Technology (BMSB'13), London, UK, June 2013. Suggestes a heterogenene Zipf-law TV-selection model
- ^ Clauset, A., Shalizi, C. R. a Newman, M. E. J. (2009). Power-Law Distribuce v empirických datech. SIAM Review, 51 (4), 661–703. doi:10.1137/070710111
- ^ A b Adamic, Lada A. (2000) „Zipf, Power-zákony a Pareto - výukový program hodnocení“, původně publikováno na .parc.xerox.com Archivováno 2007-10-26 na Wayback Machine
- ^ Moreno-Sánchez, I; Font-Clos, F; Corral, A (2016). „Rozsáhlá analýza Zipfova zákona v anglických textech“. PLOS ONE. 11 (1): e0147073. arXiv:1509.04486. Bibcode:2016PLoSO..1147073M. doi:10.1371 / journal.pone.0147073. PMC 4723055. PMID 26800025.
- ^ Bill Manaris; Luca Pellicoro; George Pothering; Harland Hodges (13. února 2006). VYŠETŘOVÁNÍ STATISTICKÝCH PROPORCÍ ESPERANTA VZTAHUJÍCÍCH SE K JINÝM JAZYKŮM VYUŽÍVÁNÍM NEURÁLNÍCH SÍTÍ A ZÁKONŮ ZIPF (PDF). Umělá inteligence a aplikace. Innsbruck, Rakousko. 102–108. Archivováno (PDF) z původního dne 5. března 2016.
- ^ Léon Brillouin, La science et la théorie de l'information, 1959, réédité en 1988, traduction anglaise rééditée en 2004
- ^ Wentian Li (1992). „Náhodné texty vykazují distribuci kmitočtu slov podobnou Zipfovu zákonu“. Transakce IEEE na teorii informací. 38 (6): 1842–1845. CiteSeerX 10.1.1.164.8422. doi:10.1109/18.165464.
- ^ Neumann, Peter G. „Statistická metalingvistika a Zipf / Pareto / Mandelbrot“, SRI International Computer Science Laboratory, přístupné a archivováno 29. května 2011.
- ^ Belevitch V (18. prosince 1959). „O statistických zákonech jazykových distribucí“ (PDF). Annales de la Société Scientifique de Bruxelles. I. 73: 310–326.
- ^ Zipf GK (1949). Lidské chování a zásada nejméně úsilí. Cambridge, Massachusetts: Addison-Wesley. str. 1.
- ^ Ramon Ferrer i Cancho & Ricard V. Sole (2003). „Nejmenší úsilí a původ škálování v lidské řeči“. Sborník Národní akademie věd Spojených států amerických. 100 (3): 788–791. Bibcode:2003PNAS..100..788C. doi:10.1073 / pnas.0335980100. PMC 298679. PMID 12540826.
- ^ Lin, Ruokuang; Ma, Qianli D. Y .; Bian, Chunhua (2014). "Škálování zákonů v lidské řeči, snižování výskytu nových slov a zobecněný model". arXiv:1412.4846 [cs.CL ].
- ^ Vitanov, Nikolay K .; Ausloos, Marcel; Bian, Chunhua (2015). "Test dvou hypotéz vysvětlujících velikost populace v systému měst". Journal of Applied Statistics. 42 (12): 2686–2693. arXiv:1506.08535. Bibcode:2015arXiv150608535V. doi:10.1080/02664763.2015.1047744. S2CID 10599428.
- ^ N. L. Johnson; S. Kotz a A. W. Kemp (1992). Jednorozměrné diskrétní distribuce (druhé vydání). New York: John Wiley & Sons, Inc. ISBN 978-0-471-54897-3., str. 466.
- ^ A b Johan Gerard van der Galien (08.11.2003). „Faktoriální náhodnost: zákony Benforda a Zipfa s ohledem na rozdělení první číslice sekvence faktorů z přirozených čísel“. Archivovány od originál dne 05.03.2007. Citováno 8. července 2016.
- ^ Ali Eftekhari (2006) Fraktální geometrie textů. Journal of Quantitative Linguistic 13(2-3): 177–193.
- ^ L. Pietronero, E. Tosatti, V. Tosatti, A. Vespignani (2001) Vysvětlení nerovnoměrného rozdělení čísel v přírodě: Zákony Benforda a Zipfa. Physica A 293: 297–304.
- ^ Mohammadi, Mehdi (2016). „Paralelní identifikace dokumentů pomocí Zipfova zákona“ (PDF). Sborník devátého semináře o budování a používání srovnatelných korpusů. LREC 2016. Portorož, Slovinsko. 21–25. Archivováno (PDF) od originálu 23. 3. 2018.
- ^ Doyle, Laurance R .; Mao, Tianhua (18. 11. 2016). „Proč by mimozemský jazyk vynikal mezi veškerým hlukem vesmíru“. Nautilus čtvrtletně.
Další čtení
Hlavní:
- George K. Zipf (1949) Lidské chování a zásada nejméně úsilí. Addison-Wesley. "Online text [1] "
- George K. Zipf (1935) Psychobiologie jazyka. Houghton-Mifflin.
Sekundární:
- Alexander Gelbukh a Grigori Sidorov (2001) „Koeficienty zákonů Zipf a Heaps závisí na jazyku“. Proc. CICLing -2001, Konference o inteligentním zpracování textu a počítačové lingvistice„18. – 24. Února 2001, Mexico City. Přednášky v informatice N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
- Damián H. Zanette (2006) "Zipfův zákon a tvorba hudebního kontextu," Musicae Scientiae 10: 3–18.
- Frans J. Van Droogenbroeck (2016), Zacházení s distribucí Zipf v počítačovém atribuci autorství
- Frans J. Van Droogenbroeck (2019), Zásadní přeformulování zákona Zipf-Mandelbrot k řešení žádostí o autorské atribuce Gaussovou statistikou
- Kali R. (2003) „Město jako obří součást: náhodný grafický přístup k Zipfovu zákonu,“ Dopisy z aplikované ekonomie 10: 717–720(4)
- Gabaix, Xavieri (Srpen 1999). „Zipfův zákon pro města: vysvětlení“ (PDF). Čtvrtletní ekonomický časopis. 114 (3): 739–67. CiteSeerX 10.1.1.180.4097. doi:10.1162/003355399556133. ISSN 0033-5533.
- Axtell, Robert L; Zipf distribuce amerických firemních velikostí, Science, 293, 5536, 1818, 2001, Americká asociace pro rozvoj vědy
- Ramu Chenna, Toby Gibson; Vyhodnocení vhodnosti modelu Zipfian Gap pro párové sekvenční zarovnání, Mezinárodní konference o bioinformatice výpočetní biologie: 2011.
- Shyklo A. (2017); Jednoduché vysvětlení záhad Zipf prostřednictvím nové distribuce Rank-Share, odvozené z kombinatoriky hodnotícího procesu, Dostupné na SSRN: https://ssrn.com/abstract=2918642.
externí odkazy
Prostředky knihovny o Zipfův zákon |
Média související s Zipfův zákon na Wikimedia Commons
- Strogatz, Steven (2009-05-29). „Sloup pro hosty: Matematika a město“. The New York Times. Citováno 2009-05-29.—Článek o Zipfově zákoně platil pro obyvatelstvo měst
- Vidět kolem rohů (Umělé společnosti zavádějí Zipfův zákon)
- Článek PlanetMath o Zipfově zákoně
- Distribuce typu „fractal parabolique“ dans la Nature (francouzsky, s anglickým souhrnem)
- Analýza rozdělení příjmů
- Zipf Seznam francouzských slov
- Seznam Zipf pro angličtinu, francouzštinu, španělštinu, italštinu, švédštinu, islandštinu, latinu, portugalštinu a finštinu od Gutenberg Project a online kalkulačka pro řazení slov v textech
- Citace a zákon Zipf – Mandelbrot
- Příklady a modelování Zipfova zákona (1985)
- Složité systémy: Unzipping Zipfův zákon (2011)
- Benfordův zákon, Zipfův zákon a distribuce Pareto Terence Tao.
- „Zákon Zipf“, Encyclopedia of Mathematics, Stiskněte EMS, 2001 [1994]