Statistická významnost - Statistical significance
v statistické testování hypotéz,[1][2] výsledek má statistická významnost když je velmi nepravděpodobné, že by k tomu došlo nulová hypotéza.[3][4] Přesněji řečeno, studie je definována úroveň významnosti, označeno , je pravděpodobnost, že studie odmítne nulovou hypotézu, vzhledem k tomu, že se předpokládalo, že nulová hypotéza je pravdivá;[5] a str-hodnota výsledku, , je pravděpodobnost získání výsledku přinejmenším stejně extrémní, vzhledem k tomu, že nulová hypotéza je pravdivá.[6] Výsledek je statisticky významný, podle standardů studie, když .[7][8][9][10][11][12][13] Úroveň významnosti pro studii je zvolena před sběrem dat a je obvykle nastavena na 5%[14] nebo mnohem nižší - v závislosti na studijním oboru.[15]
V každém experiment nebo pozorování to zahrnuje kreslení a vzorek od a populace, vždy existuje možnost, že by došlo k pozorovanému účinku kvůli chyba vzorkování sama.[16][17] Ale pokud str-hodnota pozorovaného účinku je menší než (nebo se rovná) hladině významnosti, může vyšetřovatel dojít k závěru, že účinek odráží charakteristiky celé populace,[1] čímž odmítl nulovou hypotézu.[18]
Tato technika pro testování statistické významnosti výsledků byla vyvinuta na počátku 20. století. Termín význam zde neznamená význam a termín statistická významnost není stejný jako výzkumný, teoretický nebo praktický význam.[1][2][19][20] Například výraz klinický význam odkazuje na praktický význam účinku léčby.[21]
Dějiny
Statistická významnost se datuje do 17. století, v práci John Arbuthnot a Pierre-Simon Laplace, který vypočítal str-hodnota pro poměr lidského pohlaví při narození, za předpokladu nulové hypotézy o stejné pravděpodobnosti narození mužů a žen; vidět str-hodnota § historie pro detaily.[22][23][24][25][26][27][28]
V roce 1925 Ronald Fisher ve své publikaci rozšířil myšlenku testování statistických hypotéz, kterou nazval „testy významnosti“ Statistické metody pro výzkumné pracovníky.[29][30][31] Fisher navrhl pravděpodobnost jednoho z dvaceti (0,05) jako vhodnou mezní hladinu pro odmítnutí nulové hypotézy.[32] V článku z roku 1933 Jerzy Neyman a Egon Pearson nazval tento mezník úroveň významnosti, kterou pojmenovali . Doporučili to být nastaveny předem, před jakýmkoli sběrem dat.[32][33]
Navzdory svému počátečnímu návrhu 0,05 jako úrovně významnosti neměl Fisher v úmyslu tuto mezní hodnotu opravit. Ve své publikaci z roku 1956 Statistické metody a vědecké závěry, doporučil nastavit úrovně významnosti podle konkrétních okolností.[32]
Související pojmy
Úroveň významnosti je prahová hodnota pro pod kterou je nulová hypotéza odmítnuta, i když za předpokladu, že to byla pravda, a děje se něco jiného. Tohle znamená tamto je také pravděpodobnost mylného odmítnutí nulové hypotézy, pokud je nulová hypotéza pravdivá.[5] Tomu se také říká falešně pozitivní a chyba typu I..
Někdy vědci mluví o úroveň spolehlivosti y = (1 − α) namísto. To je pravděpodobnost, že neodmítnete nulovou hypotézu, protože je pravdivá.[34][35] Úrovně spolehlivosti a intervaly spolehlivosti zavedl Neyman v roce 1937.[36]
Role v testování statistických hypotéz

Statistická významnost hraje klíčovou roli při testování statistických hypotéz. Používá se k určení, zda nulová hypotéza by měla být zamítnuta nebo zachována. Nulová hypotéza je výchozím předpokladem, že se nic nestalo ani se nezměnilo.[37] Aby byla nulová hypotéza odmítnuta, musí být pozorovaný výsledek statisticky významný, tj. Pozorovaný str-hodnota je menší než předem určená úroveň významnosti .
K určení, zda je výsledek statisticky významný, vypočítá výzkumný pracovník a str-hodnota, což je pravděpodobnost pozorování účinku stejné nebo extrémnější hodnoty vzhledem k tomu, že nulová hypotéza je pravdivá.[6][13] Nulová hypotéza je odmítnuta, pokud str-hodnota je menší než (nebo rovná se) předem stanovené úrovni, . se také nazývá úroveň významnosti, a je pravděpodobnost odmítnutí nulové hypotézy za předpokladu, že je pravdivá (a chyba typu I. ). Obvykle je nastavena na 5% nebo méně.
Například když je nastavena na 5%, podmíněná pravděpodobnost a chyba typu I., vzhledem k tomu, že nulová hypotéza je pravdivá, je 5%,[38] a statisticky významný výsledek je ten, kde byl pozorován str-hodnota je menší než (nebo rovno) 5%.[39] Při čerpání dat ze vzorku to znamená, že oblast odmítnutí tvoří 5% Distribuce vzorků.[40] Těchto 5% lze přidělit jedné straně distribuce vzorkování, jako v bodě a jednostranný test, nebo rozdělené na obě strany distribuce, jako v a dvoustranný test, přičemž každý ocas (nebo oblast odmítnutí) obsahuje 2,5% distribuce.
Použití jednostranného testu závisí na tom, zda výzkumná otázka nebo alternativní hypotéza Určuje směr, například zda je skupina objektů těžší nebo výkon studentů na hodnocení je lepší.[3] Může být stále použit dvoustranný test, ale bude méně silný než jednostranný test, protože oblast odmítnutí pro jednostranný test je koncentrována na jednom konci nulové distribuce a je dvojnásobná velikost (5% vs. 2,5%) každé oblasti odmítnutí pro dvoustranný test. Výsledkem je, že nulová hypotéza může být odmítnuta s méně extrémním výsledkem, pokud byl použit jednostranný test.[41] Jednostranný test je výkonnější než dvoustranný, pouze pokud je správný zadaný směr alternativní hypotézy. Pokud je to však špatně, nemá jednostranný test žádnou sílu.
Prahové hodnoty významnosti v konkrétních polích
V konkrétních oblastech, jako je částicová fyzika a výrobní, statistická významnost je často vyjádřena v násobcích standardní odchylka nebo sigma (σ) a normální distribuce s prahovými hodnotami významnosti stanovenými na mnohem přísnější úrovni (napřσ).[42][43] Například jistota Higgsův boson existence částice byla založena na 5σ kritérium, které odpovídá a str- hodnota asi 1 ku 3,5 milionu.[43][44]
V dalších oblastech vědeckého výzkumu, jako je genomové asociační studie, úrovně významnosti tak nízké, jak 5×10−8 nejsou neobvyklé[45][46]- jelikož počet provedených testů je extrémně vysoký.
Omezení
Výzkumníci, kteří se zaměřují pouze na to, zda jsou jejich výsledky statisticky významné, mohou hlásit nálezy, které nejsou věcné[47] a nelze je replikovat.[48][49] Rozdíl je také mezi statistickou významností a praktickou významností. Studie, která je shledána statisticky významnou, nemusí být nutně prakticky významná.[50][20]
Velikost efektu
Velikost efektu je měřítkem praktického významu studie.[50] Statisticky významný výsledek může mít slabý účinek. Aby bylo možné posoudit význam jejich výsledků pro výzkum, doporučuje se vědcům vždy hlásit velikost efektu spolu s str-hodnoty. Míra velikosti efektu kvantifikuje sílu efektu, jako je vzdálenost mezi dvěma prostředky v jednotkách standardní odchylky (srov. Cohenův d ), korelační koeficient mezi dvěma proměnnými nebo jeho náměstí a další opatření.[51]
Reprodukovatelnost
Statisticky významný výsledek nemusí být snadné reprodukovat.[49] Zejména některé statisticky významné výsledky budou ve skutečnosti falešně pozitivní. Každý neúspěšný pokus o reprodukci výsledku zvyšuje pravděpodobnost, že výsledek byl falešně pozitivní.[52]
Výzvy
Nadužívání v některých časopisech
Od roku 2010 se některé časopisy začaly ptát, zda testování významnosti, zejména s použitím prahové hodnoty α= 5%, se příliš spoléhalo na primární měřítko platnosti hypotézy.[53] Některé časopisy vyzývají autory, aby provedli podrobnější analýzu než jen test statistické významnosti. V sociální psychologii časopis Základní a aplikovaná sociální psychologie úplně zakázal používání testů významnosti z článků, které zveřejnil,[54] vyžadující, aby autoři použili jiná opatření k vyhodnocení hypotéz a dopadu.[55][56]
Ostatní redaktoři, komentující tento zákaz, poznamenali: „Zákaz podávání zpráv o str- hodnoty, jak to nedávno udělala Základní a aplikovaná sociální psychologie, problém nevyřeší, protože pouze léčí symptom problému. Na testování hypotéz a není nic špatného str-hodnoty samy o sobě, pokud je autoři, recenzenti a redaktoři akcí používají správně. "[57] Někteří statistici upřednostňují alternativní důkazní prostředky, jako např poměry pravděpodobnosti nebo Bayesovy faktory.[58] Použitím Bayesovské statistiky může se vyhnout hladinám spolehlivosti, ale vyžaduje také vytvoření dalších předpokladů,[58] a nemusí nutně zlepšit praxi týkající se statistického testování.[59]
Rozšířené zneužívání statistické významnosti představuje důležité téma výzkumu v metascience.[60]
Předefinování významu
V roce 2016 Americká statistická asociace (ASA) zveřejnila prohlášení dne str-hodnoty, které říkají, že „rozšířené používání„ statistické významnosti “(obecně interpretované jako„str ≤ 0,05 ') jako licence pro uplatnění nároku na vědecký nález (nebo implikovanou pravdu) vede ke značnému narušení vědeckého procesu “.[58] V roce 2017 skupina 72 autorů navrhla zlepšit reprodukovatelnost změnou strprahová hodnota pro statistickou významnost od 0,05 do 0,005.[61] Jiní vědci odpověděli, že zavedení přísnější prahové hodnoty významnosti by zhoršilo problémy, jako je bagrování dat; alternativní návrhy tedy spočívají v pružném výběru a zdůvodnění str- prahové hodnoty před sběrem dat,[62] nebo tlumočit str-hodnoty jako spojité indexy, čímž se zbavují prahových hodnot a statistické významnosti.[63] Změna na 0,005 by navíc zvýšila pravděpodobnost falešných negativů, přičemž studovaný účinek je skutečný, ale test ho neukáže.[64]
V roce 2019 podepsalo více než 800 statistiků a vědců zprávu požadující upuštění od termínu „statistická významnost“ ve vědě,[65] a Americká statistická asociace zveřejnila další oficiální prohlášení [66] deklarace (strana 2):
Na základě přehledu článků v tomto zvláštním čísle a širší literatury jsme dospěli k závěru, že je čas přestat úplně používat výraz „statisticky významný“. Rovněž by neměly být varianty jako „výrazně odlišné“ “„“ a „bezvýznamné“ přežít, ať už vyjádřeno slovy, hvězdičkami v tabulce, nebo jiným způsobem.
Viz také
- A / B testování, Test ABX
- Fisherova metoda pro kombinování nezávislý testy význam
- Efekt look-else
- Problém s více srovnáními
- Velikost vzorku
- Klam ostrostřelců v Texasu (uvádí příklady testů, u kterých byla nastavena příliš vysoká úroveň významnosti)
Reference
- ^ A b C Sirkin, R. Mark (2005). "Dva vzorky t testů". Statistika pro sociální vědy (3. vyd.). Thousand Oaks, CA: SAGE Publications, Inc. str. 271–316. ISBN 978-1-412-90546-6.
- ^ A b Borror, Connie M. (2009). "Statistické rozhodování". Příručka certifikovaného inženýra kvality (3. vyd.). Milwaukee, WI: ASQ Quality Press. 418–472. ISBN 978-0-873-89745-7.
- ^ A b Myers, Jerome L .; Arnold D .; Lorch Jr., Robert F. (2010). "Rozvoj základů testování hypotéz pomocí binomické distribuce". Návrh výzkumu a statistická analýza (3. vyd.). New York, NY: Routledge. str. 65–90. ISBN 978-0-805-86431-1.
- ^ „Podklad pro statistickou významnost“. Matematický trezor. 2017-04-30. Citováno 2019-11-11.
- ^ A b Dalgaard, Peter (2008). Msgstr "Síla a výpočet velikosti vzorku". Úvodní statistika s R.. Statistiky a výpočty. New York: Springer. 155–56. doi:10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4.
- ^ A b „Statistické testování hypotéz“. www.dartmouth.edu. Citováno 2019-11-11.
- ^ Johnson, Valen E. (9. října 2013). „Revidované standardy pro statistické důkazy“. Sborník Národní akademie věd. 110 (48): 19313–19317. doi:10.1073 / pnas.1313476110. PMC 3845140. PMID 24218581. Citováno 3. července 2014.
- ^ Redmond, Carol; Colton, Theodore (2001). "Klinická významnost versus statistická významnost". Biostatistika v klinických studiích. Wiley Reference Series in Biostatistics (3. vydání). West Sussex, Velká Británie: John Wiley & Sons Ltd. str. 35–36. ISBN 978-0-471-82211-0.
- ^ Cumming, Geoff (2012). Porozumění novým statistikám: velikosti efektů, intervaly spolehlivosti a metaanalýza. New York, USA: Routledge. 27–28.
- ^ Krzywinski, Martin; Altman, Naomi (30. října 2013). "Body významnosti: Význam, hodnoty P a t-testy". Přírodní metody. 10 (11): 1041–1042. doi:10.1038 / nmeth.2698. PMID 24344377.
- ^ Sham, Pak C .; Purcell, Shaun M (17. dubna 2014). "Statistické testování síly a významnosti ve velkých genetických studiích". Genetika hodnocení přírody. 15 (5): 335–346. doi:10.1038 / nrg3706. PMID 24739678.
- ^ Altman, Douglas G. (1999). Praktická statistika pro lékařský výzkum. New York, USA: Chapman & Hall / CRC. str.167. ISBN 978-0412276309.
- ^ A b Devore, Jay L. (2011). Pravděpodobnost a statistika pro strojírenství a vědy (8. vydání). Boston, MA: Cengage Learning. 300–344. ISBN 978-0-538-73352-6.
- ^ Craparo, Robert M. (2007). "Úroveň důležitosti". In Salkind, Neil J. (ed.). Encyclopedia of Measurement and Statistics. 3. Thousand Oaks, CA: Publikace SAGE. 889–891. ISBN 978-1-412-91611-0.
- ^ Sproull, Natalie L. (2002). „Testování hypotéz“. Příručka výzkumných metod: Průvodce pro odborníky a studenty v sociálních vědách (2. vyd.). Lanham, MD: Scarecrow Press, Inc. str.49–64. ISBN 978-0-810-84486-5.
- ^ Babbie, Earl R. (2013). Msgstr "Logika vzorkování". Praxe sociálního výzkumu (13. vydání). Belmont, CA: Cengage Learning. 185–226. ISBN 978-1-133-04979-1.
- ^ Faherty, Vincent (2008). "Pravděpodobnost a statistická významnost". Soucitná statistika: Aplikovaná kvantitativní analýza pro sociální služby (s cvičeními a pokyny v SPSS) (1. vyd.). Thousand Oaks, CA: SAGE Publications, Inc. s. 127–138. ISBN 978-1-412-93982-9.
- ^ McKillup, Steve (2006). „Pravděpodobnost vám pomůže rozhodnout o svých výsledcích.“. Statistiky vysvětleny: Úvodní průvodce pro vědce o životě (1. vyd.). Cambridge, Velká Británie: Cambridge University Press. str.44–56. ISBN 978-0-521-54316-3.
- ^ Myers, Jerome L .; Arnold D .; Lorch Jr, Robert F. (2010). "Distribuce t a její aplikace". Návrh výzkumu a statistická analýza (3. vyd.). New York, NY: Routledge. str. 124–153. ISBN 978-0-805-86431-1.
- ^ A b Hooper, Peter. „Co je to P-hodnota?“ (PDF). University of Alberta, Department of Mathematical and Statistics Sciences. Citováno 10. listopadu 2019.
- ^ Leung, W.-C. (2001-03-01). „Vyvážení statistické a klinické významnosti při hodnocení účinků léčby“. Postgraduální lékařský deník. 77 (905): 201–204. doi:10.1136 / pmj.77.905.201. ISSN 0032-5473. PMC 1741942. PMID 11222834.
- ^ Brian, Éric; Jaisson, Marie (2007). „Fyzikálně-teologická a matematická (1710–1794)“. Sestup poměru lidského pohlaví při narození. Springer Science & Business Media. s. 1–25. ISBN 978-1-4020-6036-6.
- ^ John Arbuthnot (1710). „Argument pro božskou prozřetelnost, převzatý z neustálé pravidelnosti pozorované při narození obou pohlaví“ (PDF). Filozofické transakce Královské společnosti v Londýně. 27 (325–336): 186–190. doi:10.1098 / rstl.1710.0011.
- ^ Conover, W. J. (1999), „Kapitola 3.4: Test znamení“, Praktická neparametrická statistika (Třetí vydání), Wiley, str. 157–176, ISBN 978-0-471-16068-7
- ^ Sprent, P. (1989), Aplikované neparametrické statistické metody (Druhé vydání), Chapman & Hall, ISBN 978-0-412-44980-2
- ^ Stigler, Stephen M. (1986). Historie statistiky: Měření nejistoty před rokem 1900. Harvard University Press. str.225–226. ISBN 978-0-67440341-3.
- ^ Bellhouse, P. (2001), „John Arbuthnot“, ve statistikách staletí C.C. Heyde a E. Seneta, Springer, str. 39–42, ISBN 978-0-387-95329-8
- ^ Hald, Anders (1998), „Kapitola 4. Šance nebo design: Zkoušky významnosti“, Historie matematické statistiky od roku 1750 do roku 1930, Wiley, str. 65
- ^ Cumming, Geoff (2011). "Od významu nulové hypotézy po testování velikosti efektů". Porozumění novým statistikám: velikosti efektů, intervaly spolehlivosti a metaanalýza. Série vícerozměrných aplikací. East Sussex, Velká Británie: Routledge. 21–52. ISBN 978-0-415-87968-2.
- ^ Fisher, Ronald A. (1925). Statistické metody pro výzkumné pracovníky. Edinburgh, Velká Británie: Oliver a Boyd. str.43. ISBN 978-0-050-02170-5.
- ^ Poletiek, Fenna H. (2001). "Formální teorie testování". Chování při testování hypotéz. Eseje z kognitivní psychologie (1. vyd.). East Sussex, Velká Británie: Psychology Press. str. 29–48. ISBN 978-1-841-69159-6.
- ^ A b C Quinn, Geoffrey R .; Keough, Michael J. (2002). Experimentální design a analýza dat pro biology (1. vyd.). Cambridge, Velká Británie: Cambridge University Press. str.46–69. ISBN 978-0-521-00976-8.
- ^ Neyman, J .; Pearson, E.S. (1933). "Testování statistických hypotéz ve vztahu k pravděpodobnostem a priori". Mathematical Proceedings of the Cambridge Philosophical Society. 29 (4): 492–510. doi:10.1017 / S030500410001152X.
- ^ „Závěry o statistické významnosti jsou možné pomocí intervalu spolehlivosti. Pokud interval spolehlivosti nezahrnuje hodnotu nulového efektu, lze předpokládat, že existuje statisticky významný výsledek.“ Prel, Jean-Baptist du; Hommel, Gerhard; Röhrig, Bernd; Blettner, Maria (2009). „Interval spolehlivosti nebo P-hodnota?“. Deutsches Ärzteblatt online. 106 (19): 335–9. doi:10.3238 / arztebl.2009.0335. PMC 2689604. PMID 19547734.
- ^ StatNews # 73: Překrývající se intervaly spolehlivosti a statistická významnost
- ^ Neyman, J. (1937). „Nástin teorie statistického odhadu na základě klasické teorie pravděpodobnosti“. Filozofické transakce královské společnosti A. 236 (767): 333–380. doi:10.1098 / rsta.1937.0005. JSTOR 91337.
- ^ Meier, Kenneth J .; Brudney, Jeffrey L .; Bohte, John (2011). Aplikovaná statistika pro veřejnou a neziskovou správu (3. vyd.). Boston, MA: Cengage Learning. 189–209. ISBN 978-1-111-34280-7.
- ^ Healy, Joseph F. (2009). Základy statistiky: Nástroj pro sociální výzkum (2. vyd.). Belmont, CA: Cengage Learning. 177–205. ISBN 978-0-495-60143-2.
- ^ McKillup, Steve (2006). Statistiky vysvětleny: Úvodní průvodce pro vědce o životě (1. vyd.). Cambridge, Velká Británie: Cambridge University Press. str.32–38. ISBN 978-0-521-54316-3.
- ^ Zdraví, David (1995). Úvod do experimentálního designu a statistiky pro biologii (1. vyd.). Boston, MA: Tisk CRC. str. 123–154. ISBN 978-1-857-28132-3.
- ^ Hinton, Perry R. (2010). Msgstr "Význam, chyba a síla". Statistiky vysvětleny (3. vyd.). New York, NY: Routledge. str. 79–90. ISBN 978-1-848-72312-2.
- ^ Vaughan, Simon (2013). Vědecká inference: Učení se z dat (1. vyd.). Cambridge, Velká Británie: Cambridge University Press. s. 146–152. ISBN 978-1-107-02482-3.
- ^ A b Bracken, Michael B. (2013). Riziko, šance a příčina: vyšetřování vzniku a léčby nemocí (1. vyd.). New Haven, CT: Yale University Press. str.260–276. ISBN 978-0-300-18884-4.
- ^ Franklin, Allan (2013). "Prolog: Vzestup sigmat". Standardy řazení: Experimenty v částicové fyzice ve dvacátém století (1. vyd.). Pittsburgh, PA: University of Pittsburgh Press. str. Ii – Iii. ISBN 978-0-822-94430-0.
- ^ Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (6. února 2011). „Základní statistická analýza v genetických studiích případové kontroly“. Přírodní protokoly. 6 (2): 121–33. doi:10.1038 / nprot.2010.182. PMC 3154648. PMID 21293453.
- ^ Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5. července 2012). „Pokyny pro asociační studie na celém genomu“. Genetika PLOS. 8 (7): e1002812. doi:10.1371 / journal.pgen.1002812. PMC 3390399. PMID 22792080.
- ^ Carver, Ronald P. (1978). „Případ proti testování statistické významnosti“. Harvard Educational Review. 48 (3): 378–399. doi:10,1763 / haer.48.3.t490261645281841.
- ^ Ioannidis, John P. A. (2005). „Proč je většina zveřejněných výsledků výzkumu nepravdivá“. PLOS Medicine. 2 (8): e124. doi:10.1371 / journal.pmed.0020124. PMC 1182327. PMID 16060722.
- ^ A b Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). „Země je plochá (p> 0,05): prahy významnosti a krize neopakovatelného výzkumu“. PeerJ. 5: e3544. doi:10,7717 / peerj.3544. PMC 5502092. PMID 28698825.
- ^ A b Hojat, Mohammadreza; Xu, Gang (2004). "Návštěvnický průvodce pro velikosti efektů". Pokroky ve vzdělávání ve zdravotnictví. 9 (3): 241–9. doi:10.1023 / B: AHSE.0000038173.00909.f6. PMID 15316274.
- ^ Pedhazur, Elazar J .; Schmelkin, Liora P. (1991). Měření, návrh a analýza: integrovaný přístup (Student ed.). New York, NY: Psychology Press. 180–210. ISBN 978-0-805-81063-9.
- ^ Stahel, Werner (2016). "Statistický problém reprodukovatelnosti". Zásady, problémy, postupy a vyhlídky Reprodukovatelnost: Zásady, problémy, postupy a vyhlídky: 87–114. doi:10.1002 / 9781118865064.ch5. ISBN 9781118864975.
- ^ „Seminářová řada CSSME: Hádka skončila strhodnoty a paradigma testování nulové hypotézy (NHST) ". www.education.leeds.ac.uk. School of Education, University of Leeds. Citováno 2016-12-01.
- ^ Novella, Steven (25. února 2015). „Psychology Journal Bans Significance Testing“. Vědecká medicína.
- ^ Woolston, Chris (03.03.2015). „Psychology journal bans P values“. Příroda. 519 (7541): 9. doi:10.1038 / 519009f.
- ^ Siegfried, Tom (2015-03-17). „Zákaz hodnoty P: malý krok pro časopis, obrovský skok pro vědu“. Vědecké zprávy. Citováno 2016-12-01.
- ^ Antonakis, John (únor 2017). „Jak dělat lepší vědu: od vzrušení z objevu po politické důsledky“ (PDF). Čtvrtletní vedení. 28 (1): 5–21. doi:10.1016 / j.leaqua.2017.01.006.
- ^ A b C Wasserstein, Ronald L .; Lazar, Nicole A. (2016-04-02). „Prohlášení ASA k hodnotám p: kontext, proces a účel“. Americký statistik. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108.
- ^ García-Pérez, Miguel A. (10.10.2016). „Nebudeš nést falešného svědka proti testování významnosti nulové hypotézy“. Vzdělávací a psychologické měření. 77 (4): 631–662. doi:10.1177/0013164416668232. ISSN 0013-1644. PMC 5991793. PMID 30034024.
- ^ Ioannidis, John P. A .; Ware, Jennifer J .; Wagenmakers, Eric-Jan; Simonsohn, Uri; Chambers, Christopher D .; Button, Katherine S .; Bishop, Dorothy V. M .; Nosek, Brian A .; Munafò, Marcus R. (leden 2017). „Manifest pro reprodukovatelnou vědu“. Příroda lidské chování. 1: 0021. doi:10.1038 / s41562-016-0021.
- ^ Benjamin, Daniel; et al. (2018). „Předefinovat statistickou významnost“. Příroda lidské chování. 1 (1): 6–10. doi:10.1038 / s41562-017-0189-z. PMID 30980045.
- ^ Chawla, Dalmeet (2017). "'Prahová hodnota univerzální pro hodnoty P pod palbou “. Příroda. doi:10.1038 / příroda.2017.22625.
- ^ Amrhein, Valentin; Grónsko, Sander (2017). Msgstr "Odstranit, nikoli předefinovat statistickou významnost". Příroda lidské chování. 2 (1): 0224. doi:10.1038 / s41562-017-0224-0. PMID 30980046.
- ^ Vyse, Stuart. „Statistické cíle v oblasti Moving Science“. csicop.org. CSI. Citováno 10. července 2018.
- ^ McShane, Blake; Grónsko, Sander; Amrhein, Valentin (březen 2019). „Vědci povstávají proti statistické významnosti“. Příroda. 567 (7748): 305–307. doi:10.1038 / d41586-019-00857-9. PMID 30894741.
- ^ Wasserstein, Ronald L .; Schirm, Allen L .; Lazar, Nicole A. (2019-03-20). „Přesun do světa za“ p <0,05"". Americký statistik. 73 (sup1): 1–19. doi:10.1080/00031305.2019.1583913.
Další čtení
- Lydia Denworth, „Významný problém: Standardní vědecké metody jsou pod palbou. Změní se něco?“, Scientific American, sv. 321, č. 4 (říjen 2019), s. 62–67. "Použití str hodnoty téměř století [od roku 1925] k určení statistické významnosti experimentální výsledky přispěly k iluzi jistota a [do] krize reprodukovatelnosti v mnoha vědecké obory. Roste odhodlání reformovat statistickou analýzu ... Někteří [vědci] navrhují změnu statistických metod, zatímco jiní by se zbavili prahové hodnoty pro definování „významných“ výsledků. “(Str. 63.)
- Ziliak, Stephen a Deirdre McCloskey (2008), Kult statistické významnosti: Jak nás standardní chyba stojí práce, spravedlnost a životy. Ann Arbor, University of Michigan Press, 2009. ISBN 978-0-472-07007-7. Recenze a recepce: (sestavil Ziliak)
- Thompson, Bruce (2004). „Krize„ významnosti “v psychologii a vzdělávání“. Journal of Socio-Economics. 33 (5): 607–613. doi:10.1016 / j.socec.2004.09.034.
- Chow, Siu L., (1996). Statistická významnost: Odůvodnění, platnost a užitečnost, Svazek 1 série Představujeme statistické metody, Sage Publications Ltd, ISBN 978-0-7619-5205-3 - tvrdí, že statistická významnost je za určitých okolností užitečná.
- Kline, Rex, (2004). Beyond Significance Testing: Reforming Data Analysis Methods in Behavioral Research Washington, DC: Americká psychologická asociace.
- Nuzzo, Regina (2014). Vědecká metoda: Statistické chyby. Příroda Sv. 506, s. 150-152 (otevřený přístup). Zdůrazňuje běžná nedorozumění ohledně hodnoty p.
- Cohen, Joseph (1994). [1]. Země je kulatá (p <0,05). Americký psycholog. 49, str. 997-1003. Posuzuje problémy se statistickým testováním nulové hypotézy.
- Amrhein, Valentin; Grónsko, Sander; McShane, Blake (2019-03-20). „Vědci povstávají proti statistické významnosti“. Příroda. 567 (7748): 305–307. doi:10.1038 / d41586-019-00857-9. PMID 30894741.
externí odkazy
- Článek "Nejstarší známá použití některých slov matematiky (S) "obsahuje záznam o významu, který poskytuje některé historické informace.
- "Koncept testování statistické významnosti „(Únor 1994): článek Bruce Thompona pořádaný ERIC Clearinghouse o hodnocení a hodnocení, Washington, D.C.
- "Co to znamená, aby byl výsledek „statisticky významný“? „(bez data): článek ze služby statistického hodnocení na George Mason University, Washington, D.C.