Problém s více srovnáními - Multiple comparisons problem

v statistika, více srovnání, multiplicita nebo problém s více testy nastane, když vezmeme v úvahu sadu statistické závěry zároveň[1] nebo odvodí podmnožinu parametrů vybraných na základě pozorovaných hodnot.[2] V některých oblastech je to známé jako efekt jinde.
Čím více závěrů je učiněno, tím je pravděpodobnější, že dojde k chybným závěrům. Aby se tomu zabránilo, bylo vyvinuto několik statistických technik, které umožňují přímé srovnání úrovní významnosti pro jedno a více srovnání. Tyto techniky obecně vyžadují přísnější prahovou hodnotu významnosti pro jednotlivá srovnání, aby kompenzovaly počet provedených závěrů.
Dějiny
Zájem o problém vícenásobných srovnání začal v padesátých letech minulého století prací Tukey a Scheffé. Jiné metody, například uzavřený testovací postup (Marcus a kol., 1976) a Holm – Bonferroniho metoda (1979), později se objevily. V roce 1995 byly zahájeny práce na míra falešných objevů začalo. V roce 1996 se konala první konference o vícenásobných srovnáváních Izrael. Poté následovaly konference po celém světě, které se obvykle konaly přibližně každé dva roky.[3]
Definice
Vícenásobné srovnání nastane, když statistická analýza zahrnuje několik simultánních statistických testů, z nichž každý má potenciál vyvolat „objev“ stejného datového souboru nebo závislých datových souborů. Uvedená úroveň spolehlivosti obecně platí pouze pro každý test posuzovaný samostatně, ale často je žádoucí mít úroveň spolehlivosti pro celou rodinu simultánních testů.[4] Neschopnost kompenzovat více srovnání může mít důležité důsledky pro reálný svět, jak dokládají následující příklady:
- Předpokládejme, že léčba je novým způsobem výuky psaní studentů a kontrola je standardním způsobem výuky psaní. Studenti v těchto dvou skupinách lze porovnávat z hlediska gramatiky, pravopisu, organizace, obsahu atd. Jak je porovnáváno více atributů, je stále pravděpodobnější, že se ošetření a kontrolní skupiny budou lišit alespoň u jednoho atributu v důsledku náhodnosti chyba vzorkování sama.
- Předpokládejme, že uvažujeme účinnost a lék pokud jde o snížení některého z řady příznaků onemocnění. Vzhledem k tomu, že se uvažuje o více příznacích, je stále pravděpodobnější, že se droga bude jevit jako zlepšení oproti stávajícím lékům z hlediska alespoň jednoho příznaku.
V obou příkladech se s rostoucím počtem srovnání stává pravděpodobnější, že se porovnávané skupiny budou lišit z hlediska alespoň jednoho atributu. Naše důvěra v to, že se výsledek zobecní na nezávislá data, by měla být obecně slabší, pokud je pozorována jako součást analýzy, která zahrnuje více srovnání, spíše než analýza, která zahrnuje pouze jedno srovnání.
Například pokud je jeden test proveden na 5% úrovni a odpovídající nulová hypotéza je pravdivá, existuje pouze 5% šance, že nulovou hypotézu nesprávně odmítnete. Pokud je však provedeno 100 testů a jsou splněny všechny odpovídající nulové hypotézy, pak očekávané číslo nesprávných odmítnutí (označovaných také jako falešně pozitivní výsledky nebo Chyby typu I. ) je 5. Pokud jsou testy navzájem statisticky nezávislé, je pravděpodobnost alespoň jednoho nesprávného odmítnutí 99,4%.
Všimněte si, že problém s vícenásobným srovnáváním samozřejmě nevzniká v každé situaci, kdy je empiricky testováno několik hypotéz, ať už sekvenčně nebo paralelně (souběžně);[5] zhruba řečeno, problém vícenásobného srovnání vyvstává vždy, když je testováno více hypotéz na stejné datové sadě (nebo datových sadách, které nejsou nezávislé), nebo kdykoli je jedna a stejná hypotéza testována v několika datových sadách.
Problém vícenásobného porovnání platí také pro intervaly spolehlivosti. Jeden interval spolehlivosti s 95% pravděpodobnost pokrytí úroveň bude obsahovat parametr populace v 95% experimentů. Pokud však vezmeme v úvahu 100 intervalů spolehlivosti současně, každý s 95% pravděpodobností pokrytí, očekávaný počet nepokrývajících intervalů je 5. Pokud jsou intervaly od sebe statisticky nezávislé, pravděpodobnost, že alespoň jeden interval neobsahuje populaci parametr je 99,4%.
Byly vyvinuty techniky, které zabraňují inflaci falešně pozitivních sazeb a míry nepokrytí, ke kterým dochází při několika statistických testech.
Klasifikace více testů hypotéz
Následující tabulka definuje možné výsledky při testování více nulových hypotéz. Předpokládejme, že máme číslo m nulových hypotéz, označených: H1, H2, ..., Hm.Používat statistický test, odmítneme nulovou hypotézu, pokud je test prohlášen za významný. Pokud test není nevýznamný, nezavrhujeme nulovou hypotézu. Shrnutí všech typů výsledků přes všechny Hi získá následující náhodné proměnné:
Nulová hypotéza je pravdivá (H0) | Alternativní hypotéza je pravdivá (HA) | Celkový | |
---|---|---|---|
Test je prohlášen za významný | PROTI | S | R |
Test je prohlášen za nevýznamný | U | T | |
Celkový | m |
- m je celkový počet testovaných hypotéz
- je počet pravdivých nulové hypotézy, neznámý parametr
- je počet pravdivých alternativní hypotézy
- PROTI je počet falešné poplachy (chyba typu I) (nazývané také „falešné objevy“)
- S je počet skutečná pozitiva (nazývané také „skutečné objevy“)
- T je počet falešné negativy (chyba typu II)
- U je počet skutečné negativy
- je počet odmítnutých nulových hypotéz (nazývaných také „objevy“, buď pravdivé, nebo nepravdivé)
v m testy hypotéz, z nichž jsou pravdivé nulové hypotézy, R je pozorovatelná náhodná proměnná a S, T, U, a PROTI jsou nepozorovatelné náhodné proměnné.
Kontrolní postupy
Li m jsou prováděna nezávislá srovnání, rodinná míra chyb (FWER), je dáno
Pokud tedy testy nejsou zcela pozitivně závislé (tj. Identické), roste s rostoucím počtem srovnání. Nepředpokládáme-li, že jsou srovnání nezávislá, můžeme stále říci:
který vyplývá z Booleova nerovnost. Příklad:
Existují různé způsoby, jak zajistit, aby míra chyb u rodiny byla maximálně . Nejkonzervativnější metodou bez závislosti a distribučních předpokladů je metoda Bonferroniho korekce . Okrajově méně konzervativní korekci lze získat řešením rovnice pro rodinnou chybovost nezávislá srovnání pro . To přináší , který je známý jako Šidákova korekce. Dalším postupem je Holm – Bonferroniho metoda, který rovnoměrně dodává více energie než jednoduchá Bonferroniho korekce, testováním pouze nejnižší hodnoty p () proti nejpřísnějšímu kritériu a vyšším hodnotám p () proti postupně méně přísným kritériím.[6].
Pro trvalé problémy lze zaměstnat Bayesian logika k výpočtu z poměru objemu před a k zadnímu objemu. Kontinuální zevšeobecňování Bonferroni a Šidákova korekce jsou uvedeny v [7].
Vícenásobná oprava testování
![]() | Tento článek bude možná třeba vyčistit. Bylo sloučeno z Vícenásobná oprava testování. |
Vícenásobná oprava testování odkazuje na přepočet pravděpodobností získaných ze statistického testu, který byl opakován několikrát. Aby se při analýze zahrnující více než jedno srovnání zachovala předepsaná míra chyb rodiny α, musí být míra chyb pro každé srovnání přísnější nežα. Booleova nerovnost znamená, že pokud každý z m testy se provádějí, aby měla chybovost typu I.α/m, celková míra chyb nepřesáhneα. Tomu se říká Bonferroniho korekce, a je jedním z nejčastěji používaných přístupů pro vícenásobná srovnání.
V některých situacích je Bonferroniho korekce podstatně konzervativní, tj. Skutečná míra chyb v rodině je mnohem menší než předepsaná úroveňα. K tomu dochází, když jsou statistiky testu vysoce závislé (v extrémním případě, kdy jsou testy dokonale závislé, je míra chyb po celé rodině bez úpravy vícenásobných srovnání a míra chyb na test stejná). Například v analýze fMRI[8][9] testy se provádějí na více než 100 000 voxely v mozku. Metoda Bonferroni by vyžadovala, aby hodnoty p byly menší než 0,05 / 100000, aby byla deklarována významnost. Vzhledem k tomu, že sousední voxely bývají vysoce korelované, je tento práh obecně příliš přísný.
Protože jednoduché techniky, jako je Bonferroniho metoda, mohou být konzervativní, byla věnována velká pozornost vývoji lepších technik, takže lze udržet celkovou míru falešných pozitivů bez nadměrného nafukování míry falešných negativů. Tyto metody lze rozdělit do obecných kategorií:
- Metody, u kterých lze prokázat, že celková alfa nikdy nepřekročí 0,05 (nebo jinou zvolenou hodnotu) za jakýchkoli podmínek. Tyto metody poskytují „silnou“ kontrolu proti chybě typu I za všech podmínek, včetně částečně správné nulové hypotézy.
- Metody, u kterých lze prokázat, že celková alfa nepřesahuje 0,05, s výjimkou určitých definovaných podmínek.
- Metody, které se spoléhají na souhrnný test než přistoupíte k více srovnáním. Tyto metody obvykle vyžadují významné ANOVA, MANOVA nebo Tukeyův test dosahu. Tyto metody obecně poskytují pouze „slabou“ kontrolu nad chybou typu I, s výjimkou určitého počtu hypotéz.
- Empirické metody, které adaptivně řídí podíl chyb typu I s využitím korelačních a distribučních charakteristik pozorovaných dat.
Příchod počítačového zpracování převzorkování metody, jako je bootstrapping a Simulace Monte Carlo, dal vzniknout mnoha technikám ve druhé kategorii. V některých případech, kdy se provádí důkladné převzorkování permutace, poskytují tyto testy přesnou a silnou kontrolu chybovosti typu I; v ostatních případech, jako je vzorkování bootstrap, poskytují pouze přibližnou kontrolu.
Rozsáhlé vícenásobné testování
Tradiční metody pro úpravy více srovnání se zaměřují na korekci skromného počtu srovnání, často v analýza rozptylu. Pro „rozsáhlé vícenásobné testování“ byla vyvinuta odlišná sada technik, ve kterých jsou prováděny tisíce nebo dokonce větší počet testů. Například v genomika, při použití technologií, jako je mikročipy lze měřit úrovně exprese desítek tisíc genů a lze měřit genotypy pro miliony genetických markerů. Zejména v oblasti genetická asociace studií, došlo k vážnému problému s nereplikací - výsledek je silně statisticky významný v jedné studii, ale není možné jej replikovat v následné studii. Taková nereplikace může mít mnoho příčin, ale obecně se má za to, že jednou z příčin je neúplné zohlednění důsledků vícenásobného srovnání.[10]
V různých oborech vědy je vícenásobné testování řešeno různými způsoby. Tvrdilo se, že pokud se statistické testy provádějí pouze tehdy, existuje-li silný základ pro očekávání, že výsledek bude pravdivý, není nutné provádět vícenásobné srovnání.[11] Rovněž se tvrdilo, že použití více korekcí testování je neefektivní způsob provedení empirický výzkum, protože několik úprav testování řídí falešně pozitivní výsledky s potenciálním nákladem mnoha dalších falešné negativy. Na druhé straně se tvrdí, že pokroky v měření a informační technologie výrazně usnadnily generování velkých souborů dat pro průzkumná analýza, což často vede k testování velkého počtu hypotéz bez předchozího základu pro očekávání, že mnohé z hypotéz budou pravdivé. V této situaci velmi vysoká falešně pozitivní sazby se očekávají, pokud nebudou provedeny úpravy několika srovnání.
Pro rozsáhlé problémy s testováním, kde je cílem poskytnout konečné výsledky, rodinná chybovost zůstává nejpřijatelnějším parametrem pro přiřazování úrovní významnosti statistickým testům. Alternativně, pokud je studie považována za průzkumnou nebo pokud lze významné výsledky snadno znovu otestovat v nezávislé studii, kontrola míra falešných objevů (FDR)[12][13][14] je často upřednostňováno. FDR, volně definovaný jako očekávaný podíl falešných pozitivů mezi všemi významnými testy, umožňuje vědcům identifikovat soubor „pozitivních kandidátů“, které lze důsledněji vyhodnotit v následné studii.[15]
Praxe zkoušet mnoho neupravených srovnání s nadějí na nalezení významného je známým problémem, ať už neúmyslně nebo záměrně, který se někdy nazývá „p-hacking“.[16][17]
Posouzení, zda jsou nějaké alternativní hypotézy pravdivé

Základní otázkou, s níž se na počátku analýzy velké řady výsledků testování setkáváme, je, zda existují důkazy o tom, že některá z alternativních hypotéz je pravdivá. Jeden jednoduchý meta-test, který lze použít, když se předpokládá, že testy jsou na sobě nezávislé, je použití Poissonovo rozdělení jako model pro počet významných výsledků na dané úrovni α, které by byly nalezeny, kdyby byly splněny všechny nulové hypotézy.[Citace je zapotřebí ] Pokud je pozorovaný počet pozitiv podstatně větší, než by se dalo očekávat, naznačuje to, že mezi významnými výsledky budou pravděpodobně nějaké skutečné pozitivy. Například pokud je provedeno 1 000 nezávislých testů, každý na úrovni α = 0,05, očekáváme, že dojde k 0,05 × 1 000 = 50 významných testů, když jsou splněny všechny nulové hypotézy. Na základě Poissonova rozdělení s průměrem 50 je pravděpodobnost pozorování více než 61 významných testů menší než 0,05, takže pokud je pozorováno více než 61 významných výsledků, je velmi pravděpodobné, že některé z nich odpovídají situacím, kdy platí alternativní hypotéza. Nevýhodou tohoto přístupu je, že nadhodnocuje důkaz, že některé alternativní hypotézy jsou pravdivé, když statistika testů jsou pozitivně korelované, což se v praxi běžně vyskytuje.[Citace je zapotřebí ]. Na druhou stranu přístup zůstává platný i za přítomnosti korelace mezi statistikami testů, pokud lze prokázat Poissonovo rozdělení, které poskytuje dobrou aproximaci počtu významných výsledků. Tento scénář nastává například při těžbě významných častých položek z transakčních datových sad. Pečlivá dvoustupňová analýza může navíc FDR svázat na předem určené úrovni.[18]
Další společný přístup, který lze použít v situacích, kdy statistika testů lze standardizovat na Z-skóre je udělat normální kvantilní graf statistik zkoušek. Pokud je pozorovaných kvantilů výrazně více rozptýlené než normální kvantily, naznačuje to, že některé z významných výsledků mohou být skutečnými pozitivy.[Citace je zapotřebí ]
Viz také
- Klíčové koncepty
- Rodinná chybovost
- Falešná kladná sazba
- Falešná míra objevení (FDR)
- Míra falešného pokrytí (FCR)
- Odhad intervalu
- Post-hoc analýza
- Míra chyb experimentu
- Obecné metody úpravy alfa pro více srovnání
- Uzavřený postup testování
- Bonferroniho korekce
- Boole -Bonferroni vázán
- Duncanův nový test s více rozsahy
- Holm – Bonferroniho metoda
- Harmonická střední hodnota p postup
- Související pojmy
- Testování hypotéz navržených údaji
- Klam ostrostřelců v Texasu
- Výběr modelu
- Efekt look-else
- Bagrování dat
Reference
- ^ Miller, R.G. (1981). Simultánní statistická inference 2. vyd. Springer Verlag New York. ISBN 978-0-387-90548-8.
- ^ Benjamini, Y. (2010). „Simultánní a selektivní odvození: současné úspěchy a budoucí výzvy“. Biometrický deník. 52 (6): 708–721. doi:10.1002 / bimj.200900299. PMID 21154895.
- ^ [1]
- ^ Kutner, Michael; Nachtsheim, Christopher; Neter, Johne; Li, William (2005). Aplikované lineární statistické modely. str.744 –745.
- ^ Georgiev, Georgi (2017-08-22). „Testování více proměnných - osvědčené postupy a nástroje pro testy MVT (A / B / n)“. Blog pro webovou analýzu, statistiku a internetový marketing založený na datech | Analytics-Toolkit.com. Citováno 2020-02-13.
- ^ Aickin, M; Gensler, H (květen 1996). „Přizpůsobení vícenásobnému testování při hlášení výsledků výzkumu: metody Bonferroni vs. Holm“. Am J Public Health. 86 (5): 726–728. doi:10,2105 / ajph.86.5.726. PMC 1380484. PMID 8629727.
- ^ Bayer, Adrian E .; Seljak, Uroš (2020). „Efekt„ pohled jinam “ze sjednocené bayesovské a frekventované perspektivy“. Journal of Cosmology and Astroparticle Physics. 2020 (10): 009–009. arXiv:2007.13821. doi:10.1088/1475-7516/2020/10/009.
- ^ Logan, B. R .; Rowe, D. B. (2004). Msgstr "Hodnocení prahových technik v analýze fMRI". NeuroImage. 22 (1): 95–108. CiteSeerX 10.1.1.10.421. doi:10.1016 / j.neuroimage.2003.12.047. PMID 15110000.
- ^ Logan, B. R .; Geliazkova, M. P .; Rowe, D. B. (2008). Msgstr "Hodnocení technik prostorového prahování v analýze fMRI". Mapování lidského mozku. 29 (12): 1379–1389. doi:10,1002 / hbm.20471. PMID 18064589.
- ^ Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (01.10.2010). „Statistická významnost ve studiích genetické asociace“. Klinická a vyšetřovací medicína. 33 (5): E266 – E270. ISSN 0147-958X. PMC 3270946. PMID 20926032.
- ^ Rothman, Kenneth J. (1990). Msgstr "Pro vícenásobná srovnání nejsou nutné žádné úpravy". Epidemiologie. 1 (1): 43–46. doi:10.1097/00001648-199001000-00010. JSTOR 20065622. PMID 2081237.
- ^ Benjamini, Yoav; Hochberg, Yosef (1995). "Řízení rychlosti falešných objevů: praktický a účinný přístup k vícenásobnému testování". Journal of the Royal Statistical Society, Series B. 57 (1): 125–133. JSTOR 2346101.
- ^ Storey, JD; Tibshirani, Robert (2003). „Statistická významnost pro studie na celém genomu“. PNAS. 100 (16): 9440–9445. Bibcode:2003PNAS..100.9440S. doi:10.1073 / pnas.1530509100. JSTOR 3144228. PMC 170937. PMID 12883005.
- ^ Efron, Bradley; Tibshirani, Robert; Storey, John D .; Tusher, Virginie (2001). "Empirická Bayesova analýza microarray experimentu". Journal of the American Statistical Association. 96 (456): 1151–1160. doi:10.1198/016214501753382129. JSTOR 3085878.
- ^ Noble, William S. (01.12.2009). „Jak funguje oprava vícenásobného testování?“. Přírodní biotechnologie. 27 (12): 1135–1137. doi:10.1038 / nbt1209-1135. ISSN 1087-0156. PMC 2907892. PMID 20010596.
- ^ Young, S. S., Karr, A. (2011). „Deming, data and observační studie“ (PDF). Význam. 8 (3): 116–120. doi:10.1111 / j.1740-9713.2011.00506.x.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Smith, G. D., Shah, E. (2002). „Data bagrování, zkreslení nebo zmatení“. BMJ. 325 (7378): 1437–1438. doi:10.1136 / bmj.325.7378.1437. PMC 1124898. PMID 12493654.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Kirsch, A; Mitzenmacher, M; Pietracaprina, A; Pucci, G; Upfal, E; Vandin, F (červen 2012). „Efektivní a důsledný přístup k identifikaci statisticky významných častých položek“. Deník ACM. 59 (3): 12:1–12:22. arXiv:1002.1104. doi:10.1145/2220357.2220359.
Další čtení
- F. Betz, T. Hothorn, P. Westfall (2010), Vícenásobné srovnání pomocí R., CRC Stiskněte
- S. Dudoit a M. J. van der Laan (2008), Několik testovacích postupů s aplikací na genomikuSpringer
- Farcomeni, A. (2008). „Přehled moderního testování více hypotéz, se zvláštním důrazem na podíl falešných objevů“. Statistické metody v lékařském výzkumu. 17: 347–388. doi:10.1177/0962280206079046.
- Phipson, B .; Smyth, G. K. (2010). "Permutační P-hodnoty by nikdy neměly být nulové: Výpočet přesných P-hodnot, když jsou náhodně nakresleny permutace". Statistické aplikace v genetice a molekulární biologii. doi:10.2202/1544-6155.1585.
- P. H. Westfall a S. S. Young (1993), Vícenásobné testování založené na převzorkování: Příklady a metody úpravy hodnoty pWiley
- P. Westfall, R. Tobias, R. Wolfinger (2011) Vícenásobné srovnání a vícenásobné testování pomocí SAS, 2. vydání, SAS Institute
- Galerie příkladů nepravděpodobných korelací pocházejících z bagrování dat