Rušivá korelace poměrů - Spurious correlation of ratios

v statistika, falešná korelace poměrů je forma falešná korelace který vzniká mezi poměry absolutních měření, které samy o sobě nesouvisejí.[1][2]
Fenomén falešné korelace poměrů je jedním z hlavních motivů pro obor analýza kompozičních dat, která se zabývá analýzou proměnných, které nesou pouze relativní informace, jako jsou proporce, procenta a části na milion.[3][4]
Falešná korelace se liší od mylných představ o korelace a kauzalita.
Ilustrace falešné korelace
Pearson uvádí jednoduchý příklad falešné korelace:[1]
Vyberte náhodně tři čísla v určitých rozsazích X, y, z, budou párové a párové nekorelované. Vytvořte správné frakce X/y a z/y pro každý triplet a mezi těmito indexy bude nalezena korelace.
Bodový diagram výše ilustruje tento příklad pomocí 500 pozorování X, y, a z. Proměnné X, y a z jsou čerpány z normálních distribucí s prostředky 10, 10 a 30 a směrodatnými odchylkami 1, 1 a 3, tj.
Přestože X, y, a z jsou statisticky nezávislé a proto nekorelovaný, v zobrazeném typickém vzorku poměry X/z a y/z mají korelaci 0,53. Je to kvůli společnému děliteli (z) a lze je lépe pochopit, pokud zabarvíme body v bodovém grafu pomocí z-hodnota. Trojice (X, y, z) s relativně velkým z hodnoty se obvykle objevují v levém dolním rohu grafu; tria s relativně malými z hodnoty se obvykle objevují vpravo nahoře.
Přibližné množství rušivé korelace
Pearson odvodil aproximaci korelace, která by byla pozorována mezi dvěma indexy ( a ), tj. poměry absolutních měření :
kde je variační koeficient z , a the Pearsonova korelace mezi a .
Tento výraz lze zjednodušit pro situace, kdy existuje společný dělitel nastavením , a jsou nekorelované, což dává falešnou korelaci:
Pro speciální případ, kdy jsou všechny variační koeficienty stejné (jako je tomu na ilustracích vpravo),
Význam pro biologii a jiné vědy
Pearson se přidal Sir Francis Galton[5] a Walter Frank Raphael Weldon[1] varovat vědce, aby si dávali pozor na falešnou korelaci, zejména v biologii, kde je to běžné[6] v měřítku nebo normalizovat měření vydělením konkrétní proměnnou nebo součtem. Nebezpečí, které viděl, spočíval v tom, že závěry budou vyvozeny spíše z korelací, které jsou artefakty analytické metody, než ze skutečných „organických“ vztahů.
Zdá se však, že falešná korelace (a její potenciál klamat) ještě není široce pochopena. V roce 1986 John Aitchison, který byl průkopníkem přístupu log-ratio analýza kompozičních dat napsal:[3]
Zdá se překvapivé, že varování tří takových významných statistických vědců, jako jsou Pearson, Galton a Weldon, měli být tak dlouho bez povšimnutí: i dnes jsou pravidelně hlášeny nekritické aplikace nevhodných statistických metod na kompoziční data s následnými pochybnými závěry.
Novější publikace naznačují, že tento nedostatek povědomí převládá, alespoň v molekulární biologii.[7][8]
Reference
- ^ A b C Pearson, Karl (1896). „Matematické příspěvky k teorii evoluce - na formě falešných korelací, které mohou vzniknout při použití indexů při měření orgánů“. Sborník královské společnosti v Londýně. 60 (359–367): 489–498. doi:10.1098 / rspl.1896.0076. JSTOR 115879.
- ^ Aldrich, John (1995). "Korelace pravé a falešné v Pearson a Yule". Statistická věda. 10 (4): 364–376. doi:10.1214 / ss / 1177009870.
- ^ A b Aitchison, John (1986). Statistická analýza kompozičních dat. Chapman & Hall. ISBN 978-0-412-28060-3.
- ^ Pawlowsky-Glahn, Vera; Buccianti, Antonella, eds. (2011). Analýza kompozičních dat: teorie a aplikace. Wiley. doi:10.1002/9781119976462. ISBN 978-0470711354.
- ^ Galton, Francis (1896). „Poznámka ke monografii profesora Karla Pearsona, F.R.S., o falešné korelaci“. Sborník královské společnosti v Londýně. 60 (359–367): 498–502. doi:10.1098 / rspl.1896.0077.
- ^ Jackson, DA; Somers, KM (1991). „Strašidlo„ spurné “korelace“. Ekologie. 86 (1): 147–151. Bibcode:1991Oecol..86..147J. doi:10.1007 / bf00317404. JSTOR 4219582. PMID 28313173.
- ^ Lovell, David; Müller, Warren; Taylor, Jen; Zwart, Alec; Helliwell, Chris (2011). „Kapitola 14: Proporce, procenta, PPM: Zacházejí molekulární biologické vědy s kompozičními daty správně?“. V Pawlowsky-Glahn, Vera; Buccianti, Antonella (eds.). Analýza kompozičních dat: teorie a aplikace. Wiley. doi:10.1002/9781119976462. ISBN 9780470711354.
- ^ Lovell, David; Pawlowsky-Glahn, Vera; Egozcue, Juan José; Marguerat, Samuel; Bähler, Jürg (16. března 2015). „Proporcionalita: platná alternativa ke korelaci pro relativní data“. PLoS výpočetní biologie. 11 (3): e1004075. Bibcode:2015PLSCB..11E4075L. doi:10.1371 / journal.pcbi.1004075. PMC 4361748. PMID 25775355.