Rušivá korelace poměrů - Spurious correlation of ratios

Na obrázku je falešná korelace, tento obrázek ukazuje 500 pozorování X/z spiknutí proti y/z. Korelace vzorku je 0,53, i když X, y, a z jsou na sobě statisticky nezávislé (tj. párové korelace mezi každou z nich jsou nulové). The z- hodnoty jsou zvýrazněny na barevné stupnici.

v statistika, falešná korelace poměrů je forma falešná korelace který vzniká mezi poměry absolutních měření, které samy o sobě nesouvisejí.[1][2]

Fenomén falešné korelace poměrů je jedním z hlavních motivů pro obor analýza kompozičních dat, která se zabývá analýzou proměnných, které nesou pouze relativní informace, jako jsou proporce, procenta a části na milion.[3][4]

Falešná korelace se liší od mylných představ o korelace a kauzalita.

Ilustrace falešné korelace

Pearson uvádí jednoduchý příklad falešné korelace:[1]

Vyberte náhodně tři čísla v určitých rozsazích X, y, z, budou párové a párové nekorelované. Vytvořte správné frakce X/y a z/y pro každý triplet a mezi těmito indexy bude nalezena korelace.

Bodový diagram výše ilustruje tento příklad pomocí 500 pozorování X, y, a z. Proměnné X, y a z jsou čerpány z normálních distribucí s prostředky 10, 10 a 30 a směrodatnými odchylkami 1, 1 a 3, tj.

Přestože X, y, a z jsou statisticky nezávislé a proto nekorelovaný, v zobrazeném typickém vzorku poměry X/z a y/z mají korelaci 0,53. Je to kvůli společnému děliteli (z) a lze je lépe pochopit, pokud zabarvíme body v bodovém grafu pomocí z-hodnota. Trojice (Xyz) s relativně velkým z hodnoty se obvykle objevují v levém dolním rohu grafu; tria s relativně malými z hodnoty se obvykle objevují vpravo nahoře.

Přibližné množství rušivé korelace

Pearson odvodil aproximaci korelace, která by byla pozorována mezi dvěma indexy ( a ), tj. poměry absolutních měření :

kde je variační koeficient z , a the Pearsonova korelace mezi a .

Tento výraz lze zjednodušit pro situace, kdy existuje společný dělitel nastavením , a jsou nekorelované, což dává falešnou korelaci:

Pro speciální případ, kdy jsou všechny variační koeficienty stejné (jako je tomu na ilustracích vpravo),

Význam pro biologii a jiné vědy

Pearson se přidal Sir Francis Galton[5] a Walter Frank Raphael Weldon[1] varovat vědce, aby si dávali pozor na falešnou korelaci, zejména v biologii, kde je to běžné[6] v měřítku nebo normalizovat měření vydělením konkrétní proměnnou nebo součtem. Nebezpečí, které viděl, spočíval v tom, že závěry budou vyvozeny spíše z korelací, které jsou artefakty analytické metody, než ze skutečných „organických“ vztahů.

Zdá se však, že falešná korelace (a její potenciál klamat) ještě není široce pochopena. V roce 1986 John Aitchison, který byl průkopníkem přístupu log-ratio analýza kompozičních dat napsal:[3]

Zdá se překvapivé, že varování tří takových významných statistických vědců, jako jsou Pearson, Galton a Weldon, měli být tak dlouho bez povšimnutí: i dnes jsou pravidelně hlášeny nekritické aplikace nevhodných statistických metod na kompoziční data s následnými pochybnými závěry.

Novější publikace naznačují, že tento nedostatek povědomí převládá, alespoň v molekulární biologii.[7][8]

Reference

  1. ^ A b C Pearson, Karl (1896). „Matematické příspěvky k teorii evoluce - na formě falešných korelací, které mohou vzniknout při použití indexů při měření orgánů“. Sborník královské společnosti v Londýně. 60 (359–367): 489–498. doi:10.1098 / rspl.1896.0076. JSTOR  115879.
  2. ^ Aldrich, John (1995). "Korelace pravé a falešné v Pearson a Yule". Statistická věda. 10 (4): 364–376. doi:10.1214 / ss / 1177009870.
  3. ^ A b Aitchison, John (1986). Statistická analýza kompozičních dat. Chapman & Hall. ISBN  978-0-412-28060-3.
  4. ^ Pawlowsky-Glahn, Vera; Buccianti, Antonella, eds. (2011). Analýza kompozičních dat: teorie a aplikace. Wiley. doi:10.1002/9781119976462. ISBN  978-0470711354.
  5. ^ Galton, Francis (1896). „Poznámka ke monografii profesora Karla Pearsona, F.R.S., o falešné korelaci“. Sborník královské společnosti v Londýně. 60 (359–367): 498–502. doi:10.1098 / rspl.1896.0077.
  6. ^ Jackson, DA; Somers, KM (1991). „Strašidlo„ spurné “korelace“. Ekologie. 86 (1): 147–151. Bibcode:1991Oecol..86..147J. doi:10.1007 / bf00317404. JSTOR  4219582. PMID  28313173.
  7. ^ Lovell, David; Müller, Warren; Taylor, Jen; Zwart, Alec; Helliwell, Chris (2011). „Kapitola 14: Proporce, procenta, PPM: Zacházejí molekulární biologické vědy s kompozičními daty správně?“. V Pawlowsky-Glahn, Vera; Buccianti, Antonella (eds.). Analýza kompozičních dat: teorie a aplikace. Wiley. doi:10.1002/9781119976462. ISBN  9780470711354.
  8. ^ Lovell, David; Pawlowsky-Glahn, Vera; Egozcue, Juan José; Marguerat, Samuel; Bähler, Jürg (16. března 2015). „Proporcionalita: platná alternativa ke korelaci pro relativní data“. PLoS výpočetní biologie. 11 (3): e1004075. Bibcode:2015PLSCB..11E4075L. doi:10.1371 / journal.pcbi.1004075. PMC  4361748. PMID  25775355.