Korelace vzdálenosti - Distance correlation
v statistika a v teorie pravděpodobnosti, korelace vzdálenosti nebo kovarianční vzdálenost je měřítkem závislost mezi dvěma spárovanými náhodné vektory libovolné, ne nutně stejné, dimenze. Korelační koeficient populační vzdálenosti je nulový právě tehdy, jsou-li náhodné vektory nezávislý. Vzdálená korelace tedy měří lineární i nelineární asociaci mezi dvěma náhodnými proměnnými nebo náhodnými vektory. To je v rozporu s Pearsonova korelace, který dokáže detekovat pouze lineární asociaci mezi dvěma náhodné proměnné.
Korelaci vzdálenosti lze použít k provedení a statistický test závislosti s a permutační test. Jeden nejprve vypočítá korelaci vzdálenosti (zahrnující přesměrování euklidovských distančních matic) mezi dvěma náhodnými vektory a poté porovná tuto hodnotu s korelacemi vzdáleností mnoha zamíchaných dat.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/9/99/Distance_Correlation_Examples.svg/400px-Distance_Correlation_Examples.svg.png)
Pozadí
Klasická míra závislosti, Pearsonův korelační koeficient,[1] je citlivý hlavně na lineární vztah mezi dvěma proměnnými. Korelaci vzdálenosti zavedla v roce 2005 společnost Gábor J. Székely na několika přednáškách k řešení tohoto Pearsonova nedostatku korelace, a sice, že pro závislé proměnné to může být snadno nula. Korelace = 0 (nekorelace) neznamená nezávislost, zatímco korelace vzdálenosti = 0 znamená nezávislost. První výsledky korelace vzdálenosti byly publikovány v letech 2007 a 2009.[2][3] Bylo prokázáno, že kovariance vzdálenosti je stejná jako Brownianova kovariance.[3] Tato opatření jsou příklady energetické vzdálenosti.
Korelace vzdálenosti je odvozena z řady dalších veličin, které se používají v její specifikaci, konkrétně: rozptyl vzdálenosti, směrodatná odchylka vzdálenosti, a kovarianční vzdálenost. Tato množství mají stejné role jako obyčejné momenty s odpovídajícími názvy ve specifikaci Pearsonův korelační koeficient produkt-moment.
Definice
Kovarianční vzdálenost
Začněme definicí kovariance vzdálenosti vzorku. Nechť (Xk, Yk), k = 1, 2, ..., n být statistický vzorek z dvojice náhodných proměnných se skutečnou nebo vektorovou hodnotou (X, Y). Nejprve spočítejte n podle n distanční matice (Aj, k) a (bj, k) obsahující všechny párové vzdálenosti
kde || ⋅ || označuje Euklidovská norma. Pak vezměte všechny dvojnásobně vycentrované vzdálenosti
kde je j-tý řádek znamená, je k-tý sloupec znamená a je velký průměr matice vzdáleností X vzorek. Zápis je podobný pro b hodnoty. (V maticích centrovaných vzdáleností (Aj, k) a (Bj,k) všechny řádky a všechny sloupce se sčítají k nule.) Na druhou kovariance vzdálenosti vzorku (skalární) je jednoduše aritmetický průměr produktů Aj, k Bj, k:
Statistika Tn = n dCov2n(X, Y) určuje konzistentní vícerozměrný test nezávislosti náhodných vektorů v libovolných rozměrech. Implementace viz dcov.test funkce v energie balíček pro R.[4]
Hodnota populace kovarianční vzdálenost lze definovat ve stejných liniích. Nechat X být náhodná proměnná, která bere hodnoty v a str-dimenzionální euklidovský prostor s distribucí pravděpodobnosti μ a nechte Y být náhodná proměnná, která bere hodnoty v a q-dimenzionální euklidovský prostor s distribucí pravděpodobnosti νa předpokládejme to X a Y mít konečná očekávání. Psát si
Nakonec definujte populační hodnotu kovariance druhé mocniny vzdálenosti X a Y tak jako
Lze ukázat, že to odpovídá následující definici:
kde E označuje očekávanou hodnotu a a jsou nezávislé a identicky distribuované. Náhodné proměnné s aktivací a označit nezávislé a identicky distribuované (iid) kopie proměnných a a jsou podobně id. [5] Kovarianční vzdálenost lze vyjádřit pomocí klasických Pearsonových kovariance,cov, jak následuje:
Tato identita ukazuje, že kovariance vzdálenosti není stejná jako kovariance vzdáleností, cov (||X − X' ||, ||Y − Y ' ||). To může být nula, i když X a Y nejsou nezávislí.
Alternativně lze kovarianci vzdálenosti definovat jako váženou L2 norma vzdálenosti mezi spojem charakteristická funkce náhodných proměnných a součin jejich marginálních charakteristických funkcí:[6]
kde , , a jsou charakteristické funkce z (X, Y), X, a Y, respektive str, q označit euklidovskou dimenzi X a Y, a tedy o s a t, a Cstr, Cq jsou konstanty. Funkce hmotnosti je vybrán k vytvoření měřítka ekvivariantního a rotačního invariantního měřítka, které u závislých proměnných nedosáhne nuly.[6][7] Jedna interpretace definice charakteristické funkce spočívá v tom, že proměnné EisX a EITY jsou cyklická reprezentace X a Y s různými obdobími danými s a ta výraz ϕX, Y(s, t) − ϕX(s) ϕY(t) v čitateli definice charakteristické funkce je vzdálenost kovariance jednoduše klasická kovariance EisX a EITY. Definice charakteristické funkce jasně ukazuje, že dCov2(X, Y) = 0 pouze a jen tehdy X a Y jsou nezávislé.
Rozptyl vzdálenosti a směrodatná odchylka vzdálenosti
The rozptyl vzdálenosti je speciální případ kovariance vzdálenosti, když jsou obě proměnné identické. Populační hodnota rozptylu vzdálenosti je druhá odmocnina z
kde označuje očekávanou hodnotu, je nezávislá a identicky distribuovaná kopie a je nezávislý na a a má stejnou distribuci jako a .
The rozptyl vzdálenosti vzorku je druhá odmocnina z
což je příbuzný Corrado Gini je průměrný rozdíl představen v roce 1912 (ale Gini nepracoval se středovými vzdálenostmi).[8]
The směrodatná odchylka vzdálenosti je druhá odmocnina z rozptyl vzdálenosti.
Korelace vzdálenosti
The korelace vzdálenosti [2][3] dvou náhodných proměnných se získá dělením jejich kovarianční vzdálenost produktem jejich standardní směrodatné odchylky vzdálenosti. Korelace vzdálenosti je
a korelace vzdálenosti vzorku je definována dosazením kovariance vzdálenosti vzorku a rozptylu vzdálenosti pro výše uvedené populační koeficienty.
Pro snadný výpočet korelace vzdálenosti vzorku viz dcor funkce v energie balíček pro R.[4]
Vlastnosti
Korelace vzdálenosti
- a ; to je v rozporu s Pearsonovou korelací, která může být negativní.
- kdyby a jen kdyby X a Y jsou nezávislé.
- znamená, že rozměry lineárních podprostorů překlenuty X a Y vzorky jsou téměř jistě stejné a pokud předpokládáme, že tyto podprostory jsou stejné, pak v tomto podprostoru pro nějaký vektor A, skalární b, a ortonormální matice .
Kovarianční vzdálenost
- a ;
- pro všechny konstantní vektory , skaláry a ortonormální matice .
- Pokud náhodné vektory a jsou pak nezávislé
- kdyby a jen kdyby X a Y jsou nezávislé.
Tato poslední vlastnost je nejdůležitějším efektem práce se středovými vzdálenostmi.
Statistika je zkreslený odhadce . Pod nezávislostí X a Y [9]
Nestranný odhad je dán Székely a Rizzo.[10]
Rozptyl vzdálenosti
- kdyby a jen kdyby téměř jistě.
- právě když je každé pozorování vzorku totožné.
- pro všechny konstantní vektory A, skaláry ba ortonormální matice .
- Li X a Y jsou pak nezávislé .
Rovnost platí v bodě (iv) právě tehdy, je-li jedna z náhodných proměnných X nebo Y je konstanta.
Zobecnění
Kovarianci vzdálenosti lze zobecnit tak, aby zahrnovala mocniny euklidovské vzdálenosti. Definovat
Pak pro každého , a jsou nezávislé právě tehdy . Je důležité si uvědomit, že tato charakteristika neplatí pro exponenty ; v tomto případě pro bivariate , je deterministická funkce Pearsonovy korelace.[2] Li a jsou pravomoci odpovídajících vzdáleností, , pak kovarianci vzdálenosti vzorku lze definovat jako nezáporné číslo, pro které
Jeden může prodloužit na metrický prostor -hodnota náhodné proměnné a : Pokud má zákon v metrickém prostoru s metrickým , pak definujte , , a (za předpokladu je konečný, tj. má konečný první okamžik), . Pak pokud má zákon (v možném jiném metrickém prostoru s konečným prvním okamžikem), definujte
To není pro všechny takové nezáporné pokud oba metrické prostory mají záporný typ.[11] Tady, metrický prostor má negativní typ, pokud je izometrické do podskupiny a Hilbertův prostor.[12] Pokud mají oba metrické prostory silný negativní typ, pak iff jsou nezávislé.[11]
Alternativní definice kovariance vzdálenosti
Originál kovarianční vzdálenost byl definován jako druhá odmocnina z , spíše než samotný čtvercový koeficient. má vlastnost, že je energetická vzdálenost mezi společnou distribucí a produkt jeho okrajů. Podle této definice se však rozptyl vzdálenosti spíše než směrodatná odchylka vzdálenosti měří ve stejných jednotkách jako vzdálenosti.
Alternativně by se dalo definovat kovarianční vzdálenost být druhou mocninou energetické vzdálenosti: V tomto případě je směrodatná odchylka vzdálenosti se měří ve stejných jednotkách jako vzdálenost a existuje nezaujatý odhad pro kovarianci vzdálenosti populace.[10]
Podle těchto alternativních definic je korelace vzdálenosti definována také jako čtverec , spíše než druhá odmocnina.
Alternativní formulace: Brownova kovariance
Brownova kovariance je motivována zevšeobecněním pojmu kovariance ke stochastickým procesům. Čtverec kovariance náhodných proměnných X a Y lze zapsat v následující podobě:
kde E označuje očekávaná hodnota a prvočíslo označuje nezávislé a identicky distribuované kopie. Potřebujeme následující zobecnění tohoto vzorce. Pokud U (s), V (t) jsou libovolné náhodné procesy definované pro všechna reálná s a t, pak definujte verzi X se středem U pomocí
kdykoli existuje odečtená podmíněná očekávaná hodnota a označuje se YPROTI verze Y na střed.[3][13][14] Kovariance (U, V) (X, Y) je definována jako nezáporné číslo, jehož čtverec je
kdykoli je pravá strana nezáporná a konečná. Nejdůležitějším příkladem je situace, kdy U a V jsou oboustranně nezávislé Brownovy pohyby /Wienerovy procesy s očekáváním nula a kovariancí |s| + |t| − |s − t| = 2 min (s,t) (pouze pro nezáporné s, t). (Jedná se o dvojnásobnou kovarianci oproti standardnímu Wienerovu procesu; zde faktor 2 zjednodušuje výpočty.) V tomto případě (U,PROTI) kovariance se nazývá Brownova kovariance a je označen
Existuje překvapivá náhoda: Brownova kovariance je stejná jako kovariance vzdálenosti:
a tudíž Brownova korelace je stejná jako korelace vzdálenosti.
Na druhou stranu, pokud nahradíme Brownův pohyb deterministickou funkcí identity id pak Covid(X,Y) je prostě absolutní hodnota klasického Pearsona kovariance,
Související metriky
Lineární a nelineární interakce mohou detekovat i další korelační metriky, včetně korelačních metrik založených na jádře (například Hilbert-Schmidtovo kritérium nezávislosti nebo HSIC). Korelační vzdálenost a metriky založené na jádře lze použít v metodách, jako je kanonická korelační analýza a analýza nezávislých komponent výtěžek silnější statistická síla.
Viz také
- Koeficient RV
- Související statistiku třetího řádu viz Distanční šikmost.
Poznámky
- ^ Pearson 1895
- ^ A b C Székely, Gábor J .; Rizzo, Maria L .; Bakirov, Nail K. (2007). "Měření a testování nezávislosti pomocí korelace vzdáleností". Annals of Statistics. 35 (6): 2769–2794. arXiv:0803.4101. doi:10.1214/009053607000000505. S2CID 5661488.
- ^ A b C d Székely, Gábor J .; Rizzo, Maria L. (2009). „Brownianova kovariance vzdálenosti“. Annals of Applied Statistics. 3 (4): 1236–1265. doi:10.1214 / 09-AOAS312. PMC 2889501. PMID 20574547.
- ^ A b energetický balíček pro R
- ^ Székely & Rizzo 2014, str. 11
- ^ A b Székely & Rizzo 2009a, str. 1249, Věta 7, (3.7).
- ^ Székely, Gábor J .; Rizzo, Maria L. (2012). "Na jedinečnost kovariancí vzdálenosti". Statistika a pravděpodobnostní dopisy. 82 (12): 2278–2282. doi:10.1016 / j.spl.2012.08.007.
- ^ Gini 1912
- ^ Székely & Rizzo 2009b
- ^ A b Székely & Rizzo 2014
- ^ A b Lyons, Russell (2014). "Kovarianční vzdálenost v metrických prostorech". Letopisy pravděpodobnosti. 41 (5): 3284–3305. arXiv:1106.5758. doi:10.1214 / 12-AOP803. S2CID 73677891.
- ^ Klebanov, L. B. (2005). N-vzdálenosti a jejich aplikace. Karolinum Press, Univerzita Karlova, Praha.
- ^ Bickel & Xu 2009
- ^ Kosorok 2009
Reference
- Bickel, Peter J .; Xu, Ying (2009). "Diskuse o: Brownianově vzdálenosti kovariance". Annals of Applied Statistics. 3 (4): 1266–1269. doi:10.1214 / 09-AOAS312A.CS1 maint: ref = harv (odkaz)
- Gini, C. (1912). Variabilità e Mutabilità. Bologna: Tipografia di Paolo Cuppini.CS1 maint: ref = harv (odkaz)
- Kosorok, Michael R. (2009). "Diskuse o: Brownianově vzdálenostní kovarianci". Annals of Applied Statistics. 3 (4): 1270–1278. arXiv:1010.0822. doi:10.1214 / 09-AOAS312B. S2CID 88518490.CS1 maint: ref = harv (odkaz)
- Pearson, K. (1895). "Poznámka o regrese a dědictví v případě dvou rodičů". Sborník Královské společnosti. 58: 240–242. Bibcode:1895RSPS ... 58..240P.CS1 maint: ref = harv (odkaz)
- Pearson, K. (1895). „Poznámky k historii korelace“. Biometrika. 13: 25–45. doi:10.1093 / biomet / 13.1.25.CS1 maint: ref = harv (odkaz)
- Székely, Gábor J .; Rizzo, Maria L. (2009a). „Brownianova kovariance vzdálenosti“. Annals of Applied Statistics. 3 (4): 1236–1265. doi:10.1214 / 09-AOAS312. PMC 2889501. PMID 20574547.CS1 maint: ref = harv (odkaz)
- Székely, Gábor J .; Rizzo, Maria L. (2009b). "Rejoinder: Brownianova vzdálenost kovariance". Annals of Applied Statistics. 3 (4): 1303–1308. doi:10.1214 / 09-AOAS312REJ.CS1 maint: ref = harv (odkaz)
- Székely, Gabor J .; Rizzo, Maria L. (2014). "Částečná korelace vzdálenosti s metodami odlišností". Annals of Statistics. 42 (6): 2382–2412. arXiv:1310.2926. Bibcode:2014arXiv1310.2926S. doi:10.1214 / 14-AOS1255. S2CID 55801702.CS1 maint: ref = harv (odkaz)