Korelace vzdálenosti - Distance correlation

v statistika a v teorie pravděpodobnosti, korelace vzdálenosti nebo kovarianční vzdálenost je měřítkem závislost mezi dvěma spárovanými náhodné vektory libovolné, ne nutně stejné, dimenze. Korelační koeficient populační vzdálenosti je nulový právě tehdy, jsou-li náhodné vektory nezávislý. Vzdálená korelace tedy měří lineární i nelineární asociaci mezi dvěma náhodnými proměnnými nebo náhodnými vektory. To je v rozporu s Pearsonova korelace, který dokáže detekovat pouze lineární asociaci mezi dvěma náhodné proměnné.

Korelaci vzdálenosti lze použít k provedení a statistický test závislosti s a permutační test. Jeden nejprve vypočítá korelaci vzdálenosti (zahrnující přesměrování euklidovských distančních matic) mezi dvěma náhodnými vektory a poté porovná tuto hodnotu s korelacemi vzdáleností mnoha zamíchaných dat.

Několik sad (Xy) bodů s koeficientem korelace vzdálenosti o X a y pro každou sadu. Porovnejte s grafem na korelace

Pozadí

Klasická míra závislosti, Pearsonův korelační koeficient,[1] je citlivý hlavně na lineární vztah mezi dvěma proměnnými. Korelaci vzdálenosti zavedla v roce 2005 společnost Gábor J. Székely na několika přednáškách k řešení tohoto Pearsonova nedostatku korelace, a sice, že pro závislé proměnné to může být snadno nula. Korelace = 0 (nekorelace) neznamená nezávislost, zatímco korelace vzdálenosti = 0 znamená nezávislost. První výsledky korelace vzdálenosti byly publikovány v letech 2007 a 2009.[2][3] Bylo prokázáno, že kovariance vzdálenosti je stejná jako Brownianova kovariance.[3] Tato opatření jsou příklady energetické vzdálenosti.

Korelace vzdálenosti je odvozena z řady dalších veličin, které se používají v její specifikaci, konkrétně: rozptyl vzdálenosti, směrodatná odchylka vzdálenosti, a kovarianční vzdálenost. Tato množství mají stejné role jako obyčejné momenty s odpovídajícími názvy ve specifikaci Pearsonův korelační koeficient produkt-moment.

Definice

Kovarianční vzdálenost

Začněme definicí kovariance vzdálenosti vzorku. Nechť (XkYk), k = 1, 2, ..., n být statistický vzorek z dvojice náhodných proměnných se skutečnou nebo vektorovou hodnotou (XY). Nejprve spočítejte n podle n distanční matice (Aj, k) a (bj, k) obsahující všechny párové vzdálenosti

kde || ⋅ || označuje Euklidovská norma. Pak vezměte všechny dvojnásobně vycentrované vzdálenosti

kde je j-tý řádek znamená, je k-tý sloupec znamená a je velký průměr matice vzdáleností X vzorek. Zápis je podobný pro b hodnoty. (V maticích centrovaných vzdáleností (Aj, k) a (Bj,k) všechny řádky a všechny sloupce se sčítají k nule.) Na druhou kovariance vzdálenosti vzorku (skalární) je jednoduše aritmetický průměr produktů Aj, k Bj, k:

Statistika Tn = n dCov2n(X, Y) určuje konzistentní vícerozměrný test nezávislosti náhodných vektorů v libovolných rozměrech. Implementace viz dcov.test funkce v energie balíček pro R.[4]

Hodnota populace kovarianční vzdálenost lze definovat ve stejných liniích. Nechat X být náhodná proměnná, která bere hodnoty v a str-dimenzionální euklidovský prostor s distribucí pravděpodobnosti μ a nechte Y být náhodná proměnná, která bere hodnoty v a q-dimenzionální euklidovský prostor s distribucí pravděpodobnosti νa předpokládejme to X a Y mít konečná očekávání. Psát si

Nakonec definujte populační hodnotu kovariance druhé mocniny vzdálenosti X a Y tak jako

Lze ukázat, že to odpovídá následující definici:

kde E označuje očekávanou hodnotu a a jsou nezávislé a identicky distribuované. Náhodné proměnné s aktivací a označit nezávislé a identicky distribuované (iid) kopie proměnných a a jsou podobně id. [5] Kovarianční vzdálenost lze vyjádřit pomocí klasických Pearsonových kovariance,cov, jak následuje:

Tato identita ukazuje, že kovariance vzdálenosti není stejná jako kovariance vzdáleností, cov (||XX' ||, ||YY ' ||). To může být nula, i když X a Y nejsou nezávislí.

Alternativně lze kovarianci vzdálenosti definovat jako váženou L2 norma vzdálenosti mezi spojem charakteristická funkce náhodných proměnných a součin jejich marginálních charakteristických funkcí:[6]

kde , , a jsou charakteristické funkce z (X, Y), X, a Y, respektive str, q označit euklidovskou dimenzi X a Y, a tedy o s a t, a Cstr, Cq jsou konstanty. Funkce hmotnosti je vybrán k vytvoření měřítka ekvivariantního a rotačního invariantního měřítka, které u závislých proměnných nedosáhne nuly.[6][7] Jedna interpretace definice charakteristické funkce spočívá v tom, že proměnné EisX a EITY jsou cyklická reprezentace X a Y s různými obdobími danými s a ta výraz ϕX, Y(s, t) − ϕX(s) ϕY(t) v čitateli definice charakteristické funkce je vzdálenost kovariance jednoduše klasická kovariance EisX a EITY. Definice charakteristické funkce jasně ukazuje, že dCov2(X, Y) = 0 pouze a jen tehdy X a Y jsou nezávislé.

Rozptyl vzdálenosti a směrodatná odchylka vzdálenosti

The rozptyl vzdálenosti je speciální případ kovariance vzdálenosti, když jsou obě proměnné identické. Populační hodnota rozptylu vzdálenosti je druhá odmocnina z

kde označuje očekávanou hodnotu, je nezávislá a identicky distribuovaná kopie a je nezávislý na a a má stejnou distribuci jako a .

The rozptyl vzdálenosti vzorku je druhá odmocnina z

což je příbuzný Corrado Gini je průměrný rozdíl představen v roce 1912 (ale Gini nepracoval se středovými vzdálenostmi).[8]

The směrodatná odchylka vzdálenosti je druhá odmocnina z rozptyl vzdálenosti.

Korelace vzdálenosti

The korelace vzdálenosti [2][3] dvou náhodných proměnných se získá dělením jejich kovarianční vzdálenost produktem jejich standardní směrodatné odchylky vzdálenosti. Korelace vzdálenosti je

a korelace vzdálenosti vzorku je definována dosazením kovariance vzdálenosti vzorku a rozptylu vzdálenosti pro výše uvedené populační koeficienty.

Pro snadný výpočet korelace vzdálenosti vzorku viz dcor funkce v energie balíček pro R.[4]

Vlastnosti

Korelace vzdálenosti

  1. a ; to je v rozporu s Pearsonovou korelací, která může být negativní.
  2. kdyby a jen kdyby X a Y jsou nezávislé.
  3. znamená, že rozměry lineárních podprostorů překlenuty X a Y vzorky jsou téměř jistě stejné a pokud předpokládáme, že tyto podprostory jsou stejné, pak v tomto podprostoru pro nějaký vektor A, skalární b, a ortonormální matice .

Kovarianční vzdálenost

  1. a ;
  2. pro všechny konstantní vektory , skaláry a ortonormální matice .
  3. Pokud náhodné vektory a jsou pak nezávislé
    Rovnost platí tehdy a jen tehdy a jsou obě konstanty, nebo a jsou obě konstanty, nebo jsou vzájemně nezávislé.
  4. kdyby a jen kdyby X a Y jsou nezávislé.

Tato poslední vlastnost je nejdůležitějším efektem práce se středovými vzdálenostmi.

Statistika je zkreslený odhadce . Pod nezávislostí X a Y [9]

Nestranný odhad je dán Székely a Rizzo.[10]

Rozptyl vzdálenosti

  1. kdyby a jen kdyby téměř jistě.
  2. právě když je každé pozorování vzorku totožné.
  3. pro všechny konstantní vektory A, skaláry ba ortonormální matice .
  4. Li X a Y jsou pak nezávislé .

Rovnost platí v bodě (iv) právě tehdy, je-li jedna z náhodných proměnných X nebo Y je konstanta.

Zobecnění

Kovarianci vzdálenosti lze zobecnit tak, aby zahrnovala mocniny euklidovské vzdálenosti. Definovat

Pak pro každého , a jsou nezávislé právě tehdy . Je důležité si uvědomit, že tato charakteristika neplatí pro exponenty ; v tomto případě pro bivariate , je deterministická funkce Pearsonovy korelace.[2] Li a jsou pravomoci odpovídajících vzdáleností, , pak kovarianci vzdálenosti vzorku lze definovat jako nezáporné číslo, pro které

Jeden může prodloužit na metrický prostor -hodnota náhodné proměnné a : Pokud má zákon v metrickém prostoru s metrickým , pak definujte , , a (za předpokladu je konečný, tj. má konečný první okamžik), . Pak pokud má zákon (v možném jiném metrickém prostoru s konečným prvním okamžikem), definujte

To není pro všechny takové nezáporné pokud oba metrické prostory mají záporný typ.[11] Tady, metrický prostor má negativní typ, pokud je izometrické do podskupiny a Hilbertův prostor.[12] Pokud mají oba metrické prostory silný negativní typ, pak iff jsou nezávislé.[11]

Alternativní definice kovariance vzdálenosti

Originál kovarianční vzdálenost byl definován jako druhá odmocnina z , spíše než samotný čtvercový koeficient. má vlastnost, že je energetická vzdálenost mezi společnou distribucí a produkt jeho okrajů. Podle této definice se však rozptyl vzdálenosti spíše než směrodatná odchylka vzdálenosti měří ve stejných jednotkách jako vzdálenosti.

Alternativně by se dalo definovat kovarianční vzdálenost být druhou mocninou energetické vzdálenosti: V tomto případě je směrodatná odchylka vzdálenosti se měří ve stejných jednotkách jako vzdálenost a existuje nezaujatý odhad pro kovarianci vzdálenosti populace.[10]

Podle těchto alternativních definic je korelace vzdálenosti definována také jako čtverec , spíše než druhá odmocnina.

Alternativní formulace: Brownova kovariance

Brownova kovariance je motivována zevšeobecněním pojmu kovariance ke stochastickým procesům. Čtverec kovariance náhodných proměnných X a Y lze zapsat v následující podobě:

kde E označuje očekávaná hodnota a prvočíslo označuje nezávislé a identicky distribuované kopie. Potřebujeme následující zobecnění tohoto vzorce. Pokud U (s), V (t) jsou libovolné náhodné procesy definované pro všechna reálná s a t, pak definujte verzi X se středem U pomocí

kdykoli existuje odečtená podmíněná očekávaná hodnota a označuje se YPROTI verze Y na střed.[3][13][14] Kovariance (U, V) (X, Y) je definována jako nezáporné číslo, jehož čtverec je

kdykoli je pravá strana nezáporná a konečná. Nejdůležitějším příkladem je situace, kdy U a V jsou oboustranně nezávislé Brownovy pohyby /Wienerovy procesy s očekáváním nula a kovariancí |s| + |t| − |st| = 2 min (s,t) (pouze pro nezáporné s, t). (Jedná se o dvojnásobnou kovarianci oproti standardnímu Wienerovu procesu; zde faktor 2 zjednodušuje výpočty.) V tomto případě (U,PROTI) kovariance se nazývá Brownova kovariance a je označen

Existuje překvapivá náhoda: Brownova kovariance je stejná jako kovariance vzdálenosti:

a tudíž Brownova korelace je stejná jako korelace vzdálenosti.

Na druhou stranu, pokud nahradíme Brownův pohyb deterministickou funkcí identity id pak Covid(X,Y) je prostě absolutní hodnota klasického Pearsona kovariance,

Související metriky

Lineární a nelineární interakce mohou detekovat i další korelační metriky, včetně korelačních metrik založených na jádře (například Hilbert-Schmidtovo kritérium nezávislosti nebo HSIC). Korelační vzdálenost a metriky založené na jádře lze použít v metodách, jako je kanonická korelační analýza a analýza nezávislých komponent výtěžek silnější statistická síla.

Viz také

Poznámky

  1. ^ Pearson 1895
  2. ^ A b C Székely, Gábor J .; Rizzo, Maria L .; Bakirov, Nail K. (2007). "Měření a testování nezávislosti pomocí korelace vzdáleností". Annals of Statistics. 35 (6): 2769–2794. arXiv:0803.4101. doi:10.1214/009053607000000505. S2CID  5661488.
  3. ^ A b C d Székely, Gábor J .; Rizzo, Maria L. (2009). „Brownianova kovariance vzdálenosti“. Annals of Applied Statistics. 3 (4): 1236–1265. doi:10.1214 / 09-AOAS312. PMC  2889501. PMID  20574547.
  4. ^ A b energetický balíček pro R
  5. ^ Székely & Rizzo 2014, str. 11
  6. ^ A b Székely & Rizzo 2009a, str. 1249, Věta 7, (3.7).
  7. ^ Székely, Gábor J .; Rizzo, Maria L. (2012). "Na jedinečnost kovariancí vzdálenosti". Statistika a pravděpodobnostní dopisy. 82 (12): 2278–2282. doi:10.1016 / j.spl.2012.08.007.
  8. ^ Gini 1912
  9. ^ Székely & Rizzo 2009b
  10. ^ A b Székely & Rizzo 2014
  11. ^ A b Lyons, Russell (2014). "Kovarianční vzdálenost v metrických prostorech". Letopisy pravděpodobnosti. 41 (5): 3284–3305. arXiv:1106.5758. doi:10.1214 / 12-AOP803. S2CID  73677891.
  12. ^ Klebanov, L. B. (2005). N-vzdálenosti a jejich aplikace. Karolinum Press, Univerzita Karlova, Praha.
  13. ^ Bickel & Xu 2009
  14. ^ Kosorok 2009

Reference

externí odkazy