Maximální informační koeficient - Maximal information coefficient

v statistika, maximální informační koeficient (MIC) je měřítkem síly lineární nebo nelineární asociace mezi dvěma proměnnými X aY.

MIC patří do třídy statistik s maximálním neparametrickým průzkumem založeným na informacích (MINE).[1] V simulační studii MIC překonal některé vybrané testy nízké spotřeby,[1] byly však vzneseny obavy ohledně snížení statistická síla při detekci některých asociací v nastavení s malou velikostí vzorku ve srovnání s výkonnými metodami, jako je korelace vzdálenosti a Heller – Heller – Gorfine (HHG).[2] Srovnání s těmito metodami, u nichž MIC překonal výkon, byla provedena u Simona a Tibshiraniho[3] a v Gorfine, Heller a Heller.[4] To je nárokováno[1] že MIC přibližně splňuje vlastnost nazvanou ekvitabilita což dokládají vybrané simulační studie.[1] Později se ukázalo, že žádný netriviální koeficient nemůže přesně uspokojit ekvitabilita vlastnost definovaná Reshefem a kol.,[1][5] ačkoli tento výsledek byl zpochybněn.[6] Některými kritikami MIC se zabývají Reshef et al. v dalších studiích publikovaných na arXiv.[7]

Přehled

Využívá maximální informační koeficient binning jako prostředek k podání žádosti vzájemné informace na spojitých náhodných proměnných. Binning se již nějakou dobu používá jako způsob aplikace vzájemných informací na kontinuální distribuce; k čemuž MIC navíc přispívá, je metodika pro výběr počtu košů a výběr maxima v mnoha možných sítích.

Důvodem je to, že přihrádky pro obě proměnné by měly být voleny takovým způsobem, aby vzájemná informace mezi proměnnými byla maximální. Toho je dosaženo kdykoli .[Poznámka 1] Když je tedy vzájemná informace maximální přes binování dat, měli bychom očekávat, že následující dvě vlastnosti budou držet, stejně jako to umožňuje vlastní povaha dat. Za prvé, koše by měly zhruba stejnou velikost, protože entropie a jsou maximalizovány binningem stejné velikosti. A za druhé, každý koš X bude zhruba odpovídat zásobníku v Y.

Vzhledem k tomu, že proměnné X a Y jsou reálné, je téměř vždy možné pro každou vytvořit přesně jeden koš (X,y) datový bod, a to by přineslo velmi vysokou hodnotu MI. Aby se zabránilo tvorbě tohoto druhu triviálního dělení, autoři článku navrhují použití řady košů pro X a jehož produkt je relativně malý ve srovnání s velikostí N vzorku dat. Konkrétně navrhují:

V některých případech je možné dosáhnout dobré korespondence mezi a s čísly tak nízkými jako a , zatímco v ostatních případech může být počet požadovaných košů vyšší. Maximum pro je určeno H (X), což je zase určeno počtem košů v každé ose, proto bude hodnota vzájemné informace záviset na počtu košů vybraných pro každou proměnnou. Aby bylo možné porovnat hodnoty vzájemných informací získané s oddíly různých velikostí, je hodnota vzájemných informací normalizována vydělením maximální dosažitelnou hodnotou pro danou velikost oddílu. Stojí za zmínku, že podobný postup adaptivního binování pro odhad vzájemných informací byl navržen již dříve.[8]Entropie je maximalizována rovnoměrným rozdělením pravděpodobnosti, nebo v tomto případě přihrádkami se stejným počtem prvků. Rovněž entropie kloubu je minimalizována tím, že má vzájemnou korespondenci mezi zásobníky. Pokud takové hodnoty dosadíme do vzorce, můžeme vidět, že maximální hodnota dosažitelná MI pro daný pár počtu košů je . Tato hodnota se tedy používá jako normalizační dělitel pro každou dvojici počtů bin.

Nakonec normalizovaná maximální hodnota vzájemné informace pro různé kombinace a je uveden v tabulce a jako hodnota statistiky je vybrána maximální hodnota v tabulce.

Je důležité si uvědomit, že vyzkoušet všechna možná schémata binování, která uspokojí je výpočetně neproveditelné i pro malé n. V praxi proto autoři používají heuristiku, která může nebo nemusí najít skutečné maximum.

Poznámky

  1. ^ Dolní indexy „b“ byly použity k zdůraznění, že vzájemná informace je počítána pomocí košů

Reference

  1. ^ A b C d E Reshef, D. N .; Reshef, Y. A .; Finucane, H. K .; Grossman, S.R .; McVean, G.; Turnbaugh, P. J .; Lander, E. S.; Mitzenmacher, M .; Sabeti, P. C. (2011). „Detekce nových asociací ve velkých souborech dat“. Věda. 334 (6062): 1518–1524. doi:10.1126 / science.1205438. PMC  3325791. PMID  22174245.
  2. ^ Heller, R .; Heller, Y .; Gorfine, M. (2012). "Konzistentní multivariační test asociace založený na řadách vzdáleností". Biometrika. 100 (2): 503–510. arXiv:1201.3522. doi:10.1093 / biomet / ass070.
  3. ^ Noah Simon a Robert Tibshirani, Komentář k tématu „Detekce nových asociací ve velkých souborech dat“, Reshef et al., Science 16. prosince 2011
  4. ^ „Komentář k“ zjišťování nových asociací ve velkých souborech dat"" (PDF). Archivovány od originál (PDF) dne 8. 8. 2017.
  5. ^ Rovnost, vzájemné informace a maximální informační koeficient od Justina B. Kinneyho, Gurinder S. Atwal, arXiv 31. ledna 2013
  6. ^ Murrell, Ben; Murrell, Daniel; Murrell, Hugh (2014). "R2-pravedlivost je uspokojivá ". Sborník Národní akademie věd. 111 (21): E2160 – E2160. doi:10.1073 / pnas.1403623111.
  7. ^ Analýza ekvitability maximálního informačního koeficientu se srovnáním Davida Reshefa, Yakira Reshefa, Michaela Mitzenmachera, Pardise Sabetiho, arXiv 27. ledna 2013
  8. ^ Fraser, Andrew M .; Swinney, Harry L. (02.02.186). "Nezávislé souřadnice podivných atraktorů ze vzájemné informace". Fyzický přehled A. 33 (2): 1134–1140. doi:10.1103 / PhysRevA.33.1134.