Vzájemné informace - Mutual information

Vennův diagram ukazující aditivní a subtraktivní vztahy různých informačních měr spojených s korelovanými proměnnými a . Oblast obsažená v obou kruzích je společná entropie . Kruh vlevo (červený a fialový) je individuální entropie , přičemž červená je podmíněná entropie . Kruh vpravo (modrý a fialový) je s modrou bytostí . Fialová je vzájemné informace .

v teorie pravděpodobnosti a teorie informace, vzájemné informace (MI) ze dvou náhodné proměnné je mírou vzájemnosti závislost mezi těmito dvěma proměnnými. Přesněji kvantifikuje „množství informací“ (v%) Jednotky jako shannony, běžně nazývané bity) získané o jedné náhodné proměnné pozorováním druhé náhodné proměnné. Koncept vzájemné informace je úzce spojen s konceptem entropie náhodné proměnné, základního pojmu v teorii informací, který kvantifikuje očekávané "množství informací "uloženo v náhodné proměnné.

Není omezeno na reálné náhodné proměnné a lineární závislost jako korelační koeficient, MI je obecnější a určuje, jak odlišné společná distribuce dvojice je výsledkem mezních distribucí a . MI je očekávaná hodnota z bodová vzájemná informace (PMI).

Množství bylo definováno a analyzováno Claude Shannon v jeho památníku Matematická teorie komunikace, ačkoli to nenazval „vzájemná informace“. Tento termín byl vytvořen později Robert Fano.[1] Vzájemné informace jsou známé také jako zisk informací.

Definice

Nechat být dvojicí náhodných proměnných s hodnotami nad mezerou . Pokud je jejich společná distribuce a mezní rozdělení jsou a , je vzájemná informace definována jako

kde je Kullback – Leiblerova divergence.Poznámka, podle majetku Kullback – Leiblerova divergence, že se rovná nule přesně tehdy, když se společné rozdělení shoduje s produktem okrajů, tj. když a jsou nezávislé (a tedy pozorující nic ti neřekne ). Obecně je nezáporné, jedná se o měřítko ceny za kódování jako dvojice nezávislých náhodných proměnných, pokud ve skutečnosti nejsou.

Pokud jde o PMF pro diskrétní distribuce

Vzájemná informace dvou společně diskrétních náhodných proměnných a se počítá jako dvojnásobná částka:[2]:20

 

 

 

 

(Rovnice 1)

kde je společná pravděpodobnost Hmotnost funkce z a , a a jsou mezní pravděpodobnost hromadné funkce a resp.

Pokud jde o soubory PDF pro nepřetržitou distribuci

V případě společně spojitých náhodných proměnných je dvojitý součet nahrazen a dvojitý integrál:[2]:251

 

 

 

 

(Rovnice 2)

kde je nyní společná pravděpodobnost hustota funkce a , a a jsou funkce mezní hustoty pravděpodobnosti a resp.

Pokud logovací základna 2, jednotky vzájemné informace jsou bity.

Motivace

Vzájemná informace intuitivně měří informace, které a share: Měří, nakolik znalost jedné z těchto proměnných snižuje nejistotu ohledně druhé. Například pokud a jsou nezávislí, pak vědí neposkytuje žádné informace o a naopak, takže jejich vzájemné informace jsou nulové. Na druhém konci, pokud je deterministická funkce a je deterministická funkce pak všechny informace sdělené je sdílen s : vědět určuje hodnotu a naopak. Výsledkem je, že v tomto případě jsou vzájemné informace stejné jako nejistota obsažená v (nebo ) sám, konkrétně entropie z (nebo ). Tato vzájemná informace je navíc stejná jako entropie a jako entropie . (Velmi zvláštním případem je, když a jsou stejná náhodná proměnná.)

Vzájemná informace je měřítkem inherentní závislosti vyjádřené v společná distribuce z a vzhledem k meznímu rozdělení a za předpokladu nezávislosti. Vzájemné informace proto měří závislost v následujícím smyslu: kdyby a jen kdyby a jsou nezávislé náhodné proměnné. To je dobře vidět v jednom směru: pokud a jsou tedy nezávislé , a proto:

Kromě toho jsou vzájemné informace nezáporné (tj. viz níže) a symetrický (tj. viz. níže).

Vztah k jiným veličinám

Nezápornost

Použitím Jensenova nerovnost na definici vzájemné informace to můžeme ukázat je nezáporný, tj.[2]:28

Symetrie

Vztah k podmíněné a společné entropii

Vzájemné informace lze ekvivalentně vyjádřit jako:

kde a jsou okrajové entropie, a jsou podmíněné entropie, a je společná entropie z a .

Všimněte si analogie sjednocení, rozdílu a průniku dvou množin: v tomto ohledu jsou všechny výše uvedené vzorce patrné z Vennova diagramu uvedeného na začátku článku.

Pokud jde o komunikační kanál, ve kterém je výstup je hlučná verze vstupu , tyto vztahy jsou shrnuty na obrázku:

Vztahy mezi informačními teoretickými veličinami

Protože není negativní, v důsledku toho, . Zde uvádíme podrobný odpočet pro případ společně diskrétních náhodných proměnných:

Důkazy ostatních výše uvedených identit jsou podobné. Důkaz obecného případu (nejen diskrétní) je podobný, přičemž součty nahrazují integrály.

Intuitivně, pokud entropie je tedy považováno za míru nejistoty ohledně náhodné proměnné je měřítkem čeho dělá ne řekni o . To je „množství nejistoty po je známo ", a tedy pravou stranu druhé z těchto rovností lze číst jako" množství nejistoty v , minus množství nejistoty v který zůstává po je známo ", což odpovídá" míře nejistoty v který je odstraněn vědomím To potvrzuje intuitivní význam vzájemných informací jako množství informací (tj. Snížení nejistoty), které znalost jedné proměnné poskytuje o druhé.

Všimněte si, že v samostatném případě a proto . Tím pádem , a lze formulovat základní princip, že proměnná obsahuje alespoň tolik informací o sobě, kolik může poskytnout jakákoli jiná proměnná.

Vztah ke Kullback – Leiblerově divergenci

Pro společně diskrétní nebo společně spojité páry , vzájemná informace je Kullback – Leiblerova divergence výrobku z mezní rozdělení, , od společná distribuce , to znamená,

Kromě toho být podmíněnou funkcí hmotnosti nebo hustoty. Pak máme identitu

Důkaz pro společně diskrétní náhodné proměnné je následující:

Podobně lze tuto identitu stanovit pro společně spojité náhodné proměnné.

Všimněte si, že zde Kullback – Leiblerova divergence zahrnuje integraci nad hodnotami náhodné proměnné pouze a výraz stále označuje náhodnou proměnnou, protože je náhodný. Vzájemnou informaci lze tedy chápat také jako očekávání Kullback – Leiblerovy divergence jednorozměrná distribuce z z podmíněné rozdělení z daný : čím odlišnější jsou distribuce a jsou v průměru, tím větší je zisk informací.

Bayesovský odhad vzájemných informací

Pokud jsou k dispozici vzorky ze společné distribuce, lze k odhadu vzájemných informací o této distribuci použít Bayesovský přístup. První práce, která to ukázala, která také ukázala, jak udělat Bayesiánský odhad mnoha dalších informačních teoretických vlastností kromě vzájemných informací, byla [3]. Následní vědci to znovu využili [4]a prodloužena [5]tuto analýzu. Vidět [6]pro nedávný dokument založený na předchozí specificky přizpůsobené odhadu vzájemných informací per se. Kromě toho nedávno metoda odhadu, která zohledňuje spojité a vícerozměrné výstupy, , bylo navrženo v [7].

Předpoklady nezávislosti

Formulace Kullback-Leiblerovy divergence vzájemných informací vychází z toho, že má zájem o srovnání na plně faktorizované vnější produkt . V mnoha problémech, jako např nezáporná maticová faktorizace, jednoho zajímají méně extrémní faktorizace; konkrétně si přejeme porovnat na aproximaci matice nízkého řádu v nějaké neznámé proměnné ; to znamená do jaké míry by člověk mohl mít

Alternativně by člověka mohlo zajímat, kolik dalších informací přenáší svou faktorizaci. V takovém případě přebytečné informace, že plná distribuce přenáší faktorizaci matice je dána Kullback-Leiblerovou divergencí

Konvenční definice vzájemné informace je obnovena v krajním případě procesu má pouze jednu hodnotu pro .

Variace

Bylo navrženo několik variant vzájemných informací, aby vyhovovaly různým potřebám. Mezi nimi jsou normalizované varianty a zobecnění na více než dvě proměnné.

Metrický

Mnoho aplikací vyžaduje a metrický, tj. míra vzdálenosti mezi dvojicemi bodů. Množství

splňuje vlastnosti metriky (nerovnost trojúhelníku, nezápornost, nerozeznatelnost a symetrie). Tato metrika vzdálenosti je také známá jako variace informací.

Li jsou diskrétní náhodné proměnné, pak jsou všechny entropické členy nezáporné, takže a lze definovat normalizovanou vzdálenost

Metrika je univerzální metrika v tom, že pokud se jedná o jiné místo pro měření vzdálenosti a zblízka, pak také je bude soudit blízko.[8][pochybný ]

Zapojení definic to ukazuje

V teoreticko-teoretické interpretaci informací (viz obrázek pro Podmíněná entropie ), to je ve skutečnosti Vzdálenost Jaccard mezi a .

Konečně,

je také metrika.

Podmíněné vzájemné informace

Někdy je užitečné vyjádřit vzájemnou informaci dvou náhodných proměnných podmíněných na třetí.

Pro společně diskrétní náhodné proměnné toto má podobu

které lze zjednodušit jako

Pro společně spojité náhodné proměnné toto má podobu

které lze zjednodušit jako

Podmíněnost třetí náhodné proměnné může vzájemnou informaci buď zvýšit nebo snížit, ale vždy platí

pro diskrétní, společně distribuované náhodné proměnné . Tento výsledek byl použit jako základní stavební kámen pro prokázání jiného nerovnosti v teorii informací.

Vícerozměrné vzájemné informace

Bylo navrženo několik zobecnění vzájemných informací na více než dvě náhodné proměnné, jako např celková korelace (nebo více informací) a informace o interakci. Vyjádření a studium vícerozměrných vzájemných informací vyššího stupně bylo dosaženo ve dvou zdánlivě nezávislých pracích: McGill (1954) [9] kdo tyto funkce nazval „interakčními informacemi“ a Hu Kuo Ting (1962) [10] kdo také nejprve dokázal možnou negativitu vzájemných informací pro stupně vyšší než 2 a algebraicky zdůvodnil intuitivní korespondenci s Vennovými diagramy [11]

a pro

kde (jak je uvedeno výše) definujeme

(Tato definice vícerozměrných vzájemných informací je stejná jako definice informace o interakci s výjimkou změny znaménka, když je počet náhodných proměnných lichý.)

Vícerozměrná statistická nezávislost

Funkce vícerozměrných vzájemných informací zobecňují případ párové nezávislosti, který to uvádí kdyby a jen kdyby , na libovolnou početnou proměnnou. n proměnných je vzájemně nezávislých právě tehdy, když funkce vzájemných informací zmizí s (věta 2 [11]). V tomto smyslu lze použít jako upřesněné kritérium statistické nezávislosti.

Aplikace

Pro 3 proměnné Brenner et al. aplikoval vícerozměrné vzájemné informace na neurální kódování a nazval jejich negativitu „synergií“ [12] a Watkinson et al. aplikoval to na genetické vyjádření [13]. Pro libovolné k proměnné Tapia et al. aplikoval vícerozměrné vzájemné informace na genovou expresi [14][11]). Může to být nula, kladné nebo záporné [15]. Pozitivita odpovídá vztahům zobecňujícím párové korelace, nulita odpovídá rafinovanému pojetí nezávislosti a negativita detekuje vysoce dimenzionální „vznikající“ vztahy a shluknuté datové body [14]).

Jedno vysoce dimenzionální generalizační schéma, které maximalizuje vzájemné informace mezi společnou distribucí a dalšími cílovými proměnnými, se ukázalo být užitečné v výběr funkcí.[16]

Vzájemné informace se také používají v oblasti zpracování signálu jako a míra podobnosti mezi dvěma signály. Například metrika FMI[17] je měřítko výkonu fúze obrazu, které využívá vzájemné informace k měření množství informací, které obsahuje fúzovaný obraz o zdrojových obrazech. The Matlab kód pro tuto metriku najdete na.[18]. K dispozici je balíček pythonu pro výpočet všech vícerozměrných vzájemných informací, podmíněné vzájemné informace, společné entropie, celkové korelace, vzdálenost informací v datové sadě n proměnných [19].

Řízené informace

Řízené informace, , měří množství informací, které z procesu plynou na , kde označuje vektor a označuje . Termín řízené informace byl vytvořen James Massey a je definován jako

.

Všimněte si, že pokud , směrovaná informace se stává vzájemnou informací. Řízené informace mají mnoho aplikací v problémech, kde kauzalita hraje důležitou roli, jako např kapacita kanálu se zpětnou vazbou.[20][21]

Normalizované varianty

Normalizované varianty vzájemných informací poskytuje omezující koeficienty,[22] koeficient nejistoty[23] nebo odbornost:[24]

Dva koeficienty mají hodnotu v rozmezí [0, 1], ale nemusí být nutně stejné. V některých případech může být požadována symetrická míra, například následující nadbytek[Citace je zapotřebí ] opatření:

který dosahuje minima nuly, když jsou proměnné nezávislé, a maximální hodnotu

když se jedna proměnná stane zcela nadbytečnou se znalostí druhé. Viz také Redundance (informační teorie).

Dalším symetrickým měřítkem je symetrická nejistota (Witten & Frank 2005 ), dána

který představuje harmonický průměr ze dvou koeficientů nejistoty .[23]

Považujeme-li vzájemnou informaci za zvláštní případ celková korelace nebo duální celková korelace, normalizovaná verze jsou příslušně,

a

Tato normalizovaná verze známá také jako Poměr kvality informací (IQR) který kvantifikuje množství informací proměnné na základě jiné proměnné proti celkové nejistotě:[25]

Existuje normalizace[26] který vychází z prvního uvažování o vzájemné informaci jako analogii k kovariance (tím pádem Shannonova entropie je analogický k rozptyl ). Pak se normalizovaná vzájemná informace vypočítá podobně jako Pearsonův korelační koeficient,

Vážené varianty

V tradiční formulaci vzájemné informace

každý událost nebo objekt specifikováno je vážena odpovídající pravděpodobností . To předpokládá, že všechny objekty nebo události jsou ekvivalentní na rozdíl od jejich pravděpodobnost výskytu. V některých aplikacích však může nastat situace, že určitých objektů nebo událostí je více významný než ostatní, nebo že určité vzorce asociace jsou sémanticky důležitější než jiné.

Například deterministické mapování lze považovat za silnější než deterministické mapování , ačkoli tyto vztahy by přinesly stejné vzájemné informace. Je to proto, že vzájemné informace nejsou vůbec citlivé na jakékoli inherentní řazení v hodnotách proměnných (Cronbach 1954, Coombs, Dawes & Tversky 1970, Lockhead 1970 ), a proto není vůbec citlivý na formulář relačního mapování mezi přidruženými proměnnými. Pokud je žádoucí, aby bývalý vztah - ukazující shodu na všech hodnotách proměnných - byl posuzován silnější než pozdější vztah, je možné použít následující vážené vzájemné informace (Guiasu 1977 ).

který váží na pravděpodobnosti každého společného výskytu proměnné hodnoty, . To umožňuje, že určité pravděpodobnosti mohou mít větší či menší význam než jiné, což umožňuje kvantifikaci relevantní holistický nebo Prägnanz faktory. Ve výše uvedeném příkladu použití větších relativních vah pro , , a by mělo za následek větší hodnocení informativnost pro vztah než pro vztah , což může být žádoucí v některých případech rozpoznávání vzorů apod. Tato vážená vzájemná informace je formou vážené KL-divergence, o které je známo, že u některých vstupů má záporné hodnoty,[27] a existují příklady, kdy vážená vzájemná informace má také záporné hodnoty.[28]

Upravené vzájemné informace

Na rozdělení pravděpodobnosti lze pohlížet jako na oddíl sady. Potom se můžeme zeptat: kdyby byla množina náhodně rozdělena, jaké by bylo rozdělení pravděpodobností? Jaká by byla očekávaná hodnota vzájemné informace? The upravená vzájemná informace nebo AMI odečte očekávanou hodnotu MI, takže AMI je nula, když jsou dvě různá rozdělení náhodná, a jedna, když jsou dvě rozdělení stejná. AMI je definován analogicky k upravený Randův index dvou různých oddílů sady.

Absolutní vzájemná informace

S využitím myšlenek Kolmogorovova složitost lze uvažovat o vzájemné informaci dvou sekvencí nezávislé na jakémkoli rozdělení pravděpodobnosti:

Chcete-li zjistit, že toto množství je symetrické až do logaritmického faktoru () jeden vyžaduje řetězové pravidlo pro Kolmogorovovu složitost (Li & Vitányi 1997 ). Aproximace tohoto množství prostřednictvím komprese lze použít k definování a měření vzdálenosti provést a hierarchické shlukování sekvencí bez jakýchkoli znalost domény sekvencí (Cilibrasi & Vitányi 2005 ).

Lineární korelace

Na rozdíl od korelačních koeficientů, jako je například korelační koeficient momentu produktu, vzájemné informace obsahují informace o veškeré závislosti - lineární i nelineární - a nejen lineární závislost jako měřítko korelačního koeficientu. V úzkém případě, že společná distribuce pro a je rozdělit normální rozdělení (z čehož vyplývá zejména to, že obě marginální distribuce jsou normálně distribuovány), existuje přesný vztah mezi nimi a korelační koeficient (Gel'fand & Yaglom 1957 ).

Výše uvedenou rovnici lze pro dvojrozměrnou Gaussian odvodit následovně:

Proto,

Pro diskrétní data

Když a jsou omezeny na diskrétní počet stavů, data pozorování jsou shrnuta v a pohotovostní tabulka, s proměnnou řádku (nebo ) a proměnná sloupce (nebo ). Vzájemné informace jsou jedním z opatření sdružení nebo korelace mezi řádkovými a sloupcovými proměnnými. Mezi další opatření sdružení patří Pearsonův test chí-kvadrát statistika, G-test statistiky atd. Ve skutečnosti se vzájemné informace rovnají G-test statistika děleno , kde je velikost vzorku.

Aplikace

V mnoha aplikacích chce člověk maximalizovat vzájemné informace (čímž zvyšuje závislosti), což je často ekvivalentní minimalizaci podmíněná entropie. Mezi příklady patří:

kde je počet případů, kdy se bigram xy objeví v korpusu, je počet, kolikrát se unigram x objeví v korpusu, B je celkový počet bigramů a U je celkový počet unigramů.[29]

Viz také

Poznámky

  1. ^ Kreer, J. G. (1957). "Otázka terminologie". Transakce IRE na teorii informací. 3 (3): 208. doi:10.1109 / TIT.1957.1057418.
  2. ^ A b C Cover, T.M .; Thomas, J.A. (1991). Základy teorie informace (Wiley ed.). ISBN  978-0-471-24195-9.
  3. ^ Wolpert, D.H .; Wolf, D.R. (1995). Msgstr "Odhad funkcí rozdělení pravděpodobnosti z konečné sady vzorků". Fyzický přehled E. 52 (6): 6841–6854. Bibcode:1995PhRvE..52,6841W. CiteSeerX  10.1.1.55.7122. doi:10.1103 / PhysRevE.52.6841. PMID  9964199.
  4. ^ Hutter, M. (2001). "Distribuce vzájemných informací". Pokroky v systémech zpracování neurálních informací 2001.
  5. ^ Archer, E .; Park, I.M .; Polštář, J. (2013). „Bayesiánské a kvazi-Bayesovské odhady pro vzájemné informace z diskrétních dat“. Entropie. 15 (12): 1738–1755. Bibcode:2013Entrp..15.1738A. CiteSeerX  10.1.1.294.4690. doi:10,3390 / e15051738.
  6. ^ Wolpert, D.H .; DeDeo, S. (2013). Msgstr "Odhad funkcí distribucí definovaných na prostorech neznámé velikosti". Entropie. 15 (12): 4668–4699. arXiv:1311.4548. Bibcode:2013Entrp..15.4668W. doi:10,3390 / e15114668. S2CID  2737117.
  7. ^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019), „Informační-teoretická analýza vícerozměrných jednobuněčných signálních odpovědí“, PLOS výpočetní biologie, 15 (7): e1007132, arXiv:1808.05581, Bibcode:2019PLSCB..15E7132J, doi:10.1371 / journal.pcbi.1007132, PMC  6655862, PMID  31299056
  8. ^ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G .; Grassberger, Peter (2003). "Hierarchické shlukování založené na vzájemných informacích". arXiv:q-bio / 0311039. Bibcode:2003q.bio .... 11039K. Citovat deník vyžaduje | deník = (Pomoc)
  9. ^ McGill, W. (1954). "Vícerozměrný přenos informací". Psychometrika. 19 (1): 97–116. doi:10.1007 / BF02289159. S2CID  126431489.
  10. ^ Hu, K.T. (1962). "O množství informací". Teorie Probab. Appl. 7 (4): 439–447. doi:10.1137/1107041.
  11. ^ A b C Baudot, P .; Tapia, M .; Bennequin, D .; Goaillard, J.M. (2019). "Topologická informační analýza dat". Entropie. 21 (9). 869. arXiv:1907.04242. Bibcode:2019Entrp..21..869B. doi:10,3390 / e21090869. S2CID  195848308.
  12. ^ Brenner, N .; Strong, S .; Koberle, R .; Bialek, W. (2000). „Synergie v neurálním kódu“. Neural Comput. 12 (7): 1531–1552. doi:10.1162/089976600300015259. PMID  10935917. S2CID  600528.
  13. ^ Watkinson, J .; Liang, K .; Wang, X .; Zheng, T .; Anastassiou, D. (2009). „Odvození regulačních genových interakcí z údajů o expresi pomocí třícestných vzájemných informací“. Výzva Syst. Biol. Ann. N. Y. Acad. Sci. 1158 (1): 302–313. Bibcode:2009NYASA1158..302W. doi:10.1111/j.1749-6632.2008.03757.x. PMID  19348651. S2CID  8846229.
  14. ^ A b Tapia, M.; Baudot, P.; Formizano-Treziny, C.; Dufour, M.; Goaillard, J.M. (2018). "Neurotransmitter identity and electrophysiological phenotype are genetically coupled in midbrain dopaminergic neurons". Sci. Rep. 8 (1): 13637. Bibcode:2018NatSR...813637T. doi:10.1038/s41598-018-31765-z. PMC  6134142. PMID  30206240.
  15. ^ Hu, K.T. (1962). "On the Amount of Information". Teorie Probab. Appl. 7 (4): 439–447. doi:10.1137/1107041.
  16. ^ Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). An Introduction to Information Retrieval. Cambridge University Press. ISBN  978-0-521-86571-5.
  17. ^ Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). "A non-reference image fusion metric based on mutual information of image features". Počítače a elektrotechnika. 37 (5): 744–756. doi:10.1016/j.compeleceng.2011.07.012.
  18. ^ "Feature Mutual Information (FMI) metric for non-reference image fusion - File Exchange - MATLAB Central". www.mathworks.com. Citováno 4. dubna 2018.
  19. ^ "InfoTopo: Topological Information Data Analysis. Deep statistical unsupervised and supervised learning - File Exchange - Github". github.com/pierrebaudot/infotopopy/. Citováno 26. září 2020.
  20. ^ Massey, James (1990). "Causality, Feedback And Directed Informatio". Proc. 1990 Intl. Symp. na Info. Čt. and its Applications, Waikiki, Hawaii, Nov. 27-30, 1990. CiteSeerX  10.1.1.36.5688.
  21. ^ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (February 2009). "Finite State Channels With Time-Invariant Deterministic Feedback". Transakce IEEE na teorii informací. 55 (2): 644–662. arXiv:cs/0608070. doi:10.1109/TIT.2008.2009849. S2CID  13178.
  22. ^ Coombs, Dawes & Tversky 1970.
  23. ^ A b Stiskněte, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Section 14.7.3. Conditional Entropy and Mutual Information". Numerické recepty: Umění vědecké práce na počítači (3. vyd.). New York: Cambridge University Press. ISBN  978-0-521-88068-8.
  24. ^ White, Jim; Steingold, Sam; Fournelle, Connie. Performance Metrics for Group-Detection Algorithms (PDF). Interface 2004.
  25. ^ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny (2017). "Information Quality Ratio as a novel metric for mother wavelet selection". Chemometrie a inteligentní laboratorní systémy. 160: 59–71. doi:10.1016/j.chemolab.2016.11.012.
  26. ^ Strehl, Alexander; Ghosh, Joydeep (2003). "Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions" (PDF). The Journal of Machine Learning Research. 3: 583–617. doi:10.1162/153244303321897735.
  27. ^ Kvålseth, T. O. (1991). "The relative useful information measure: some comments". Informační vědy. 56 (1): 35–38. doi:10.1016/0020-0255(91)90022-m.
  28. ^ Pocock, A. (2012). Feature Selection Via Joint Likelihood (PDF) (Teze).
  29. ^ A b Parsing a Natural Language Using Mutual Information Statistics by David M. Magerman and Mitchell P. Marcus
  30. ^ Hugh Everett Theory of the Universal Wavefunction, Thesis, Princeton University, (1956, 1973), pp 1–140 (page 30)
  31. ^ Everett, Hugh (1957). "Relative State Formulation of Quantum Mechanics". Recenze moderní fyziky. 29 (3): 454–462. Bibcode:1957RvMP...29..454E. doi:10.1103/revmodphys.29.454. Archivovány od originál dne 2011-10-27. Citováno 2012-07-16.
  32. ^ GlobalMIT na Google Code
  33. ^ Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (February 2015). "Application of Mutual Information Methods in Time Distance Helioseismology". Sluneční fyzika. 290 (3): 659–671. arXiv:1501.05597. Bibcode:2015SoPh..290..659K. doi:10.1007/s11207-015-0650-y. S2CID  118472242.
  34. ^ Invariant Information Clustering for Unsupervised Image Classification and Segmentation by Xu Ji, Joao Henriques and Andrea Vedaldi

Reference