Celková korelace - Total correlation

v teorie pravděpodobnosti a zejména v teorie informace, celková korelace (Watanabe 1960) je jednou z několika zobecnění vzájemné informace. To je také známé jako vícerozměrné omezení (Garner 1962) nebo multiinformace (Studený & Vejnarová 1999). Kvantifikuje redundanci nebo závislost mezi sadou n náhodné proměnné.

Definice

Pro danou sadu n náhodné proměnné , celková korelace je definován jako Kullback – Leiblerova divergence ze společné distribuce k nezávislé distribuci ,

Tato divergence se snižuje na jednodušší rozdíl entropií,

kde je informační entropie proměnné , a je společná entropie sady proměnných . Pokud jde o diskrétní rozdělení pravděpodobnosti na proměnné , je celková korelace dána vztahem

Celková korelace je množství informací sdílené mezi proměnnými v sadě. Součet představuje množství informací v bity (za předpokladu logů základny-2), které by proměnné vlastnily, pokud by byly na sobě zcela nezávislé (neredundantní), nebo ekvivalentně průměrná délka kódu pro přenos hodnot všech proměnných, pokud by každá proměnná byla (optimálně) kódována nezávisle . Termín je aktuální množství informací, které sada proměnných obsahuje, nebo ekvivalentně, průměrná délka kódu pro přenos hodnot všech proměnných, pokud byla sada proměnných (optimálně) kódována společně. Rozdíl mezi těmito termíny proto představuje absolutní redundanci (v bitech) přítomnou v dané množině proměnných a poskytuje tak obecnou kvantitativní mírustruktura nebo organizace obsažené v souboru proměnných (Rothstein 1952). Celková korelace je také Kullback – Leiblerova divergence mezi skutečným rozdělením a jeho maximální aproximace entropického produktu .

Celková korelace kvantifikuje míru závislosti mezi skupinou proměnných. Téměř nulová celková korelace naznačuje, že proměnné ve skupině jsou v podstatě statisticky nezávislé; jsou zcela nesouvisející, v tom smyslu, že znalost hodnoty jedné proměnné neposkytuje žádnou představu o hodnotách ostatních proměnných. Na druhou stranu maximální celková korelace (pro pevnou sadu jednotlivých entropií ) darováno

a nastane, když určí jedna z proměnných Všechno ostatních proměnných. Proměnné jsou pak maximálně příbuzné v tom smyslu, že znalost hodnoty jedné proměnné poskytuje úplné informace o hodnotách všech ostatních proměnných a proměnné lze obrazně považovat za čepy, ve kterém poloha jednoho ozubeného kola určuje pozice všech ostatních (Rothstein 1952).

Je důležité si uvědomit, že se počítá celková korelace Všechno propouštění mezi množinou proměnných, ale že tato propouštění mohou být distribuována v celé škále proměnných různými komplikovanými způsoby (Garner 1962). Například některé proměnné v sadě mohou být zcela redundantní, zatímco jiné v sadě jsou zcela nezávislé. Možná ještě významněji může být nadbytečnost přenášena v interakcích různého stupně: Skupina proměnných nemusí mít žádné párové redundance, ale může mít vyšší řád interakce nadbytečnost typu ilustrovaného funkcí parity. Rozklad celkové korelace na jeho základní propouštění je zkoumán v řadě zdrojů (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin et al. 2008, Han 1978, Han 1980).

Podmíněná celková korelace

Podmíněná celková korelace je definována analogicky k celkové korelaci, ale ke každému členu je přidána podmínka. Podmíněná celková korelace je podobně definována jako Kullback-Leiblerova divergence mezi dvěma podmíněnými distribucemi pravděpodobnosti,

Analogicky k výše uvedenému podmíněná celková korelace klesá na rozdíl podmíněných entropií,

Použití celkové korelace

Shlukování a výběr funkcí algoritmy založené na celkové korelaci byly prozkoumány Watanabem. Alfonso a kol. (2010) aplikovali koncept totální korelace na optimalizaci vodních monitorovacích sítí.

Viz také

Reference

  • Alfonso, L., Lobbrecht, A. a Price, R. (2010). Optimalizace sítě pro monitorování hladiny vody v systémech Polder pomocí teorie informací, Výzkum vodních zdrojů, 46, W12553, 13 PP., 2010, doi:10.1029 / 2009WR008953.
  • Garner W R (1962). Nejistota a struktura jako psychologické koncepty, JohnWiley & Sons, New York.
  • Han TS (1978). Nezáporné míry entropie vícerozměrných symetrických korelací, Informace a kontrola 36, 133–156.
  • Han TS (1980). Několik vzájemných informací a více interakcí s údaji o frekvenci, Informace a kontrola 46, 26–45.
  • Jakulin A & Bratko I (2003a). Analysing Attribute Dependencies, in N Lavraquad {c}, D Gamberger, L Todorovski & H Blockeel, eds, Sborník příspěvků ze 7. evropské konference o zásadách a praxi získávání znalostí v databázích, Springer, Cavtat-Dubrovník, Chorvatsko, s. 229–240.
  • Jakulin A & Bratko I (2003b). Kvantifikace a vizualizace interakcí atributů [1].
  • Margolin A, Wang K, Califano A a Nemenman I (2010). Multivariační závislost a odvození genetických sítí. IET Syst Biol 4, 428.
  • McGill W J (1954). Vícerozměrný přenos informací, Psychometrika 19, 97–116.
  • Nemenman I (2004). Informační teorie, závislost více proměnných a odvození genetické sítě [2].
  • Rothstein J (1952). Organizace a entropie, Journal of Applied Physics 23, 1281–1282.
  • Studený M & Vejnarová J (1999). Multiinformační funkce jako nástroj pro měření stochastické závislosti, in M ​​I Jordan, ed., Učení v grafických modelech, MIT Press, Cambridge, MA, s. 261–296.
  • Watanabe S (1960). Informační teoretická analýza vícerozměrné korelace, IBM Journal of Research and Development 4, 66–82.