Jensensova nerovnost - Jensens inequality - Wikipedia
![]() | tento článek potřebuje další citace pro ověření.Říjen 2011) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |

v matematika, Jensenova nerovnost, pojmenovaný po dánském matematikovi Johan Jensen, souvisí hodnota a konvexní funkce z integrální k integrálu konvexní funkce. Bylo prokázáno Jensenem v roce 1906.[1] Vzhledem k jeho obecnosti se nerovnost objevuje v mnoha formách v závislosti na kontextu, z nichž některé jsou uvedeny níže. Ve své nejjednodušší formě nerovnost uvádí, že konvexní transformace průměru je menší nebo rovna průměru použitému po konvexní transformaci; je jednoduchým důsledkem, že u konkávních transformací je to naopak.
Jensenova nerovnost zobecňuje tvrzení, že sekanční čára konvexní funkce leží výše graf funkce, což je Jensenova nerovnost pro dva body: sečna se skládá z vážených průměrů konvexní funkce (pro t ∈ [0,1]),
zatímco graf funkce je konvexní funkcí váženého průměru,
Jensenova nerovnost tedy je
V kontextu teorie pravděpodobnosti, obecně se uvádí v následující podobě: pokud X je náhodná proměnná a φ je tedy konvexní funkce
Rozdíl mezi oběma stranami nerovnosti, , se nazývá Jensenova mezera.[2]
Prohlášení
Klasická forma Jensenovy nerovnosti zahrnuje několik čísel a vah. Nerovnost lze obecně konstatovat buď pomocí jazyka teorie míry nebo (ekvivalentně) pravděpodobnost. V pravděpodobnostní situaci lze nerovnost dále zobecnit na její plná síla.
Konečná forma
Opravdu konvexní funkce , čísla v jeho doméně a kladné váhy , Jensenovu nerovnost lze konstatovat jako:
a nerovnost je obrácena, pokud je konkávní, který je
Rovnost platí tehdy a jen tehdy nebo je lineární na doméně obsahující .
Jako zvláštní případ, pokud váhy jsou si všechny rovny, pak (1) a (2) se stanou
Například funkce log (X) je konkávní, takže střídání v předchozím vzorci (4) se stanoví (logaritmus) známého aritmeticko-střední / geometricky-střední nerovnost:
Běžná aplikace má jako funkce jiné proměnné (nebo sady proměnných) , to znamená, . To vše se přenáší přímo na obecný souvislý případ: váhy Ai jsou nahrazeny nezápornou integrovatelnou funkcí F (X), jako je rozdělení pravděpodobnosti, a součty jsou nahrazeny integrály.
Míra-teoretická a pravděpodobnostní forma
Nechat být pravděpodobnostní prostor, takový, že . Li je nemovitý -hodnotená funkce, která je -integrovatelný, a pokud je konvexní funkce na skutečné lince, pak:
Ve skutečné analýze můžeme požadovat odhad na
kde , a je nezáporný Lebesgue-integrovatelný funkce. V tomto případě je Lebesgueova míra nemusí být jednota. Integrací substitucí však lze interval změnit tak, aby měl míru jednoty. Pak lze Jensenovu nerovnost použít k získání[3]
Stejný výsledek lze ekvivalentně uvést v a teorie pravděpodobnosti nastavení jednoduchou změnou notace. Nechat být pravděpodobnostní prostor, X an integrovatelný skutečný náhodná proměnná a φ A konvexní funkce. Pak:
V tomto nastavení pravděpodobnosti míra μ je míněno jako pravděpodobnost , integrál s ohledem na μ jako očekávaná hodnota a funkce jako náhodná proměnná X.
Všimněte si, že rovnost platí právě tehdy φ je lineární funkce na nějaké množině takhle (což následuje kontrolou níže uvedeného teoretického důkazu opatření).
Obecná nerovnost v pravděpodobnostním prostředí
Obecněji řečeno T být skutečný topologický vektorový prostor, a X A T-hodnota integrovatelný náhodná proměnná. V tomto obecném nastavení integrovatelný znamená, že existuje prvek v T, tak, že pro jakýkoli prvek z v dvojí prostor z T: , a . Pak pro jakoukoli měřitelnou konvexní funkci φ a jakékoli dílčíσ-algebra z :
Tady znamená očekávání podmíněno k σ-algebře . Toto obecné tvrzení se redukuje na předchozí, když topologický vektorový prostor T je skutečná osa, a je triviální σ-algebra {∅, Ω} (kde ∅ je prázdná sada, a Ω je ukázkový prostor ).[4]
Naostřený a zobecněný tvar
Nechat X být jednorozměrná náhodná proměnná se střední hodnotou a rozptyl . Nechat být dvakrát rozlišitelnou funkcí a definovat funkci
Pak[5]
Zejména když je tedy konvexní , a okamžitě následuje standardní forma Jensenovy nerovnosti pro případ, kdy dále se předpokládá, že je dvakrát diferencovatelný.
Důkazy


Jensenovu nerovnost lze prokázat několika způsoby a budou nabídnuty tři různé důkazy odpovídající různým výše uvedeným tvrzením. Než se pustíme do těchto matematických derivací, stojí za to analyzovat intuitivní grafický argument založený na pravděpodobnostním případě, kdy X je reálné číslo (viz obrázek). Za předpokladu hypotetického rozdělení X hodnot, lze okamžitě identifikovat polohu a jeho image v grafu. Všimněte si, že pro konvexní mapování Y = φ(X) odpovídající rozdělení Y hodnoty se stále více "roztahují" pro zvyšování hodnot X, je snadné vidět, že distribuce Y je širší v intervalu odpovídajícím X > X0 a užší X < X0 pro všechny X0; to platí také pro . V důsledku toho je na tomto obrázku očekávání Y se vždy posune nahoru s ohledem na polohu . Podobné úvahy platí, pokud je distribuce X pokrývá klesající část konvexní funkce nebo její klesající i rostoucí část. To „dokazuje“ nerovnost, tj.
s rovností, když φ(X) není striktně konvexní, např. když je to přímka, nebo kdy X následuje a zdegenerovaná distribuce (tj. je konstanta).
Důkazy níže formalizují tuto intuitivní představu.
Důkaz 1 (konečná forma)
Li λ1 a λ2 jsou dvě libovolná nezáporná reálná čísla taková λ1 + λ2 = 1 pak konvexnost φ naznačuje
To lze snadno zobecnit: pokud λ1, ..., λn jsou záporná reálná čísla taková, že λ1 + ... + λn = 1, pak
pro všechny X1, ..., Xn. Tento konečná forma Jensenovy nerovnosti lze dokázat indukce: hypotézami konvexity je tvrzení pravdivé pro n = 2. Předpokládejme, že to platí i pro některé n, je třeba to dokázat n + 1. Alespoň jeden z λi je přísně pozitivní, řekněme λ1; proto konvexní nerovností:
Od té doby
lze použít indukční hypotézy na poslední člen v předchozím vzorci, abychom získali výsledek, konkrétně konečnou formu Jensenovy nerovnosti.
Abychom z této konečné formy získali obecnou nerovnost, je třeba použít argument hustoty. Konečnou formu lze přepsat jako:
kde μn je míra daná libovolně konvexní kombinace z Dirac delty:
Protože konvexní funkce jsou kontinuální, a protože konvexní kombinace delta delta jsou slabě hustý v souboru pravděpodobnostních opatření (jak lze snadno ověřit) je obecné tvrzení získáno jednoduše omezujícím postupem.
Důkaz 2 (míra-teoretická forma)
Nechat G být skutečnou hodnotou μ-integrovatelné funkce v prostoru pravděpodobnosti Ω, a nechat φ být konvexní funkcí na reálných číslech. Od té doby φ je konvexní, u každého reálného čísla X máme neprázdnou sadu subderiváty, které lze považovat za čáry dotýkající se grafu φ na X, ale které jsou na nebo pod grafem φ ve všech bodech (podpůrné čáry grafu).
Nyní, pokud definujeme
z důvodu existence subderivátů pro konvexní funkce si můžeme vybrat A a b takhle
pro všechny skutečné X a
Ale pak tu máme
pro všechny X. Protože máme míru pravděpodobnosti, integrál je monotónní s μ(Ω) = 1 aby
podle přání.
Důkaz 3 (obecná nerovnost v pravděpodobnostním prostředí)
Nechat X být integrovatelná náhodná proměnná, která přijímá hodnoty ve skutečném topologickém vektorovém prostoru T. Od té doby je konvexní, pro všechny , množství
klesá jako θ blíží 0+. Zejména subdiferenciální z hodnoceno na X ve směru y je dobře definován
Je snadno vidět, že subdiferenciál je lineární y[Citace je zapotřebí ] (to je nepravdivé a tvrzení vyžaduje prokázání Hahn-Banachovy věty) a protože infimum přijaté na pravé straně předchozího vzorce je menší než hodnota stejného výrazu pro θ = 1, jeden dostane
Zejména pro libovolný dílčíσ-algebra můžeme vyhodnotit poslední nerovnost, když získat
Nyní, pokud vezmeme podmíněné očekávání na obou stranách předchozího výrazu dostaneme výsledek, protože:
linearitou subdiferenciálu v y proměnná a následující známá vlastnost souboru podmíněné očekávání:
Aplikace a zvláštní případy
Forma zahrnující funkci hustoty pravděpodobnosti
Předpokládat Ω je měřitelná podmnožina skutečné linie a F(X) je nezáporná funkce taková
V pravděpodobnostním jazyce, F je funkce hustoty pravděpodobnosti.
Pak se Jensenova nerovnost stává následujícím výrokem o konvexních integrálech:
Li G je jakákoli skutečně měřitelná měřitelná funkce a je konvexní v rozsahu G, pak
Li G(X) = X, pak se tato forma nerovnosti redukuje na běžně používaný speciální případ:
Toto se používá v Variační Bayesovské metody.
Příklad: sudý momenty náhodné proměnné
Li G(X) = X2n, a X je tedy náhodná proměnná G je konvexní jako
a tak
Zejména pokud nějaký sudý okamžik 2n z X je konečný, X má konečný průměr. Ukazuje rozšíření tohoto argumentu X má konečné okamžiky každé objednávky dělení n.
Alternativní konečná forma
Nechat Ω = {X1, ... Xn}, a vzít μ být počítání opatření na Ω, pak se obecná forma redukuje na výpis o částkách:
pokud λi ≥ 0 a
Existuje také nekonečná diskrétní forma.
Statistická fyzika
Jensenova nerovnost má zvláštní význam ve statistické fyzice, když je konvexní funkce exponenciální, což dává:
Kde očekávané hodnoty jsou s ohledem na některé rozdělení pravděpodobnosti v náhodná proměnná X.
Důkaz je v tomto případě velmi jednoduchý (srov. Chandler, kap. 5.5). Požadovaná nerovnost následuje přímo psaním
a poté aplikovat nerovnost EX ≥ 1 + X na konečný exponenciál.
Informační teorie
Li p(X) je skutečná hustota pravděpodobnosti pro X, a q(X) je další hustota, pak se použije Jensenova nerovnost pro náhodnou proměnnou Y(X) = q(X)/p(X) a konvexní funkce φ(y) = −log (y) dává
Proto:
výsledek volal Gibbsova nerovnost.
Ukazuje, že průměrná délka zprávy je minimalizována, pokud jsou kódy přiřazeny na základě skutečných pravděpodobností p spíše než jakákoli jiná distribuce q. Nezáporné množství se nazývá Kullback – Leiblerova divergence z q z p.
Od té doby −log (X) je striktně konvexní funkce pro X > 0, z toho vyplývá, že rovnost platí, když p(X) rovná se q(X) téměř všude.
Rao – Blackwellova věta
Li L je konvexní funkce a sub-sigma-algebra, pak z podmíněné verze Jensenovy nerovnosti dostaneme
Takže pokud δ (X) je nějaký odhadce nepozorovaného parametru θ vzhledem k vektoru pozorovatelných X; a pokud T(X) je dostatečná statistika pro θ; pak vylepšený odhadce ve smyslu menší očekávané ztráty L, lze získat výpočtem
očekávaná hodnota δ vzhledem k θ převzatá všemi možnými vektory pozorování X kompatibilní se stejnou hodnotou T(X) jak bylo pozorováno. Dále, protože T je dostatečná statistika, nezávisí na θ, proto se stává statistikou.
Tento výsledek je znám jako Rao – Blackwellova věta.
Viz také
- Karamatova nerovnost pro obecnější nerovnost
- Popoviciuova nerovnost
- Zákon průměrů
- Důkaz beze slov o Jensenově nerovnosti
Poznámky
- ^ Jensen, J. L. W. V. (1906). "Sur les fonctions convexes et les inégalités entre les valeurs moyennes". Acta Mathematica. 30 (1): 175–193. doi:10.1007 / BF02418571.
- ^ Gao, Xiang; Sitharam, Meera; Roitberg, Adrian (2019). „Hranice mezery Jensen a důsledky pro průměrně koncentrované distribuce“ (PDF). Australian Journal of Mathematical Analysis and Applications. 16 (2). arXiv:1712.05267.
- ^ Niculescu, Constantin P. „Integrální nerovnosti“, Str. 12.
- ^ Upozornění: V této obecnosti jsou zapotřebí další předpoklady o konvexní funkci a / nebo topologickém vektorovém prostoru, viz Příklad (1.3) na str. 53 palců Perlman, Michael D. (1974). „Jensenova nerovnost pro konvexní funkci s vektorem v nekonečně dimenzionálním prostoru“. Journal of Multivariate Analysis. 4 (1): 52–65. doi:10.1016 / 0047-259X (74) 90005-0.
- ^ Liao, J .; Berg, A (2018). „Ostření Jensenovy nerovnosti“. Americký statistik. arXiv:1707.08644. doi:10.1080/00031305.2017.1419145.
- ^ Bradley, CJ (2006). Úvod do nerovností. Leeds, Velká Británie: United Kingdom Mathematics Trust. str. 97. ISBN 978-1-906001-11-7.
Reference
- David Chandler (1987). Úvod do moderní statistické mechaniky. Oxford. ISBN 0-19-504277-8.
- Tristan Needham (1993) „Vizuální vysvětlení Jensenovy nerovnosti“, Americký matematický měsíčník 100(8):768–71.
- Nicola Fusco; Paolo Marcellini; Carlo Sbordone (1996). Analisi Matematica Due. Liguori. ISBN 978-88-207-2675-1.
- Walter Rudin (1987). Skutečná a komplexní analýza. McGraw-Hill. ISBN 0-07-054234-1.
externí odkazy
- Nerovnost operátora Jensena Hansena a Pedersena.
- „Jensenova nerovnost“, Encyclopedia of Mathematics, Stiskněte EMS, 2001 [1994]
- Weisstein, Eric W. „Jensenova nerovnost“. MathWorld.
- Arthur Lohwater (1982). „Úvod do nerovností“. Online elektronická kniha ve formátu PDF.