Rozdělení pravděpodobnosti - Probability distribution
v teorie pravděpodobnosti a statistika, a rozdělení pravděpodobnosti je matematický funkce což dává pravděpodobnost výskytu různých možných výsledky pro experiment.[1][2] Jedná se o matematický popis a náhodný fenomén z hlediska jeho ukázkový prostor a pravděpodobnosti z Události (podmnožiny ukázkového prostoru).[3]
Například pokud X se používá k označení výsledku losování („experiment“), poté rozdělení pravděpodobnosti X bude mít hodnotu 0,5 pro X = hlavya 0,5 pro X = ocasy (za předpokladu, že je mince spravedlivá). Mezi příklady náhodných jevů patří povětrnostní podmínky v budoucnu, výška člověka, zlomek studentů ve škole, výsledky průzkum, atd.[4]
Úvod
Rozdělení pravděpodobnosti je matematický popis pravděpodobností událostí, podmnožin ukázkový prostor. Ukázkový prostor, často označovaný ,[5] je soubor ze všech možných výsledky pozorovaného náhodného jevu; může to být libovolná sada: sada reálná čísla, sada vektory, sada libovolných nečíselných hodnot atd. Například by byl ukázkový prostor převrácení mince = {hlavy, ocasy} .
Definovat rozdělení pravděpodobnosti pro konkrétní případ náhodné proměnné (takže na ukázkový prostor lze nahlížet jako na číselnou množinu) je běžné rozlišovat oddělený a kontinuální náhodné proměnné. V samostatném případě stačí zadat a funkce pravděpodobnostní hmotnosti přiřazení pravděpodobnosti každému možnému výsledku: například při hodu na trh zemřít, každá ze šesti hodnot 1 až 6 má pravděpodobnost 1/6. Pravděpodobnost událost je pak definován jako součet pravděpodobností výsledků, které událost uspokojí; například pravděpodobnost události „kostky hodí sudou hodnotu“ je
Naproti tomu, když náhodná proměnná přebírá hodnoty z kontinua, pak má obvykle jakýkoli jednotlivý výsledek pravděpodobnost nula a pozitivní pravděpodobnost mohou mít pouze události, které obsahují nekonečně mnoho výsledků, například intervaly. Zvažte například měření hmotnosti kusu šunky v supermarketu a předpokládejte, že váha má mnoho číslic přesnosti. Pravděpodobnost, že váží přesně 500 g je nula, protože bude s největší pravděpodobností obsahovat nenulová desetinná místa. Při kontrole kvality by se nicméně dalo požadovat, aby balíček „500 g“ šunky musel vážit mezi 490 g a 510 g s pravděpodobností nejméně 98%, a tento požadavek je méně citlivý na přesnost měřicích přístrojů.
Spojitá rozdělení pravděpodobnosti lze popsat několika způsoby. The funkce hustoty pravděpodobnosti popisuje infinitezimální pravděpodobnost jakékoli dané hodnoty a pravděpodobnost, že výsledek leží v daném intervalu, lze vypočítat pomocí integrace funkce hustoty pravděpodobnosti v tomto intervalu.[6] Alternativní popis distribuce je pomocí kumulativní distribuční funkce, který popisuje pravděpodobnost, že náhodná proměnná není větší než zadaná hodnota (tj. P(X < X) pro některé X). Kumulativní distribuční funkcí je oblast pod funkce hustoty pravděpodobnosti z na X, jak je popsáno na obrázku vpravo.[7]
Obecná definice
Distribuci pravděpodobnosti lze popsat různými formami, například funkcí hromadné pravděpodobnosti nebo funkcí kumulativního rozdělení. Jeden z nejobecnějších popisů, který platí pro spojité a diskrétní proměnné, je pomocí funkce pravděpodobnosti jehož vstupní prostor souvisí s ukázkový prostor a dává pravděpodobnost jako jeho výstup.[8]
Pravděpodobnostní funkce P může brát jako argument podmnožiny samotného ukázkového prostoru, jako v příkladu losování mincí, kde je funkce P byl definován tak, že P(hlavy) = 0,5 a P(ocasy) = 0,5. Kvůli rozšířenému používání náhodné proměnné, které transformují ukázkový prostor na množinu čísel (např. , ), je častější studovat rozdělení pravděpodobnosti, jejichž argumentem jsou podmnožiny těchto konkrétních druhů množin (množinové sady),[9] a všechna rozdělení pravděpodobnosti popsaná v tomto článku jsou tohoto typu. Je běžné označovat jako P(X E) pravděpodobnost, že určitá proměnná X patří k určité události E.[4][10]
Výše uvedená funkce pravděpodobnosti charakterizuje rozdělení pravděpodobnosti, pouze pokud splňuje všechny Kolmogorovovy axiomy, to znamená:
- , takže pravděpodobnost je nezáporná;
- , takže žádná pravděpodobnost nepřekračuje ; a
- pro jakoukoli disjunktní rodinu sad .
Koncept funkce pravděpodobnosti je zpřesněn tím, že je definován jako prvek a pravděpodobnostní prostor , kde je soubor možných výsledků, je sada všech podmnožin - jejichž pravděpodobnost lze měřit a - je pravděpodobnostní funkce, nebo míra pravděpodobnosti, který přiřazuje pravděpodobnost každé z těchto měřitelných podmnožin .[11]
Distribuce pravděpodobnosti se obecně dělí do dvou tříd. A diskrétní rozdělení pravděpodobnosti je použitelný pro scénáře, kde je soubor možných výsledků oddělený (např. hod mincí, hod kostkou) a pravděpodobnosti jsou zde kódovány diskrétním seznamem pravděpodobností výsledků, známým jako funkce pravděpodobnostní hmotnosti. Na druhou stranu, spojitá rozdělení pravděpodobnosti jsou použitelné pro scénáře, kde soubor možných výsledků může nabývat hodnot v kontinuálním rozsahu (např. reálná čísla), jako je teplota v daný den. V tomto případě jsou pravděpodobnosti obvykle popsány a funkce hustoty pravděpodobnosti.[4][6][10] The normální distribuce je běžně se vyskytující spojité rozdělení pravděpodobnosti. Složitější experimenty, jako jsou ty, které zahrnují stochastické procesy definované v nepřetržitý čas, může požadovat použití obecnějších pravděpodobnostní opatření.
Distribuce pravděpodobnosti, jejíž ukázkový prostor je jednorozměrný (například reálná čísla, seznam popisků, seřazené popisků nebo binární), se nazývá univariate, zatímco distribuce, jejíž ukázkový prostor je a vektorový prostor se nazývá dimenze 2 nebo více vícerozměrný. Univariate distribuce dává pravděpodobnosti jeden náhodná proměnná převzetí různých alternativních hodnot; vícerozměrná distribuce (a společné rozdělení pravděpodobnosti ) uvádí pravděpodobnosti a náhodný vektor - seznam dvou nebo více náhodných proměnných - využívajících různé kombinace hodnot. Mezi důležité a běžně se vyskytující jednorozměrné rozdělení pravděpodobnosti patří binomická distribuce, hypergeometrická distribuce a normální distribuce. Běžně se vyskytující vícerozměrná distribuce je vícerozměrné normální rozdělení.
Kromě funkce pravděpodobnosti, funkce kumulativního rozdělení, funkce pravděpodobnostní hmotnosti a funkce hustoty pravděpodobnosti, funkce generování momentů a charakteristická funkce slouží také k identifikaci rozdělení pravděpodobnosti, protože jednoznačně určují základní kumulativní distribuční funkci.[12]
Terminologie
Níže jsou uvedeny některé klíčové pojmy a termíny, které jsou v literatuře na téma rozdělení pravděpodobnosti široce používány.[1]
Funkce pro diskrétní proměnné
- Pravděpodobnostní funkce: popisuje pravděpodobnost že událost , z prostoru vzorku.[8]
- Funkce pravděpodobnostní hmotnosti (PMF): funkce, která dává pravděpodobnost, že diskrétní náhodná proměnná se rovná nějaké hodnotě.
- Distribuce frekvence: tabulka, která zobrazuje frekvenci různých výsledků ve vzorku.
- Relativní distribuce frekvence: a rozdělení frekvence kde každá hodnota byla rozdělena (normalizována) počtem výsledků v a vzorek tj. velikost vzorku.
- Funkce rozdělení diskrétní pravděpodobnosti: obecný výraz označující způsob, jakým je rozdělena celková pravděpodobnost 1 Všechno různé možné výsledky (tj. přes celou populaci) pro diskrétní náhodnou proměnnou.
- Funkce kumulativní distribuce: funkce vyhodnocující pravděpodobnost že bude mít hodnotu menší nebo rovnou pro diskrétní náhodnou proměnnou.
- Kategorické rozdělení: pro diskrétní náhodné proměnné s konečnou sadou hodnot.
Funkce pro spojité proměnné
- Funkce hustoty pravděpodobnosti (pdf): funkce, jejíž hodnota v daném vzorku (nebo bodě) v souboru ukázkový prostor (soubor možných hodnot převzatých z náhodné proměnné) lze interpretovat jako poskytnutí a relativní pravděpodobnost že hodnota náhodné proměnné by se tomuto vzorku rovnala.
- Funkce spojitého rozdělení pravděpodobnosti: nejčastěji vyhrazeno pro spojité náhodné proměnné.
- Funkce kumulativní distribuce: funkce vyhodnocující pravděpodobnost že bude mít hodnotu menší nebo rovnou pro spojitou proměnnou.
- Kvantilní funkce: inverzní funkce kumulativní distribuční funkce. Dává takové, že s pravděpodobností , nepřekročí .
Základní pojmy
- Režim: pro diskrétní náhodnou proměnnou hodnotu s nejvyšší pravděpodobností; pro spojitou náhodnou proměnnou místo, kde má funkce hustoty pravděpodobnosti místní vrchol.
- Podpěra, podpora: sada hodnot, které lze náhodnou proměnnou předpokládat s nenulovou pravděpodobností. Pro náhodnou proměnnou , je někdy označován jako .[5]
- Ocas:[13] oblasti blízko hranic náhodné proměnné, pokud jsou v nich pmf nebo pdf relativně nízké. Obvykle má formu , nebo jejich spojení.
- Hlava:[13] region, kde je PMF nebo PDF relativně vysoký. Obvykle má formu .
- Očekávaná hodnota nebo znamenat: vážený průměr možných hodnot pomocí jejich pravděpodobností jako váhy; nebo jeho kontinuální analog.
- Medián: hodnota taková, že množina hodnot menší než medián a množina větší než medián mají pravděpodobnosti nejvýše polovinu.
- Rozptyl: druhý okamžik PMF nebo PDF o průměru; důležitým měřítkem disperze distribuce.
- Standardní odchylka: druhá odmocnina rozptylu, a tedy další míra rozptylu.
- Kvantilní: q-kvantil je hodnota takhle .
- Symetrie: vlastnost některých distribucí, ve kterých je část distribuce nalevo od konkrétní hodnoty (obvykle medián) zrcadlovým obrazem části napravo.
- Šikmost: míra, do jaké míry se PMF nebo PDF „nakloní“ na jednu stranu svého průměru. Třetí standardizovaný moment distribuce.
- Kurtosis: míra „tučnosti“ ocasu PMF nebo PDF. Čtvrtý standardizovaný okamžik distribuce.
Diskrétní rozdělení pravděpodobnosti
A diskrétní rozdělení pravděpodobnosti je rozdělení pravděpodobnosti, které může nabýt spočetným počtem hodnot.[14] V případě, že je rozsah hodnot počítatelně nekonečný, musí tyto hodnoty klesnout na nulu dostatečně rychle, aby se pravděpodobnosti sečetly až 1. Například pokud pro n = 1, 2, ..., součet pravděpodobností by byl 1/2 + 1/4 + 1/8 + ... = 1.
Známá diskrétní rozdělení pravděpodobnosti použitá ve statistickém modelování zahrnují Poissonovo rozdělení, Bernoulliho distribuce, binomická distribuce, geometrické rozdělení a negativní binomické rozdělení.[3] Navíc diskrétní rovnoměrné rozdělení se běžně používá v počítačových programech, které provádějí náhodný výběr se stejnou pravděpodobností mezi řadou možností.
Když vzorek (sada pozorování) je čerpána z větší populace, vzorkovací body mají empirické rozdělení je diskrétní a poskytuje informace o distribuci populace.
Funkce kumulativní distribuce
Ekvivalentně k výše uvedenému lze diskrétní náhodnou proměnnou definovat jako náhodnou proměnnou, jejíž kumulativní distribuční funkce (cdf) se zvyšuje pouze o skokové nespojitosti - to znamená, že jeho cdf se zvyšuje pouze tam, kde „skočí“ na vyšší hodnotu, a mezi těmito skoky je konstantní. Všimněte si však, že body, kde cdf skoky mohou tvořit hustou sadu reálných čísel. Body, kde dochází ke skokům, jsou přesně hodnoty, které může náhodná proměnná nabrat.
Reprezentace funkce Delta
V důsledku toho je diskrétní rozdělení pravděpodobnosti často reprezentováno jako zobecněné funkce hustoty pravděpodobnosti zahrnující Dirac delta funkce, což podstatně sjednocuje zpracování spojitých a diskrétních distribucí. To je obzvláště užitečné při řešení rozdělení pravděpodobnosti zahrnujících spojitou i diskrétní část.[15]
Reprezentace funkce indikátoru
Pro diskrétní náhodnou proměnnou X, nechť u0, u1, ... buď hodnoty, které může nabývat s nenulovou pravděpodobností. Označit
Tyto jsou disjunktní sady a pro takové sady
Z toho vyplývá, že pravděpodobnost, že X bere jakoukoli hodnotu kromě u0, u1, ... je nula, a tak lze psát X tak jako
s výjimkou množiny pravděpodobnosti nula, kde je funkce indikátoru z A. To může sloužit jako alternativní definice diskrétních náhodných proměnných.
Kontinuální rozdělení pravděpodobnosti
A spojité rozdělení pravděpodobnosti je rozdělení pravděpodobnosti, jehož podporou je nespočetná množina, například interval v reálném řádku.[16] Jsou jedinečně charakterizovány a kumulativní distribuční funkce které lze použít k výpočtu pravděpodobnosti pro každou podmnožinu podpory. Existuje mnoho příkladů spojitého rozdělení pravděpodobnosti: normální, jednotný, chi-kvadrát, a ostatní.
Náhodná proměnná má spojité rozdělení pravděpodobnosti, pokud existuje funkce takové, že pro každý interval pravděpodobnost patřící je dán integrálem přes .[17] Například pokud , pak bychom měli:[18]
Zejména pravděpodobnost vzít jakoukoli jedinou hodnotu (to znamená, ) je nula, protože integrální se shodnou horní a dolní mezí se vždy rovná nule. Proměnná, která splňuje výše uvedené, se nazývá spojitá náhodná proměnná. Jeho funkce kumulativní hustoty je definována jako
který má podle této definice vlastnosti:
- neklesá;
- ;
- a ;
- ; a
- je spojitý kvůli Riemannův integrál vlastnosti.[19]
Je také možné uvažovat opačným směrem, což umožňuje větší flexibilitu: pokud je funkce, která splňuje všechny výše uvedené vlastnosti kromě poslední představuje funkci kumulativní hustoty pro nějakou náhodnou proměnnou: diskrétní náhodná proměnná, pokud je kroková funkce a jinak spojitá náhodná proměnná.[20] To umožňuje kontinuální distribuce, které mají funkci kumulativní hustoty, ale nikoli funkci hustoty pravděpodobnosti, například Distribuce Cantor.
Často je nutné zobecnit výše uvedenou definici pro libovolnější podmnožiny reálné linie. V těchto kontextech je spojité rozdělení pravděpodobnosti definováno jako rozdělení pravděpodobnosti s kumulativní distribuční funkcí, která je absolutně kontinuální. Ekvivalentně se jedná o rozdělení pravděpodobnosti na reálná čísla to je absolutně kontinuální s respektem k Lebesgueovo opatření. Taková rozdělení mohou být reprezentována jejich funkce hustoty pravděpodobnosti. Li je taková absolutně spojitá náhodná proměnná, pak má a funkce hustoty pravděpodobnosti a jeho pravděpodobnost, že spadne do Lebesgue-měřitelné sady je:
kde je Lebesgueovým opatřením.
Poznámka k terminologii: někteří autoři používají termín „kontinuální distribuce“ k označení distribucí, jejichž kumulativní distribuční funkce jsou kontinuální, spíše než absolutně kontinuální. Tyto distribuce jsou ty takhle pro všechny . Tato definice zahrnuje (absolutně) kontinuální distribuce definované výše, ale také zahrnuje singulární distribuce, které nejsou ani absolutně spojité, ani diskrétní, ani jejich směsí a nemají hustotu. Příkladem je Distribuce Cantor.
Kolmogorov definice
V míra-teoretická formalizace teorie pravděpodobnosti, a náhodná proměnná je definována jako a měřitelná funkce od a pravděpodobnostní prostor do a měřitelný prostor . Vzhledem k tomu, že pravděpodobnosti událostí formuláře uspokojit Kolmogorovovy pravděpodobnostní axiomy, rozdělení pravděpodobnosti X je dopředné opatření z , což je míra pravděpodobnosti na uspokojující .[21][22][23]
Jiné druhy distribucí
Kontinuální a diskrétní distribuce s podporou na nebo jsou nesmírně užitečné pro modelování nesčetných jevů,[4][7] protože většina praktických distribucí je podporována na relativně jednoduchých podmnožinách, jako je hyperkrychle nebo koule. To však neplatí vždy a existují případy s podporou, které jsou ve skutečnosti komplikovanými křivkami v nějakém prostoru nebo podobné. V těchto případech je rozdělení pravděpodobnosti podporováno na obraze takové křivky a je pravděpodobné, že bude stanoveno empiricky, spíše než hledání uzavřeného vzorce.[24]
Jeden příklad je znázorněn na obrázku vpravo, který zobrazuje vývoj a soustava diferenciálních rovnic (běžně známý jako Rabinovich – Fabrikantovy rovnice ), které lze použít k modelování chování Langmuirovy vlny v plazma.[25] Když člověk studuje tento jev, pozoruje stavy z podmnožiny označené červeně. Dalo by se tedy zeptat, jaká je pravděpodobnost pozorování stavu v určité poloze červené podmnožiny; pokud taková pravděpodobnost existuje, nazývá se to míra pravděpodobnosti systému.[26][24]
Tento druh komplikované podpory se v systému objevuje poměrně často dynamické systémy. Není snadné zjistit, že systém má míru pravděpodobnosti, a hlavní problém je následující. Nechat být instantní v čase a podmnožina podpory, pokud pro systém existuje míra pravděpodobnosti, dalo by se očekávat frekvenci pozorování stavů uvnitř množiny by bylo stejné v intervalu a , což se nemusí stát; mohl by například oscilovat podobně jako sinus , jejíž limit kdy nekonverguje. Formálně opatření existuje pouze v případě, že limit relativní frekvence konverguje, když je systém pozorován až do nekonečné budoucnosti.[27] Odvětví dynamických systémů, které studuje existenci míry pravděpodobnosti, je ergodická teorie.
Všimněte si, že i v těchto případech může být rozdělení pravděpodobnosti, pokud existuje, stále označováno jako „spojité“ nebo „diskrétní“ v závislosti na tom, zda je podpora nespočetná nebo spočetná.
Generování náhodných čísel
Většina algoritmů je založena na a generátor pseudonáhodných čísel který produkuje čísla X které jsou rovnoměrně rozloženy v polootevřený interval [0,1). Tyto náhodné variace X se pak transformují pomocí nějakého algoritmu a vytvoří se nová náhodná proměnná s požadovaným rozdělením pravděpodobnosti. S tímto zdrojem jednotné pseudonáhodnosti lze generovat realizace libovolné náhodné proměnné.[28]
Předpokládejme například má rovnoměrné rozdělení mezi 0 a 1. Chcete-li vytvořit náhodnou Bernoulliho proměnnou pro některé , definujeme