Přizpůsobení rozdělení pravděpodobnosti - Probability distribution fitting - Wikipedia
Přizpůsobení rozdělení pravděpodobnosti nebo jednoduše distribuční armatura je montáž a rozdělení pravděpodobnosti k sérii údajů týkajících se opakovaného měření proměnného jevu.
Cílem distribuční armatury je předpovědět the pravděpodobnost nebo do předpověď the frekvence výskytu rozsahu jevu v určitém intervalu.
Existuje mnoho rozdělení pravděpodobnosti (viz seznam rozdělení pravděpodobnosti ) z nichž některé lze přizpůsobit pozorovanější frekvenci dat více než jiné, v závislosti na charakteristikách jevu a distribuci. Distribuce poskytující těsné spojení má vést k dobrým předpovědím.
V distribučním přizpůsobení je tedy třeba vybrat distribuci, která dobře vyhovuje datům.
Výběr distribuce
Volba vhodného rozdělení závisí na přítomnosti nebo nepřítomnosti symetrie souboru dat s ohledem na střední hodnota.
Symetrické rozdělení
Pokud jsou data symetricky distribuována kolem průměru, zatímco frekvence výskytu dat dále od průměru klesá, lze například vybrat normální distribuce, logistická distribuce, nebo Studentova t-distribuce. První dva jsou velmi podobné, zatímco poslední, s jedním stupněm volnosti, má „těžší ocasy“, což znamená, že hodnoty dále od střední hodnoty se vyskytují relativně častěji (tj. špičatost je vyšší). The Cauchyovo rozdělení je také symetrický.
Šikmé distribuce doprava
Když mají větší hodnoty tendenci být dále od průměru než menší hodnoty, má člověk zkosené rozdělení doprava (tj. šikmost ), lze například vybrat normální distribuce protokolu (tj. hodnoty protokolu jsou data normálně distribuováno ), log-logistická distribuce (tj. hodnoty protokolu dat následují a logistická distribuce ), Gumbelova distribuce, exponenciální rozdělení, Paretova distribuce, Weibullova distribuce, Distribuce otřepů, nebo Fréchetová distribuce. Poslední čtyři distribuce jsou ohraničeny vlevo.
Šikmé distribuce doleva
Když mají menší hodnoty tendenci být dále od střední hodnoty než větší hodnoty, jeden má rozložení zešikmení doleva (tj. Je zde záporná zešikmení), lze například vybrat čtvercové normální rozdělení (tj. normální rozdělení aplikované na druhou mocninu datových hodnot),[1] obrácené (zrcadlené) rozdělení Gumbel,[1] the Distribuce dagum (zrcadlené Burr distribuce), nebo Gompertzova distribuce, který je ohraničen vlevo.
Techniky montáže
Existují následující techniky distribučního přizpůsobení:[2]
- Parametrické metody, kterým parametry distribuce se počítají z datové řady.[3] Parametrické metody jsou:
Například parametr (dále jen očekávání ) lze odhadnout podle znamenat dat a parametru (dále jen rozptyl ) lze odhadnout z standardní odchylka údajů. Průměr se zjistí jako , kde je hodnota dat a počet dat, zatímco směrodatná odchylka se počítá jako . S těmito parametry mnoho distribucí, např. normální rozdělení, jsou zcela definovány.
- Regresní metodapomocí transformace kumulativní distribuční funkce takže a lineární vztah se nachází mezi kumulativní pravděpodobnost a hodnoty dat, které může být také nutné transformovat, v závislosti na zvoleném rozdělení pravděpodobnosti. U této metody je třeba odhadnout kumulativní pravděpodobnost pomocí poloha vykreslování.
Například kumulativní Gumbelova distribuce lze linearizovat na , kde je datová proměnná a , s je kumulativní pravděpodobnost, tj. pravděpodobnost, že hodnota dat je menší než . Tedy pomocí poloha vykreslování pro , jeden najde parametry a z lineární regrese na a distribuce Gumbel je plně definována.
Zobecnění distribucí
Je obvyklé logaritmicky transformovat data tak, aby odpovídala symetrickému rozdělení (jako normální a logistické ) na data poslouchající distribuci, která je kladně zkosená (tj. zkosená doprava, s znamenat > režimu, a s ocasem pravé ruky, který je delší než ocas levé ruky), viz lognormální distribuce a logistická distribuce. Podobného efektu lze dosáhnout převzetím druhé odmocniny dat.
Přizpůsobit symetrickou distribuci datům, která se řídí negativně zkosenou distribucí (tj. Zkosenou vlevo, s znamenat < režimu, a s ocasem na pravé straně je to kratší než ocas na levé straně) je možné použít kvadratické hodnoty dat k dosažení shody.
Obecněji lze zvýšit data na výkon p aby se vešly symetrické distribuce k datům dodržujícím distribuci jakékoli šikmosti, přičemž p <1, když je šikmost pozitivní a p > 1, když je šikmost záporná. Optimální hodnota p je nalezen a numerická metoda. Numerická metoda může sestávat z předpokladu rozsahu p hodnoty, poté opakovaně aplikovat postup přizpůsobení distribuce pro všechny předpokládané hodnoty p hodnoty a nakonec výběr hodnoty p pro které je součet čtverců odchylek vypočítaných pravděpodobností od měřených frekvencí (chi na druhou ) je minimální, jak je tomu v CumFreq.
Zobecnění zvyšuje flexibilitu pravděpodobnostních distribucí a zvyšuje jejich použitelnost v distribučním kování.
Inverze šikmosti
Šikmé distribuce mohou být invertovány (nebo zrcadleny) nahrazením v matematickém výrazu kumulativní distribuční funkce (F) svým doplňkem: F '= 1-F, získání doplňková distribuční funkce (také zvaný funkce přežití ), který dává zrcadlový obraz. Tímto způsobem se distribuce, která je zkosená doprava, transformuje do distribuce, která je zkosená doleva a naopak.
Příklad. F výraz pozitivně zkosený Gumbelova distribuce je: F = exp [-exp {- (X-u)/0.78s}], kde u je režimu (tj. hodnota vyskytující se nejčastěji) a s je standardní odchylka. Gumbelovu distribuci lze transformovat pomocí F '= 1-exp [-exp {- (X-u)/0.78s}]. Tato transformace poskytuje inverzní, zrcadlené nebo doplňkové Gumbellovo rozdělení, které se může hodit k datové řadě, která se řídí negativně zkosenou distribucí.
Technika inverze šikmosti zvyšuje počet distribucí pravděpodobnosti dostupných pro distribuční tvarování a rozšiřuje možnosti distribučního tvarování.
Posun distribucí
Některá rozdělení pravděpodobnosti, například exponenciální, nepodporují datové hodnoty (X) roven nebo menší než nula. Přesto, pokud jsou k dispozici záporná data, lze takové distribuce stále používat jako náhradu X podle Y=X-Xm, kde Xm je minimální hodnota X. Tato náhrada představuje posun rozdělení pravděpodobnosti v pozitivním směru, tj. Doprava, protože Xm je negativní. Po dokončení distribuční montáže Y, korespondence X-hodnoty jsou nalezeny z X=Y+Xm, což představuje zpětný posun distribuce v záporném směru, tj. doleva.
Technika posunu distribuce zvyšuje šanci najít správně vhodné rozdělení pravděpodobnosti.
Složené distribuce
Existuje možnost použít dvě různá rozdělení pravděpodobnosti, jedno pro nižší rozsah dat a jedno pro vyšší, jako například Laplaceova distribuce. Rozsahy jsou odděleny bodem zlomu. Použití takových složených (diskontinuálních) distribucí pravděpodobnosti může být vhodné, když data studovaného jevu byla získána za dvou různých podmínek.[7]
Nejistota predikce
Předpovědi výskytu na základě přizpůsobeného rozdělení pravděpodobnosti podléhají nejistota, který vyplývá z následujících podmínek:
- Skutečné rozdělení pravděpodobnosti událostí se může lišit od přizpůsobeného rozdělení, protože sledovaná datová řada nemusí být zcela reprezentativní pro skutečnou pravděpodobnost výskytu jevu v důsledku náhodná chyba
- Výskyt událostí v jiné situaci nebo v budoucnu se může lišit od namontovaného rozdělení, protože tento výskyt může také podléhat náhodným chybám
- Změna podmínek prostředí může způsobit změnu pravděpodobnosti výskytu jevu
Odhad nejistoty v prvním a druhém případě lze získat pomocí binomické rozdělení pravděpodobnosti například pomocí pravděpodobnosti překročení Pe (tj. šance, že událost X je větší než referenční hodnota Xr z X) a pravděpodobnost nepřekročení Pn (tj. šance, že událost X je menší nebo roven referenční hodnotě Xr, tomu se také říká kumulativní pravděpodobnost ). V tomto případě existují pouze dvě možnosti: buď existuje překročení, nebo není překročení. Tato dualita je důvodem, proč je použitelné binomické rozdělení.
S binomickou distribucí lze získat a interval predikce. Takový interval také odhaduje riziko selhání, tj. Pravděpodobnost, že předpokládaná událost stále zůstane mimo interval spolehlivosti. Analýza důvěry nebo rizika může zahrnovat: lhůta pro vrácení T = 1 / Pe jak se to děje v hydrologie.
Dobře padne
Zařazením dobrota fit z různých distribucí lze získat dojem, která distribuce je přijatelná a která ne.
Funkce histogramu a hustoty
Z kumulativní distribuční funkce (CDF) lze odvodit a histogram a funkce hustoty pravděpodobnosti (PDF).
Viz také
Reference
- ^ A b Levé (záporně) zkosené frekvenční histogramy lze přizpůsobit čtvercovým normálním nebo zrcadleným pravděpodobnostním funkcím Gumbel. On-line: [1]
- ^ Frekvenční a regresní analýza. Kapitola 6 v: H.P. Ritzema (ed., 1994), Zásady a aplikace odvodněníPubl. 16, s. 175–224, Mezinárodní institut pro melioraci a zlepšování půdy (ILRI), Wageningen, Nizozemsko. ISBN 9070754339. Stažení zdarma z webové stránky [2] pod č. 12 nebo přímo ve formátu PDF: [3]
- ^ H. Cramér, „Matematické metody statistiky“, Princeton Univ. Press (1946)
- ^ Hosking, J.R.M. (1990). "L-momenty: analýza a odhad distribucí pomocí lineárních kombinací statistik objednávek". Journal of the Royal Statistical Society, Series B. 52: 105–124. JSTOR 2345653.
- ^ Aldrich, John (1997). „R. A. Fisher a maximální pravděpodobnost v letech 1912–1922“. Statistická věda. 12 (3): 162–176. doi:10.1214 / ss / 1030037906. PAN 1617519.
- ^ Úvod do složeného rozdělení pravděpodobnosti
- ^ Software pro zobecněné a složené rozdělení pravděpodobnosti. In: International Journal of Mathematical and Computational Methods, leden 2019. On line: [4]
- ^ Frekvenční předpovědi a jejich binomické limity spolehlivosti. In: International Commission for Irrigation and Drrainage, Special Technical Session: Economic Aspects of Flood Control and non-Structural Measures, Dubrovnik, Yougoslavia, 1988. Online
- ^ Benson, M.A. 1960. Charakteristika frekvenčních křivek na základě teoretického 1000letého záznamu. In: T.Dalrymple (Ed.), Flood frequency analysis. US Geological Survey Water Supply Paper, 1543-A, str. 51-71.
- ^ Software pro přizpůsobení distribuce pravděpodobnosti