Tweedie distribuce - Tweedie distribution
v pravděpodobnost a statistika, Tweedie distribuce jsou rodina rozdělení pravděpodobnosti které zahrnují čistě kontinuální normální, gama a Inverzní Gaussian distribuce, čistě diskrétní měřítko Poissonovo rozdělení a třída sloučenina Poisson – gama distribuce, které mají kladnou hmotnost na nule, ale jsou jinak spojité.[1]Distribuce Tweedie jsou zvláštním případem modely exponenciálního rozptylu a jsou často používány jako distribuce pro zobecněné lineární modely.[2]
Distribuce Tweedie byly pojmenovány Bent Jørgensen[3] po Maurice Tweedie, statistik a lékařský fyzik na University of Liverpool, UK, který v roce 1984 představil první důkladnou studii těchto distribucí.[1][4][2]
Definice
Distribuce (reprodukční) Tweedie jsou definovány jako podrodina (reprodukční) modely exponenciálního rozptylu (ED), se zvláštním znamenat -rozptyl vztah. A náhodná proměnná Y je distribuován Tweedie Twstr(μ, σ2), pokud s průměrem , parametr pozitivní disperze a
kde se nazývá Tweedie power parameter.The rozdělení pravděpodobnosti Pθ, σ2 na měřitelné sady A, darováno
pro nějakou σ-konečnou míru νλ.Tato reprezentace používá kanonický parametr θ exponenciálního modelu dispersonu a kumulační funkce
kde jsme použili nebo ekvivalentně .
Vlastnosti
Modely aditivní exponenciální disperze
Právě popsané modely jsou v reprodukční formě. Model exponenciální disperze má vždy dvojí: aditivní formu. Li Y je tedy reprodukční s je v aditivní formě ED*(θ,λ), pro Tweedie Tw*str(μ, λ). Aditivní modely mají tu vlastnost, že rozdělení součtu nezávislých náhodných proměnných,
pro který Zi ~ ED*(θ,λi) s pevnou θ a různé λ jsou členy rodiny distribucí se stejnými θ,
Reprodukční modely exponenciální disperze
Existuje druhá třída modelů exponenciálního rozptylu označená náhodnou proměnnou
kde σ2 = 1/λ, známé jako modely reprodukční exponenciální disperze. Mají tu vlastnost, pro kterou n nezávislé náhodné proměnné Yi ~ ED (μ,σ2/wi), s váhovými faktory wi a
vážený průměr proměnných dává,
U reprodukčních modelů je vážený průměr nezávislých náhodných proměnných s pevnou hodnotou μ a σ2 a různé hodnoty pro wi je členem rodiny distribucí se stejným μ a σ2.
Modely exponenciální disperze Tweedie jsou aditivní i reprodukční; máme tedy duality transformace
Měřítko invariance
Třetí vlastností modelů Tweedie je, že jsou měřítko neměnné: Pro model reprodukční exponenciální disperze Twstr(μ, σ2) a jakákoli pozitivní konstanta C máme vlastnost uzavření při transformaci měřítka,
Funkce rozptylu výkonu Tweedie
Definovat varianční funkce pro modely exponenciálního rozptylu používáme mapování střední hodnoty, vztah mezi kanonickým parametrem θ a průměr μ. Je definována funkcí
s kumulativní funkcí .v varianční funkce PROTI(μ) je konstruován z mapování střední hodnoty,
Tady je exponent mínus τ−1(μ) označuje spíše inverzní funkci než reciproční. Průměr a rozptyl aditivní náhodné proměnné je pak E (Z) = λμ a var (Z) = λV(μ).
Měřítko invariance znamená, že funkce rozptylu se řídí vztahem PROTI(μ) = μ str.[2]
Odchylka Tweedie
Jednotka deviace reprodukční distribuce Tweedie je dána
Funkce generující kumulativ Tweedie
Vlastnosti modelů exponenciální disperze nám dávají dva diferenciální rovnice.[2] První souvisí s mapováním střední hodnoty a funkcí rozptylu navzájem,
Druhý ukazuje, jak mapování průměrné hodnoty souvisí s kumulační funkce,
Tyto rovnice lze vyřešit za účelem získání kumulační funkce pro různé případy modelů Tweedie. Funkci generující kumulant (CGF) lze poté získat z kumulační funkce. Aditivum CGF je obecně specifikováno rovnicí
a reprodukční CGF od
kde s je proměnná generující funkci.
U doplňkových modelů Tweedie mají CGF formu,
a pro reprodukční modely,
Aditivní a reprodukční modely Tweedie jsou běžně označovány symboly Tw*str(θ,λ) a Twstr(θ,σ2).
První a druhý derivát CGF, s s = 0, získá průměr a rozptyl. Lze tedy potvrdit, že u aditivních modelů se rozptyl vztahuje k průměru podle mocenského zákona,
Tweedie věta o konvergenci
Modely exponenciální disperze Tweedie jsou zásadní ve statistické teorii v důsledku jejich rolí jako ohnisek konvergence pro širokou škálu statistických procesů. Jørgensen et al se ukázala jako věta, která specifikuje asymptotické chování variačních funkcí známých jako Tweedieova konvergenční věta ".[5] Tato věta je z technického hlediska uvedena takto:[2] Funkce rozptylu jednotek je pravidelná str na nulu (nebo nekonečno) za předpokladu, že PROTI(μ) ~ C0μstr pro μ jak se blíží nule (nebo nekonečnu) pro všechny skutečné hodnoty str a C0 > 0. Potom pro jednotku rozptyl funkce pravidelné objednávky str buď na nulu, nebo na nekonečno a pro
pro všechny , a my máme
tak jako nebo kde je konvergence prostřednictvím hodnot C takhle cμ je v doméně θ a Cstr−2/σ2 je v doméně λ. Model musí být nekonečně dělitelný jako C2−str blíží se nekonečnu.[2]
V netechnických termínech tato věta naznačuje, že jakýkoli model exponenciální disperze, který asymptoticky manifestuje zákon rozptylu k střední hodnotě, musí mít funkci rozptylu, která spadá do doména přitažlivosti modelu Tweedie. Téměř všechny distribuční funkce s konečnými funkcemi generujícími kumulant se kvalifikují jako modely exponenciálního rozptylu a většina modelů s exponenciálním rozptylem vykazuje rozptylové funkce této formy. Mnoho distribucí pravděpodobnosti má proto rozptylové funkce, které vyjadřují toto asymptotické chování, a distribuce Tweedie se stávají ohnisky konvergence pro širokou škálu datových typů.[6]
Související distribuce
Distribuce Tweedie zahrnují řadu známých distribucí i některé neobvyklé, z nichž každá je specifikována doména parametru indexu. Máme
- extrémně stabilní distribuce, str < 0,
- normální distribuce, str = 0,
- Poissonovo rozdělení, str = 1,
- složené rozdělení Poisson – gama, 1 < str < 2,
- gama distribuce, str = 2,
- pozitivní stabilní distribuce, 2 < str < 3,
- Inverzní Gaussovo rozdělení, str = 3,
- pozitivní stabilní distribuce, str > 3 a
- extrémně stabilní distribuce, str = ∞.
Pro 0 <str <1 neexistuje žádný model Tweedie. Všimněte si, že vše stabilní distribuce ve skutečnosti znamenají generované stabilními distribucemi.
Výskyt a aplikace
Modely Tweedie a Taylorův zákon o moci
Taylorův zákon je empirický zákon v ekologie který spojuje rozptyl počtu jedinců druhu na jednotku plochy stanoviště s odpovídajícím průměrem pomocí a mocenský zákon vztah.[7] Pro počet obyvatel Y s průměrem µ a variance var (Y), Je napsán Taylorův zákon,
kde A a str jsou oba kladné konstanty. Vzhledem k tomu, že R. R. Taylor popsal tento zákon v roce 1961, bylo k jeho vysvětlení nabízeno mnoho různých vysvětlení, od chování zvířat,[7] A náhodná procházka Modelka,[8] A stochastický model narození, úmrtí, imigrace a emigrace,[9] v důsledku rovnováhy a nerovnováhy statistická mechanika.[10] Neexistuje shoda ohledně vysvětlení tohoto modelu.
Vzhledem k tomu, že Taylorův zákon je matematicky totožný s výkonovým zákonem rozptylu ke střednímu, který charakterizuje Tweedieho modely, zdálo se rozumné použít tyto modely a Tweedieho konvergenční teorém k vysvětlení pozorovaného shlukování zvířat a rostlin spojených s Taylorovým zákonem.[11][12] Většina pozorovaných hodnot pro exponent mocninového zákona str klesly v intervalu (1,2), a tak by se zdálo vhodné použít Tweedieho sloučeninu Poissonovo-gama rozdělení. Porovnání empirická distribuční funkce k teoretické sloučenině Poissonovo-gama rozdělení poskytlo prostředky k ověření konzistence této hypotézy.[11]
Zatímco konvenční modely Taylorova zákona měly tendenci zahrnovat ad hoc chování zvířat nebo populační dynamika předpokladů by Tweedieova věta o konvergenci znamenala, že Taylorův zákon je výsledkem obecného matematického konvergenčního efektu stejně jako teorém centrálního limitu určuje chování konvergence určitých typů náhodných dat. Ve skutečnosti je vyžadován jakýkoli matematický model, aproximace nebo simulace, která je navržena tak, aby poskytla Taylorův zákon (na základě této věty), aby konvergovala do podoby Tweedieho modelů.[6]
Tweedie konvergence a 1 /F hluk
Růžový šum, nebo 1 /F hluk, označuje vzorec hluku charakterizovaný vztahem mocnina mezi jeho intenzitami S(F) na různých frekvencích F,
kde bezrozměrný exponent y ∈ [0,1]. Nachází se v různých přírodních procesech.[13] Mnoho různých vysvětlení pro 1 /F hluk existuje, je založena na široce držené hypotéze Self-organizovaný kritičnost kde dynamické systémy blízké a kritický bod jsou považovány za projevující se scale-invariant prostorové a / nebo časové chování.
V této podkapitole je matematické spojení mezi 1 /F bude popsán hluk a Tweedieův zákon rozptylu k střední hodnotě. Nejprve musíme představit vlastní podobné procesy: Pro posloupnost čísel
s průměrem
odchylky
rozptyl
a autokorelační funkce
se zpožděním k, pokud autokorelace této sekvence má chování na velké vzdálenosti
tak jako k→∞ a kde L(k) je pomalu se měnící funkce při velkých hodnotách kse tato sekvence nazývá sebepodobný proces.[14]
The způsob rozšiřování košů lze použít k analýze podobných procesů. Zvažte sadu stejně velkých nepřekrývajících se košů, které rozdělují původní sekvenci N prvky do skupin m stejně velké segmenty (N / m je celé číslo), takže lze definovat nové reprodukční sekvence založené na středních hodnotách:
Rozptyl určený z této posloupnosti se změní, protože se velikost zásobníku změní tak, že
právě tehdy, má-li autokorelace omezující formu[15]
Lze také sestrojit sadu odpovídajících aditivních sekvencí
na základě rozšiřujících se košů,
Za předpokladu, že funkce autokorelace vykazuje stejné chování, budou aditivní sekvence poslouchat vztah
Od té doby a jsou konstanty, tento vztah představuje zákon odchylky od střední moci s str = 2 - d.[6][16]
The dvojpodmínečné výše uvedený vztah mezi zákonem rozptylu k střední moci a autokorelační funkcí mocenského zákona a Věta Wiener – Khinchin[17] znamenat, že jakákoli posloupnost, která vykazuje metodu rozptylu k průměru pomocí metody rozšiřování zásobníků, se také projeví 1 /F hluk a naopak. Konvergenční teorém Tweedie navíc na základě svého centrálního limitu podobného účinku generování distribucí, které projevují výkonové funkce rozptyl-na-průměr, bude také generovat procesy, které projeví 1 /F hluk.[6] Tweedieova konvergenční věta tak poskytuje alternativní vysvětlení původu 1 /F hluk, na základě jeho centrálního limitu podobného účinku.
Stejně jako teorém centrálního limitu vyžaduje, aby určité druhy náhodných procesů byly zaměřeny na jejich konvergenci Gaussovo rozdělení a tak vyjádřit bílý šum, Tweedieova věta o konvergenci vyžaduje, aby určité negaussovské procesy byly zaměřeny na konvergenci distribucí Tweedie, které vyjadřují 1 /F hluk.[6]
Modely Tweedie a multifraktalita
Z vlastností sebepodobných procesů exponent mocninového zákona str = 2 - d souvisí s Hurstův exponent H a fraktální dimenze D podle[15]
Jednorozměrná datová sekvence sebepodobných dat může demonstrovat zákon rozptylu k střední mocnině s lokálními variacemi v hodnotě str a tedy v hodnotě D. Když fraktální struktury projevují lokální variace fraktální dimenze, říká se o nich multifraktály. Příklady datových sekvencí, které vykazují lokální variace v str jako je tento, zahrnují odchylky vlastního čísla z Gaussovské ortogonální a jednotné soubory.[6] Tweedieho složená distribuce Poisson – gama sloužila k modelování multifraktality založené na lokálních variacích exponentu Tweedie α. V důsledku toho ve spojení se změnou α, Tweedieho konvergenční teorém lze považovat za roli v genezi takových multifraktálů.
Variace α bylo zjištěno, že se řídí asymetrickými Laplaceova distribuce v určitých případech.[18] Ukázalo se, že tato distribuce je členem rodiny geometrických modelů Tweedie,[19] které se projevují jako omezující distribuce v teorému konvergence pro modely geometrické disperze.
Průtok krve regionálních orgánů
Tok krve v regionálních orgánech byl tradičně hodnocen injekcí radioaktivně značené polyethylenové mikrokuličky do arteriálního oběhu zvířat o velikosti, kterou uvězní uvnitř mikrocirkulace orgánů. Orgán, který má být hodnocen, se poté rozdělí na kostky stejné velikosti a množství radioaktivního značení v každé kostce se vyhodnotí pomocí počítání kapalné scintilace a zaznamenáno. Množství radioaktivity v každé krychli se měří tak, aby odráželo tok krve tímto vzorkem v době injekce. Je možné vyhodnotit sousední kostky z orgánu, aby bylo možné aditivně určit průtok krve většími oblastmi. Prostřednictvím práce J B Bassingthwaighte a další byl odvozen empirický zákon síly mezi relativním rozptylem průtoku krve vzorky tkáně (RD = směrodatná odchylka / průměr) hmotnosti m vzhledem k referenční velikosti vzorků:[20]
Tento exponent mocenského zákona Ds byl nazýván fraktální dimenzí. Bassingthwaighteův mocenský zákon lze prokázat, že přímo souvisí se zákonem moci rozptylu k střední hodnotě. Tok krve v regionálních orgánech lze tedy modelovat distribucí Tweedieho sloučeniny Poisson – gama.,[21] V tomto modelu lze uvažovat, že vzorek tkáně obsahuje náhodný (Poissonův) distribuovaný počet zachycených míst, každé s gama distribuováno průtok krve. Bylo pozorováno, že průtok krve na této mikrocirkulační úrovni odpovídá distribuci gama,[22] čímž poskytuje podporu této hypotéze.
Metastáza rakoviny
„Experimentální rakovina metastáza zkouška "[23] má určitou podobnost s výše uvedenou metodou měření regionálního průtoku krve. Skupiny syngenický a věkově shodným myším byly podány intravenózní injekce stejně velkých alikvotních podílů suspenzí klonovaných rakovinných buněk a poté po stanovené době byly odstraněny jejich plíce a v každé dvojici plic byl vyjmenován počet rakovinových metastáz. Pokud jsou jiným skupinám myší injekčně podány různé rakovinné buňky klony pak se počet metastáz na skupinu bude lišit v závislosti na metastatickém potenciálu klonů. Již dlouho se uznává, že i přes nejlepší pokusy o udržení uniformních experimentálních podmínek v každé klonální skupině mohou existovat značné intraclonální rozdíly v počtu metastáz na myš.[23] Tato variace je větší, než by se dalo očekávat na základě a Poissonovo rozdělení počtu metastáz na myš v každém klonu a když byla vynesena odchylka počtu metastáz na myš proti odpovídajícímu průměru, byl nalezen zákon o moci.[24]
Bylo zjištěno, že platí i zákon o odchylce od střední hodnoty pro metastázy spontánní myší metastázy[25] a pro případy řady lidských metastáz.[26] Protože hematogenní metastázy se vyskytují v přímém vztahu k regionálnímu průtoku krve[27] a videomikroskopické studie naznačují, že průchod a zachycení rakovinných buněk v oběhu se jeví jako analogický s experimenty s mikrokuličkami[28] zdálo se být pravděpodobné navrhnout, aby rozdíly v počtu hematogenních metastáz mohly odrážet heterogenitu průtoku krve v regionálních orgánech.[29] Model průtoku krve byl založen na Tweedieho sloučenině Poisson-gamma distribuce, distribuce, která řídí spojitou náhodnou proměnnou. Z tohoto důvodu se v modelu metastáz předpokládalo, že tok krve byl řízen touto distribucí a že počet regionálních metastáz nastal jako Poissonův proces u nichž byla intenzita přímo úměrná průtoku krve. To vedlo k popisu Poissonova negativního binomického rozdělení (PNB) jako a diskrétní ekvivalent k Tweedieho sloučenině Poissonovo-gama rozdělení. The funkce generující pravděpodobnost pro distribuci PNB je
Vztah mezi průměrem a rozptylem rozdělení PNB je tedy
který by byl v rozsahu mnoha experimentálních testů metastáz nerozeznatelný od zákonu síly rozptylu k střednímu. U řídkých dat by se však tento diskrétní vztah rozptyl-průměr choval spíše jako Poissonovo rozdělení, kde se rozptyl rovnal průměru.
Genomická struktura a evoluce
Místní hustota Jednonukleotidové polymorfismy (SNP) v rámci lidský genom, stejně jako to geny Zdá se, že se shlukuje v souladu se zákonem rozptylu k střednímu výkonu a Tweedieho sloučeninou Poissonovo-gama rozdělení.[30][31] V případě SNP jejich pozorovaná hustota odráží techniky hodnocení, dostupnost genomových sekvencí pro analýzu a nukleotidová heterozygotnost.[32] První dva faktory odrážejí chyby zjišťování inherentní metodám sběru, druhý faktor odráží vnitřní vlastnost genomu.
V koalescenční model populační genetiky má každý genetický lokus svou vlastní jedinečnou historii. V rámci evoluce populace od některých druhů lze pravděpodobně vysledovat některá genetická místa relativně nedávný společný předek zatímco ostatní loci mohou mít více starověkých rodokmeny. Starověké genomické segmenty by měly více času na akumulaci SNP a na prožití rekombinace. R R Hudson navrhl model, kde by rekombinace mohla způsobit odchylky v čase do nejčastější nedávný předek pro různé genomové segmenty.[33] Vysoká míra rekombinace může způsobit, že chromozom bude obsahovat velké množství malých segmentů s méně korelovanými rodokmeny.
Za předpokladu konstantní rychlosti mutace na pozadí by se počet SNP na genomový segment akumuloval úměrně času do posledního společného předka. Proud populační genetická teorie by znamenalo, že tyto časy budou gama distribuováno, v průměru.[34] Tweedieho sloučenina Poisson-gama distribuce by navrhla model, podle kterého by mapa SNP sestávala z několika malých genomových segmentů, přičemž průměrný počet SNP na segment by byl distribuován gama podle Hudsonova modelu.
Distribuce genů v lidském genomu také prokázala zákon rozptylu k střední hodnotě, kdy byla ke stanovení odpovídajících odchylek a prostředků použita metoda rozšiřujících zásobníků.[31] Podobně bylo zjištěno, že počet genů na enumerativní bin splňuje Tweedieovu sloučeninu Poisson-gama distribuci. Toto rozdělení pravděpodobnosti bylo považováno za slučitelné se dvěma různými biologickými modely: model mikroorganizmů kde počet genů na jednotku genomové délky byl určen součtem náhodného počtu menších genomových segmentů odvozeného náhodným rozbitím a rekonstrukcí protochormozomů. Předpokládá se, že tyto menší segmenty v průměru nesou gama distribuovaný počet genů.
Alternativně model genového klastrugeny by byly distribuovány náhodně v protochromozomech. Během velkých evolučních časových rámců by to mohlo nastat tandemová duplikace, mutace, inzerce, delece a přeskupení které by mohly ovlivnit geny stochastickou cestou narození, úmrtí a imigrační proces k získání Tweedieho sloučeniny Poissonovo-gama rozdělení.
Oba tyto mechanismy by se implikovaly neutrální evoluční procesy to by vedlo k regionálnímu shlukování genů.
Teorie náhodných matic
The Gaussův jednotný soubor (GUE) se skládá z komplexu Hermitovské matice které jsou neměnné pod unitární transformace zatímco Gaussův ortogonální soubor (GOE) se skládá ze skutečných symetrických matic invariantních pod ortogonální transformace. Hodnocené vlastní čísla En z těchto náhodných matic poslouchat Wignerova půlkruhová distribuce: Pro N×N matice průměrné hustoty pro vlastní hodnoty velikosti E bude