Studenti t-rozdělení - Students t-distribution - Wikipedia
Funkce hustoty pravděpodobnosti ![]() | |||
Funkce kumulativní distribuce ![]() | |||
Parametry | stupně svobody (nemovitý ) | ||
---|---|---|---|
Podpěra, podpora | |||
CDF | |||
Znamenat | 0 pro , v opačném případě nedefinováno | ||
Medián | 0 | ||
Režim | 0 | ||
Rozptyl | pro , ∞ pro , v opačném případě nedefinováno | ||
Šikmost | 0 pro , v opačném případě nedefinováno | ||
Př. špičatost | pro , ∞ pro , v opačném případě nedefinováno | ||
Entropie |
| ||
MGF | nedefinováno | ||
CF | pro |
v pravděpodobnost a statistika, Studentské t-rozdělení (nebo jednoduše t-rozdělení) je kterýkoli člen rodiny souvislých rozdělení pravděpodobnosti které vznikají při odhadu znamenat a normálně -distribuováno populace v situacích, kdy velikost vzorku je malá a populace standardní odchylka není známo. Byl vyvinut anglickým statistikem William Sealy Gosset pod pseudonymem „Student“.
The t-distribuce hraje roli v řadě široce používaných statistických analýz, včetně Studentské t-test za posouzení statistická významnost rozdílu mezi dvěma vzorovými prostředky, konstrukcí intervaly spolehlivosti pro rozdíl mezi dvěma populačními prostředky a lineární regresní analýza. Studenti t-distribuce také vzniká v Bayesovská analýza dat z normální rodiny.
Pokud vezmeme vzorek pozorování od a normální distribuce, pak t-distribuce s stupně svobody lze definovat jako rozdělení umístění střední hodnoty vzorku vzhledem ke skutečnému průměru, děleno standardní odchylkou vzorku po vynásobení standardizujícím výrazem . Tímto způsobem t-distribuci lze použít ke konstrukci a interval spolehlivosti pro pravý průměr.
The t-distribuce je symetrická a ve tvaru zvonu, jako normální distribuce, ale má těžší ocasy, což znamená, že je náchylnější k produkci hodnot, které nedosahují své střední hodnoty. To je užitečné pro pochopení statistického chování určitých typů poměrů náhodných veličin, ve kterých se zesiluje variace ve jmenovateli a může vytvářet odlehlé hodnoty, když jmenovatel poměru klesne blízko k nule. Studenti t-distribuce je zvláštní případ generalizovaná hyperbolická distribuce.
Historie a etymologie

Ve statistikách t-distribuce byla nejprve odvozena jako a zadní distribuce v roce 1876 Helmert[2][3][4] a Lüroth.[5][6][7] The t-distribuce se také objevila v obecnější podobě jako Pearson typu IV distribuce v Karl Pearson papír z roku 1895.[8]
V anglické literatuře má distribuce svůj název William Sealy Gosset papír z roku 1908 Biometrika pod pseudonymem „Student“.[9] Gosset pracoval v Pivovar Guinness v Dublin, Irsko, a zajímal se o problémy malých vzorků - například chemické vlastnosti ječmene, kde velikost vzorků mohla být až 3. Jednou z verzí původu pseudonymu je to, že Gossetův zaměstnavatel upřednostňoval zaměstnance, aby při zveřejňování vědeckých informací používali pseudonymy namísto jejich skutečného jména, takže ke skrytí své identity použil jméno „Student“. Další verze je, že Guinness nechtěl, aby jejich konkurenti věděli, že používají t-test k určení kvality suroviny.[10][11]
Gossetův článek odkazuje na distribuci jako na „distribuci frekvence standardních odchylek vzorků odebraných z normální populace“. To se stalo dobře známé díky práci Ronald Fisher, který distribuci nazval „Studentova distribuce“ a představoval testovací hodnotu písmenem t.[12][13]
Jak studentova distribuce vyplývá ze vzorkování
Nechat být nezávisle a identicky čerpány z distribuce , tj. toto je vzorek velikosti z normálně distribuované populace s očekávanou střední hodnotou a rozptyl .
Nechat
být průměrem vzorku a nechat
být (Bessel opraven ) rozptyl vzorku. Pak náhodná proměnná
má standardní normální rozdělení (tj. normální s očekávaným průměrem 0 a rozptylem 1) a náhodnou proměnnou
kde byl nahrazen , má studentský t-distribuce s stupně svobody. Čitatel a jmenovatel v předchozím výrazu jsou nezávislé náhodné proměnné, přestože jsou založeny na stejném vzorku .
Definice
Funkce hustoty pravděpodobnosti
Studentské t-rozdělení má funkce hustoty pravděpodobnosti dána
kde je počet stupně svobody a je funkce gama. Toto může být také napsáno jako
kde B je Funkce Beta. Zejména pro celočíselné stupně volnosti my máme:
Pro dokonce,
Pro zvláštní,
Funkce hustoty pravděpodobnosti je symetrický, a jeho celkový tvar připomíná zvonový tvar a normálně distribuováno proměnná se střední hodnotou 0 a odchylkou 1, kromě toho, že je o něco nižší a širší. Jak počet stupňů volnosti roste, t-distribuce se blíží normálnímu rozdělení s průměrem 0 a rozptylem 1. Z tohoto důvodu je také známý jako parametr normality.[14]
Následující obrázky ukazují hustotu t-distribuce pro zvýšení hodnot . Normální rozdělení je pro srovnání zobrazeno jako modrá čára. Všimněte si, že t-distribuce (červená čára) se blíží normálnímu rozdělení jako zvyšuje.
![]() 1 stupeň volnosti | ![]() 2 stupně volnosti | ![]() 3 stupně volnosti |
![]() 5 stupňů volnosti | ![]() 10 stupňů volnosti | ![]() 30 stupňů volnosti |
Funkce kumulativní distribuce
The kumulativní distribuční funkce lze psát v termínech Já, legalizovánoneúplná funkce beta. Pro t > 0,[15]
kde
Další hodnoty by byly získány symetrií. Alternativní vzorec platný pro , je[15]
kde 2F1 je zvláštní případ hypergeometrická funkce.
Informace o funkci inverzní kumulativní distribuce viz kvantilová funkce § Studentova t-distribuce.
Speciální případy
Určité hodnoty dát obzvláště jednoduchou formu.
- Distribuční funkce:
- Funkce hustoty:
- Vidět Cauchyovo rozdělení
- Distribuční funkce:
- Funkce hustoty:
- Distribuční funkce:
- Funkce hustoty:
- Distribuční funkce:
- Funkce hustoty:
- Distribuční funkce:
- Funkce hustoty:
- Distribuční funkce:
- Vidět Chybová funkce
- Funkce hustoty:
- Vidět Normální distribuce
Jak t-distribuce vzniká
Distribuce vzorků
Nechat jsou čísla pozorovaná ve vzorku kontinuálně distribuované populace s očekávanou hodnotou . Průměr vzorku a rozptyl vzorku jsou dány:
Výsledný hodnota t je
The t-distribuce s stupně volnosti je Distribuce vzorků z t-hodnota, když se vzorky skládají z nezávislé identicky distribuované pozorování od a normálně distribuováno populace. Tedy pro účely závěru t je užitečné “klíčové množství "v případě, že průměr a rozptyl jsou neznámé populační parametry v tom smyslu, že t-value má potom rozdělení pravděpodobnosti, které závisí ani na jednom ani .
Bayesovský závěr
V Bayesovské statistice, a (zmenšen, posunut) t-distribuce vzniká jako mezní rozdělení neznámého průměru normálního rozdělení, když byla závislost na neznámém rozptylu marginalizována:[16]
kde znamená data , a představuje jakékoli další informace, které mohly být použity k vytvoření modelu. Distribuce je tedy složení podmíněného rozdělení vzhledem k údajům a s mezním rozdělením vzhledem k údajům.
S datové body, pokud neinformativní, nebo ploché, umístění a měřítko předchozí a lze vzít pro μ a σ2, pak Bayesova věta dává
normální rozdělení a škálované inverzní rozdělení chí-kvadrát respektive kde a
Tím se stává integrál marginalizace
To lze vyhodnotit dosazením , kde dávat
tak
Ale z integrál je nyní standard Gama integrál, která se vyhodnotí jako konstanta, opouští
Toto je forma t-distribuce s výslovným měřítkem a posunem, které budou podrobněji prozkoumány v další části níže. Může to souviset se standardizovanými t-distribuce substitucí
Výše uvedená derivace byla uvedena pro případ neinformativních priorit pro a ; ale bude zřejmé, že jakékoli priority, které vedou k normálnímu rozdělení, které je smícháno se zmenšenou inverzní chí-kvadrátovou distribucí, povedou k t-distribuce s měřítkem a posunem pro , i když parametr měřítka odpovídá výše pak budou ovlivněny jak předchozími informacemi, tak údaji, nikoli pouze výše uvedenými údaji.
Charakterizace
Jako distribuce testovací statistiky
Studentské t-distribuce s stupně volnosti lze definovat jako distribuci náhodná proměnná T s[15][17]
kde
- Z je standardní normální s očekávaná hodnota 0 a rozptyl 1;
- PROTI má distribuce chí-kvadrát s stupně svobody;
- Z a PROTI jsou nezávislý;
Různé rozdělení je definováno jako rozdělení náhodné proměnné definované pro danou konstantu μ pomocí
Tato náhodná proměnná má a necentrální t-rozdělení s parametr necentrality μ. Tato distribuce je důležitá ve studiích Napájení studentské t-test.
Derivace
Předpokládat X1, ..., Xn jsou nezávislý realizace normálně distribuované náhodné proměnné X, který má očekávanou hodnotu μ a rozptyl σ2. Nechat
být průměrnou hodnotou vzorku a
být nestranný odhad rozptylu od vzorku. Je možné ukázat, že náhodná proměnná
má distribuce chí-kvadrát s stupně volnosti (podle Cochranova věta ).[18] Je snadno ukázáno, že množství
je normálně distribuován s průměrem 0 a rozptylem 1, protože průměr vzorku je normálně distribuován s průměrem μ a rozptylem σ2/n. Navíc je možné ukázat, že tyto dvě náhodné proměnné (normálně distribuovaná Z a distribuovaný chí-kvadrát PROTI) jsou nezávislé. tudíž[je zapotřebí objasnění ] the klíčové množství
který se liší od Z v tom, že přesná směrodatná odchylka σ je nahrazena náhodnou proměnnou Sn, má studentský t-distribuce, jak je definováno výše. Všimněte si, že neznámá populační odchylka σ2 neobjevuje se v T, protože to bylo jak v čitateli, tak ve jmenovateli, tak to bylo zrušeno. Gosset intuitivně získal funkce hustoty pravděpodobnosti uvedeno výše, s rovná n - 1, a Fisher to dokázal v roce 1925.[12]
Rozdělení statistiky testu T záleží na , ale ne μ nebo σ; nedostatek závislosti na μ a σ je to, co dělá t-distribuce důležitá jak v teorii, tak v praxi.
Jako maximální distribuce entropie
Studentské t-distribuce je maximální rozdělení pravděpodobnosti entropie pro náhodnou variaci X pro který je opraveno.[19][je zapotřebí objasnění ][je zapotřebí lepší zdroj ]
Vlastnosti
Okamžiky
Pro , syrové momenty z t-distribuce jsou
Okamžiky objednávky nebo vyšší neexistují.[20]
Termín pro , k dokonce lze zjednodušit pomocí vlastností funkce gama na
Pro t-distribuce s stupně volnosti, očekávaná hodnota je 0, pokud , a jeho rozptyl je -li . The šikmost je 0, pokud a nadměrná špičatost je -li .
Odběr vzorků v Monte Carlu
Existují různé přístupy ke konstrukci náhodných vzorků od Studenta t-rozdělení. Záležitost závisí na tom, zda jsou vzorky vyžadovány samostatně, nebo mají být konstruovány pomocí a kvantilová funkce na jednotný Vzorky; např. na základě vícerozměrných aplikací závislost spony.[Citace je zapotřebí ] V případě samostatného odběru vzorků se jedná o rozšíření Box – Mullerova metoda a jeho polární forma lze snadno nasadit.[21] Má tu výhodu, že se vztahuje stejně dobře na všechny skutečné pozitivní stupně svobody, ν, zatímco mnoho dalších kandidátských metod selže, pokud je ν blízké nule.[21]
Integrace Studentovy funkce hustoty pravděpodobnosti a p-hodnota
Funkce A(t | ν) je integrál Studentovy funkce hustoty pravděpodobnosti, F(t) mezi -t a t, pro t ≥ 0. Dává tedy pravděpodobnost, že hodnota t méně než to, co se vypočítá z pozorovaných dat, by se stalo náhodou. Proto funkce A(t | ν) lze použít při testování, zda je rozdíl mezi průměrem dvou souborů dat statisticky významný, výpočtem odpovídající hodnoty t a pravděpodobnost jeho výskytu, pokud by byly dva soubory dat čerpány ze stejné populace. To se používá v různých situacích, zejména v t-testy. Pro statistiku t, s ν stupně svobody, A(t | ν) je pravděpodobnost, že t by byla menší než pozorovaná hodnota, pokud by byly dva způsoby stejné (za předpokladu, že se menší průměr odečte od většího, takže t ≥ 0). To lze snadno vypočítat z kumulativní distribuční funkce Fν(t) z t-rozdělení:
kde JáX je legalizovaná neúplná funkce beta (A, b).
Pro statistické testování hypotéz se tato funkce používá ke konstrukci p-hodnota.
Zobecněný student t-rozdělení
Pokud jde o parametr měřítka nebo
Studentovo rozdělení t lze zobecnit na tři parametry rodina v měřítku polohy, kterým se zavádí a parametr umístění a a parametr měřítka prostřednictvím vztahu
nebo
Tohle znamená tamto má klasickou Studentovu distribuci s stupně svobody.
Výsledný nestandardizované studentské t-rozdělení má hustotu definovanou:[22]
Tady, dělá ne odpovídají a standardní odchylka: nejde o standardní odchylku měřítka t distribuce, která možná ani neexistuje; není to ani standardní odchylka podkladového aktiva normální distribuce, který není znám. jednoduše nastaví celkové měřítko distribuce. V Bayesiánské derivaci okrajového rozdělení neznámého normálního průměru výše, jak se zde používá, odpovídá množství , kde
- .
Ekvivalentně lze distribuci napsat v termínech , čtverec tohoto parametru měřítka:
Další vlastnosti této verze distribuce jsou:[22]
Tato distribuce je výsledkem složení A Gaussovo rozdělení (normální distribuce ) s znamenat a neznámé rozptyl, s inverzní rozdělení gama umístěn nad rozptyl s parametry a . Jinými slovy náhodná proměnná X Předpokládá se, že má Gaussovo rozdělení s neznámou odchylkou distribuovanou jako inverzní gama, a pak je rozptyl na okraji společnosti (integrováno). Důvodem užitečnosti této charakterizace je, že inverzní gama rozdělení je před konjugátem rozdělení rozptylu Gaussova rozdělení. Výsledkem je nestandardizovaný Student t-distribuce přirozeně vzniká v mnoha Bayesiánských problémech s odvozením. Viz. níže.
Ekvivalentně toto rozdělení vyplývá ze sloučení Gaussovské distribuce s a distribuce v měřítku-inverze-chi-kvadrát s parametry a . Škálované-inverzní-chi-kvadrát distribuce je přesně stejné distribuce jako inverzní gama distribuce, ale s jinou parametrizací, tj. .
Z hlediska parametru inverzního měřítka λ
Alternativní parametrizace z hlediska parametru inverzního měřítka (analogickým způsobem přesnost je převrácená odchylka), definovaná vztahem . Hustota je pak dána vztahem:[23]
Další vlastnosti této verze distribuce jsou:[23]
Tato distribuce je výsledkem složení A Gaussovo rozdělení s znamenat a neznámé přesnost (převrácená část rozptyl ), s gama distribuce umístěn přes přesnost s parametry a . Jinými slovy, náhodná proměnná X předpokládá se, že má normální distribuce s neznámou přesností distribuovanou jako gama, a to je na okraji gama distribuce.
Související distribuce
- Li má studentský t-distribuce se stupněm volnosti pak X2 má F-rozdělení:
- The necentrální t-rozdělení zobecňuje t-distribuce zahrnující parametr umístění. Na rozdíl od nestandardizovaných t-distribuce, necentrální distribuce nejsou symetrické (medián není stejný jako režim).
- The diskrétní student t-rozdělení je definován jeho funkce pravděpodobnostní hmotnosti na r úměrné:[24]
- Tady A, b, a k jsou parametry. Toto rozdělení vychází z konstrukce systému diskrétních distribucí podobných systému Pearsonovy distribuce pro kontinuální distribuce.[25]
- Jeden může generovat Student-t vzorky tím, že vezme poměr proměnných z normální distribuce a druhá odmocnina z χ2-rozdělení. Použijeme-li místo normálního rozdělení, např Irwin – Hallova distribuce, získáme celkově symetrické 4parametrické rozdělení, které zahrnuje normální, jednotný, trojúhelníkový, Student-t a Cauchyovo rozdělení. To je také pružnější než u některých jiných symetrických zobecnění normálního rozdělení.
- t-distribution je instancí poměrové rozdělení
Použití
V častých statistických závěrech
Studentské t-distribuce vzniká v různých problémech statistických odhadů, kde cílem je odhadnout neznámý parametr, jako je střední hodnota, v prostředí, kde jsou data pozorována pomocí aditiva chyby. Pokud (jako téměř ve všech praktických statistických pracích) populace standardní odchylka těchto chyb není známa a musí být odhadnuta z údajů, t-distribuce se často používá k zohlednění mimořádné nejistoty, která vyplývá z tohoto odhadu. U většiny těchto problémů, pokud byla známa standardní odchylka chyb, a normální distribuce by bylo použito místo t-rozdělení.
Intervaly spolehlivosti a testy hypotéz jsou dva statistické postupy, při nichž kvantily rozdělení vzorkování konkrétní statistiky (např standardní skóre ) jsou potřeba. V každé situaci, kdy je tato statistika a lineární funkce z data, děleno obvyklým odhadem směrodatné odchylky, lze výslednou veličinu změnit a vycentrovat ji podle Studentova t-rozdělení. Statistické analýzy zahrnující prostředky, vážené prostředky a regresní koeficienty - to vše vede ke statistikám, které mají tuto formu.
Poměrně často budou problémy s učebnicemi zacházet se směrodatnou odchylkou populace, jako by byla známa, a vyhnou se tak nutnosti používat Studentovu t-rozdělení. Tyto problémy jsou obecně dvou druhů: (1) ty, u nichž je velikost vzorku tak velká, že je možné zpracovat datový odhad rozptyl jako by to bylo jisté a (2) ty, které ilustrují matematické uvažování, ve kterém je dočasně ignorován problém odhadu směrodatné odchylky, protože to není důvod, který autor nebo instruktor vysvětluje.
Testování hypotéz
Je možné zobrazit řadu statistik t-distribuce pro vzorky střední velikosti pod nulové hypotézy které jsou zajímavé, takže t-distribuce tvoří základ pro testy významnosti. Například distribuce Spearmanovův korelační koeficient ρ, v nulovém případě (nulová korelace) je dobře aproximován pomocí t distribuce pro velikosti vzorků nad přibližně 20.[Citace je zapotřebí ]
Intervaly spolehlivosti
Předpokládejme číslo A je tak zvolen, že
když T má t-distribuce s n - 1 stupeň volnosti. Symetrií je to totéž, co říkáme A splňuje
tak A je "95. percentil" tohoto rozdělení pravděpodobnosti, nebo . Pak
a to je ekvivalentní k
Proto interval, jehož koncové body jsou
je 90% interval spolehlivosti pro μ. Pokud tedy najdeme průměr souboru pozorování, u kterého lze rozumně očekávat, že bude mít normální rozdělení, můžeme použít t-distribuce k prozkoumání, zda limity spolehlivosti pro tento průměr zahrnují nějakou teoreticky předpovězenou hodnotu - například hodnotu předpovídanou na nulová hypotéza.
Právě tento výsledek se používá v Studentské t-testy: protože rozdíl mezi prostředky vzorků ze dvou normálních distribucí je sám distribuován normálně, t-distribuci lze použít ke zkoumání, zda lze rozumně předpokládat, že tento rozdíl bude nulový.
Pokud jsou data normálně distribuována, jednostranný (1 - α) - horní mez spolehlivosti (UCL) průměru lze vypočítat pomocí následující rovnice:
Výsledný UCL bude největší průměrná hodnota, která nastane pro daný interval spolehlivosti a velikost populace. Jinými slovy, protože je průměrem souboru pozorování, je pravděpodobnost, že průměr distribuce je nižší než UCL1−α se rovná úrovni spolehlivosti 1 - α.
Intervaly predikce
The t-distribuci lze použít ke konstrukci a interval predikce pro nepozorovaný vzorek z normálního rozdělení s neznámým průměrem a rozptylem.
V Bayesovských statistikách
Studenti t-distribuce, zejména ve své tříparametrické (lokalizační) verzi, se často vyskytuje v Bayesovské statistiky v důsledku jeho spojení s normální distribuce. Kdykoli rozptyl normálně distribuované náhodná proměnná je neznámý a před konjugátem umístěný nad ním, který následuje po inverzní rozdělení gama, výsledný mezní rozdělení proměnné bude následovat po Studentovi t-rozdělení. Ekvivalentní konstrukce se stejnými výsledky zahrnují konjugát distribuce v měřítku-inverze-chi-kvadrát přes rozptyl nebo konjugát gama distribuce přes přesnost. Pokud nevhodný před úměrný σ−2 je umístěn nad rozptylem, t-vzniká také distribuce. To je případ bez ohledu na to, zda je znám průměr normálně distribuované proměnné, je neznámý distribuován podle a sdružené normálně distribuován před, nebo je neznámý distribuován podle nesprávné konstanty před.
Související situace, které také způsobují a t-distribuce jsou:
- The okrajový zadní distribuce neznámého průměru normálně distribuované proměnné, s neznámým předchozím průměrem a rozptylem podle výše uvedeného modelu.
- The předchozí prediktivní distribuce a zadní prediktivní distribuce nového normálně distribuovaného datového bodu, když série nezávislé identicky distribuované byly pozorovány normálně distribuované datové body s předchozím průměrem a rozptylem jako ve výše uvedeném modelu.
Robustní parametrické modelování
The t-distribuce se často používá jako alternativa k normální distribuci jako model pro data, která mají často těžší konce, než umožňuje normální distribuce; viz např. Lange a kol.[26] Klasickým přístupem byla identifikace odlehlé hodnoty (např. pomocí Grubbsův test ) a nějakým způsobem je vyloučit nebo snížit jejich váhu. Není však vždy snadné určit odlehlé hodnoty (zejména v EU) vysoké rozměry ) a t-distribuce je přirozenou volbou modelu pro tato data a poskytuje parametrický přístup robustní statistiky.
Bayesiánský účet lze nalézt v Gelman et al.[27] Parametr stupňů volnosti řídí křivku distribuce a koreluje s parametrem měřítka. Pravděpodobnost může mít více lokálních maxim a jako taková je často nutné zafixovat stupně volnosti na poměrně nízkou hodnotu a odhadnout ostatní parametry s ohledem na to, jak je uvedeno. Někteří autoři[Citace je zapotřebí ] uvádějí, že hodnoty mezi 3 a 9 jsou často dobrou volbou. Venables a Ripley[Citace je zapotřebí ] naznačují, že hodnota 5 je často dobrá volba.
Studentův t-proces
Pro praktické regrese a předpověď potřeby, byly zavedeny Studentovy t-procesy, které jsou zobecněním Studentových t-distribucí pro funkce. Studentův t-proces je sestaven z Studentových t-distribucí jako a Gaussův proces je postaven z Gaussovy distribuce. Pro Gaussův proces, všechny sady hodnot mají multidimenzionální Gaussovo rozdělení. Analogicky, je Studentův t-proces v intervalu pokud jsou odpovídající hodnoty procesu () mít kloub multivariační Studentova t-distribuce.[28] Tyto procesy se používají pro regresi, predikci, Bayesovu optimalizaci a související problémy. Pro vícerozměrnou regresi a predikci více výstupů jsou zavedeny a použity vícerozměrné Studentské t-procesy.[29]
Tabulka vybraných hodnot
V následující tabulce jsou uvedeny hodnoty pro t-distribuce se ν stupni volnosti pro rozsah jednostranný nebo oboustranný kritické oblasti. První sloupec je ν, procenta v horní části jsou úrovně spolehlivosti a čísla v těle tabulky jsou faktory popsané v části o intervaly spolehlivosti.
Poznámka že poslední řádek s nekonečným ν dává kritické body pro normální rozdělení, protože a t-rozdělení s nekonečně mnoha stupni volnosti je normální rozdělení. (Vidět Související distribuce výše).
Jednostranný | 75% | 80% | 85% | 90% | 95% | 97.5% | 99% | 99.5% | 99.75% | 99.9% | 99.95% |
---|---|---|---|---|---|---|---|---|---|---|---|
Oboustranný | 50% | 60% | 70% | 80% | 90% | 95% | 98% | 99% | 99.5% | 99.8% | 99.9% |
1 | 1.000 | 1.376 | 1.963 | 3.078 | 6.314 | 12.71 | 31.82 | 63.66 | 127.3 | 318.3 | 636.6 |
2 | 0.816 | 1.080 | 1.386 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 | 14.09 | 22.33 | 31.60 |
3 | 0.765 | 0.978 | 1.250 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 | 7.453 | 10.21 | 12.92 |
4 | 0.741 | 0.941 | 1.190 | 1.533 | 2.132 | 2.776 | 3.747 | 4.604 | 5.598 | 7.173 | 8.610 |
5 | 0.727 | 0.920 | 1.156 | 1.476 | 2.015 | 2.571 | 3.365 | 4.032 | 4.773 | 5.893 | 6.869 |
6 | 0.718 | 0.906 | 1.134 | 1.440 | 1.943 | 2.447 | 3.143 | 3.707 | 4.317 | 5.208 | 5.959 |
7 | 0.711 | 0.896 | 1.119 | 1.415 | 1.895 | 2.365 | 2.998 | 3.499 | 4.029 | 4.785 | 5.408 |
8 | 0.706 | 0.889 | 1.108 | 1.397 | 1.860 | 2.306 | 2.896 | 3.355 | 3.833 | 4.501 | 5.041 |
9 | 0.703 | 0.883 | 1.100 | 1.383 | 1.833 | 2.262 | 2.821 | 3.250 | 3.690 | 4.297 | 4.781 |
10 | 0.700 | 0.879 | 1.093 | 1.372 | 1.812 | 2.228 | 2.764 | 3.169 | 3.581 | 4.144 | 4.587 |
11 | 0.697 | 0.876 | 1.088 | 1.363 | 1.796 | 2.201 | 2.718 | 3.106 | 3.497 | 4.025 | 4.437 |
12 | 0.695 | 0.873 | 1.083 | 1.356 | 1.782 | 2.179 | 2.681 | 3.055 | 3.428 | 3.930 | 4.318 |
13 | 0.694 | 0.870 | 1.079 | 1.350 | 1.771 | 2.160 | 2.650 | 3.012 | 3.372 | 3.852 | 4.221 |
14 | 0.692 | 0.868 | 1.076 | 1.345 | 1.761 | 2.145 | 2.624 | 2.977 | 3.326 | 3.787 | 4.140 |
15 | 0.691 | 0.866 | 1.074 | 1.341 | 1.753 | 2.131 | 2.602 | 2.947 | 3.286 | 3.733 | 4.073 |
16 | 0.690 | 0.865 | 1.071 | 1.337 | 1.746 | 2.120 | 2.583 | 2.921 | 3.252 | 3.686 | 4.015 |
17 | 0.689 | 0.863 | 1.069 | 1.333 | 1.740 | 2.110 | 2.567 | 2.898 | 3.222 | 3.646 | 3.965 |
18 | 0.688 | 0.862 | 1.067 | 1.330 | 1.734 | 2.101 | 2.552 | 2.878 | 3.197 | 3.610 | 3.922 |
19 | 0.688 | 0.861 | 1.066 | 1.328 | 1.729 | 2.093 | 2.539 | 2.861 | 3.174 | 3.579 | 3.883 |
20 | 0.687 | 0.860 | 1.064 | 1.325 | 1.725 | 2.086 | 2.528 | 2.845 | 3.153 | 3.552 | 3.850 |
21 | 0.686 | 0.859 | 1.063 | 1.323 | 1.721 | 2.080 | 2.518 | 2.831 | 3.135 | 3.527 | 3.819 |
22 | 0.686 | 0.858 | 1.061 | 1.321 | 1.717 | 2.074 | 2.508 | 2.819 | 3.119 | 3.505 | 3.792 |
23 | 0.685 | 0.858 | 1.060 | 1.319 | 1.714 | 2.069 | 2.500 | 2.807 | 3.104 | 3.485 | 3.767 |
24 | 0.685 | 0.857 | 1.059 | 1.318 | 1.711 | 2.064 | 2.492 | 2.797 | 3.091 | 3.467 | 3.745 |
25 | 0.684 | 0.856 | 1.058 | 1.316 | 1.708 | 2.060 | 2.485 | 2.787 | 3.078 | 3.450 | 3.725 |
26 | 0.684 | 0.856 | 1.058 | 1.315 | 1.706 | 2.056 | 2.479 | 2.779 | 3.067 | 3.435 | 3.707 |
27 | 0.684 | 0.855 | 1.057 | 1.314 | 1.703 | 2.052 | 2.473 | 2.771 | 3.057 | 3.421 | 3.690 |
28 | 0.683 | 0.855 | 1.056 | 1.313 | 1.701 | 2.048 | 2.467 | 2.763 | 3.047 | 3.408 | 3.674 |
29 | 0.683 | 0.854 | 1.055 | 1.311 | 1.699 | 2.045 | 2.462 | 2.756 | 3.038 | 3.396 | 3.659 |
30 | 0.683 | 0.854 | 1.055 | 1.310 | 1.697 | 2.042 | 2.457 | 2.750 | 3.030 | 3.385 | 3.646 |
40 | 0.681 | 0.851 | 1.050 | 1.303 | 1.684 | 2.021 | 2.423 | 2.704 | 2.971 | 3.307 | 3.551 |
50 | 0.679 | 0.849 | 1.047 | 1.299 | 1.676 | 2.009 | 2.403 | 2.678 | 2.937 | 3.261 | 3.496 |
60 | 0.679 | 0.848 | 1.045 | 1.296 | 1.671 | 2.000 | 2.390 | 2.660 | 2.915 | 3.232 | 3.460 |
80 | 0.678 | 0.846 | 1.043 | 1.292 | 1.664 | 1.990 | 2.374 | 2.639 | 2.887 | 3.195 | 3.416 |
100 | 0.677 | 0.845 | 1.042 | 1.290 | 1.660 | 1.984 | 2.364 | 2.626 | 2.871 | 3.174 | 3.390 |
120 | 0.677 | 0.845 | 1.041 | 1.289 | 1.658 | 1.980 | 2.358 | 2.617 | 2.860 | 3.160 | 3.373 |
∞ | 0.674 | 0.842 | 1.036 | 1.282 | 1.645 | 1.960 | 2.326 | 2.576 | 2.807 | 3.090 | 3.291 |
Jednostranný | 75% | 80% | 85% | 90% | 95% | 97.5% | 99% | 99.5% | 99.75% | 99.9% | 99.95% |
Oboustranný | 50% | 60% | 70% | 80% | 90% | 95% | 98% | 99% | 99.5% | 99.8% | 99.9% |
Výpočet intervalu spolehlivosti
Řekněme, že máme vzorek s velikostí 11, průměrnou hodnotou vzorku 10 a rozptylem vzorku 2. Pro 90% spolehlivost s 10 stupni volnosti je jednostranná hodnota t z tabulky 1,372. Pak s intervalem spolehlivosti vypočítaným z
určíme, že s 90% jistotou máme skutečný průměr ležící níže
Jinými slovy, 90% případů, kdy je touto metodou vypočítána horní prahová hodnota z konkrétních vzorků, překračuje tato horní prahová hodnota skutečný průměr.
A s 90% jistotou máme skutečnou střední hodnotu ležící nahoře
Jinými slovy, v 90% případů, kdy se touto metodou z konkrétních vzorků vypočítá nižší prahová hodnota, leží tato spodní prahová hodnota pod skutečným průměrem.
Takže při 80% spolehlivosti (počítáno ze 100% - 2 × (1 - 90%) = 80%) máme v intervalu skutečný průměr
Řekněme, že 80% případů, kdy je touto metodou z daného vzorku vypočítána horní a dolní prahová hodnota, je skutečný průměr jak pod horní prahovou hodnotou, tak nad spodní prahovou hodnotou, není totéž, jako když říkáme, že existuje 80% pravděpodobnost, že skutečný průměr leží mezi konkrétní dvojicí horních a dolních prahů, které byly vypočítány touto metodou; vidět interval spolehlivosti a klam státního zástupce.
V dnešní době je statistický software, jako je Programovací jazyk R. a funkce dostupné v mnoha tabulkové programy vypočítat hodnoty t-distribuce a její inverzní bez tabulek.
Viz také
Poznámky
- ^ Hurst, Simon. The Characteristic Function of the Student-t Distribution, Financial Mathematics Research Report No. FMRR006-95, Statistics Research Report No. SRR044-95 Archivováno 18. února 2010, v Wayback Machine
- ^ Helmert FR (1875). "Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Z. Math. U. Physik. 20: 300–3.
- ^ Helmert FR (1876). "Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen". Z. Math. Phys. 21: 192–218.
- ^ Helmert FR (1876). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit" [The accuracy of Peters' formula for calculating the probable observation error of direct observations of the same accuracy] (PDF). Astron. Nachr. (v němčině). 88 (8–9): 113–132. Bibcode:1876AN.....88..113H. doi:10.1002/asna.18760880802.
- ^ Lüroth J (1876). "Vergleichung von zwei Werten des wahrscheinlichen Fehlers". Astron. Nachr. 87 (14): 209–20. Bibcode:1876AN.....87..209L. doi:10.1002/asna.18760871402.
- ^ Pfanzagl J, Sheynin O (1996). "Studies in the history of probability and statistics. XLIV. A forerunner of the t-distribution". Biometrika. 83 (4): 891–898. doi:10.1093/biomet/83.4.891. PAN 1766040.
- ^ Sheynin O (1995). "Helmert's work in the theory of errors". Oblouk. Hist. Přesné Sci. 49 (1): 73–104. doi:10.1007/BF00374700.
- ^ Pearson, K. (1895-01-01). „Příspěvky k matematické teorii evoluce. II. Zkosená variace homogenního materiálu“. Filozofické transakce Královské společnosti A: Matematické, fyzikální a technické vědy. 186: 343–414 (374). doi:10.1098 / rsta.1895.0010. ISSN 1364-503X.
- ^ "Student" [William Sealy Gosset ] (1908). „Pravděpodobná chyba průměru“ (PDF). Biometrika. 6 (1): 1–25. doi:10.1093 / biomet / 6.1.1. hdl:10338.dmlcz / 143545. JSTOR 2331554.
- ^ Wendl MC (2016). "Pseudonymous fame". Věda. 351 (6280): 1406. doi:10.1126/science.351.6280.1406. PMID 27013722.
- ^ Mortimer RG (2005). Mathematics for physical chemistry (3. vyd.). Burlington, MA: Elsevier. str.326. ISBN 9780080492889. OCLC 156200058.
- ^ A b Fisher RA (1925). "Applications of "Student's" distribution" (PDF). Metron. 5: 90–104. Archivovány od originál (PDF) dne 5. března 2016.
- ^ Walpole RE, Myers R, Myers S, et al. (2006). Probability & Statistics for Engineers & Scientists (7. vydání). New Delhi: Pearson. str. 237. ISBN 9788177584042. OCLC 818811849.
- ^ Kruschke JK (2015). Doing Bayesian Data Analysis (2. vyd.). Akademický tisk. ISBN 9780124058880. OCLC 959632184.
- ^ A b C Johnson NL, Kotz S, Balakrishnan N (1995). „Kapitola 28“. Continuous Univariate Distributions. 2 (2. vyd.). Wiley. ISBN 9780471584940.
- ^ Gelman AB, Carlin JS, Rubin DB, et al. (1997). Bayesovská analýza dat (2. vyd.). Boca Raton: Chapman & Hall. str. 68. ISBN 9780412039911.
- ^ Hogg RV, Craig AT (1978). Úvod do matematické statistiky (4. vydání). New York: Macmillan. JAKO V B010WFO0SA. Sections 4.4 and 4.8
- ^ Cochran WG (1934). "The distribution of quadratic forms in a normal system, with applications to the analysis of covariance". Matematika. Proc. Camb. Philos. Soc. 30 (2): 178–191. Bibcode:1934PCPS...30..178C. doi:10.1017/S0305004100016595.
- ^ Park SY, Bera AK (2009). Msgstr "Maximální entropický autoregresní podmíněný model heteroskedasticity". J. Econom. 150 (2): 219–230. doi:10.1016 / j.jeconom.2008.12.014.
- ^ Casella G, Berger RL (1990). Statistical Inference. Duxbury Resource Center. str. 56. ISBN 9780534119584.
- ^ A b Bailey RW (1994). "Polar Generation of Random Variates with the t-Distribution". Matematika. Comput. 62 (206): 779–781. doi:10.2307/2153537. JSTOR 2153537.
- ^ A b Jackman, S. (2009). Bayesian Analysis for the Social Sciences. Wiley. str.507. doi:10.1002/9780470686621. ISBN 9780470011546.
- ^ A b Bishop, C.M. (2006). Rozpoznávání vzorů a strojové učení. New York, NY: Springer. ISBN 9780387310732.
- ^ Ord JK (1972). Families of Frequency Distributions. London: Griffin. ISBN 9780852641378. See Table 5.1.
- ^ Ord JK (1972). „Kapitola 5“. Families of frequency distributions. London: Griffin. ISBN 9780852641378.
- ^ Lange KL, Little RJ, Taylor JM (1989). "Robust Statistical Modeling Using the t Rozdělení" (PDF). J. Am. Stat. Doc. 84 (408): 881–896. doi:10.1080/01621459.1989.10478852. JSTOR 2290063.
- ^ Gelman AB, Carlin JB, Stern HS, et al. (2014). "Computationally efficient Markov chain simulation". Bayesovská analýza dat. Boca Raton, FL: CRC Press. str. 293. ISBN 9781439898208.
- ^ Shah, Amar; Wilson, Andrew Gordon; Ghahramani, Zoubin (2014). "Student t-processes as alternatives to Gaussian processes" (PDF). JMLR. 33 (Proceedings of the 17th International Conference on Artificial Intelligence and Statistics (AISTATS) 2014, Reykjavik, Iceland): 877–885.
- ^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Multivariate Gaussian and Student-t process regression for multi-output prediction". Neural Computing and Applications. arXiv:1703.04455. doi:10.1007/s00521-019-04687-8.
Reference
- Senn, S.; Richardson, W. (1994). "První t-test". Statistika v medicíně. 13 (8): 785–803. doi:10.1002/sim.4780130802. PMID 8047737.
- Hogg RV, Craig AT (1978). Úvod do matematické statistiky (4. vydání). New York: Macmillan. JAKO V B010WFO0SA.
- Venables, W. N .; Ripley, B. D. (2002). Moderní aplikovaná statistika se S (Čtvrté vydání). Springer.
- Gelman, Andrew; John B. Carlin; Hal S. Stern; Donald B. Rubin (2003). Bayesian Data Analysis (Second Edition). CRC/Chapman & Hall. ISBN 1-58488-388-X.
externí odkazy
- "Student distribution", Encyclopedia of Mathematics, Stiskněte EMS, 2001 [1994]
- Nejstarší známá použití některých slov matematiky (S) (Remarks on the history of the term "Student's distribution")
- Rouaud, M. (2013), Probability, Statistics and Estimation (PDF) (krátké vydání) First Students on page 112.