Matematická statistika - Mathematical statistics - Wikipedia
Matematická statistika je aplikace teorie pravděpodobnosti, pobočka matematika, do statistika, na rozdíl od technik sběru statistických údajů. Specifické matematické techniky, které se k tomu používají, zahrnují matematická analýza, lineární algebra, stochastická analýza, diferenciální rovnice, a teorie míry.[1][2]
Úvod
Sběr statistických údajů se týká plánování studií, zejména pokud jde o návrh randomizovaných experimentů as plánováním průzkumy použitím náhodný výběr. Počáteční analýza dat se často řídí protokolem studie stanoveným před provedením studie. Data ze studie lze také analyzovat, aby se zvážily sekundární hypotézy inspirované počátečními výsledky nebo navrhly nové studie. Sekundární analýza dat z plánované studie využívá nástroje z analýza dat a procesem je matematická statistika.
Analýza dat se dělí na:
- deskriptivní statistika - část statistiky, která popisuje data, tj. shrnuje data a jejich typické vlastnosti.
- inferenční statistiky - část statistiky, která vyvozuje závěry z údajů (pomocí nějakého modelu pro data): Například inferenční statistika zahrnuje výběr modelu pro data, kontrolu, zda data splňují podmínky konkrétního modelu, a kvantifikaci související nejistoty (např. pomocí intervaly spolehlivosti ).
Zatímco nástroje pro analýzu dat fungují nejlépe na datech z randomizovaných studií, jsou také aplikovány na jiné druhy dat. Například od přírodní experimenty a observační studie, v tom případě je odvození závislé na modelu zvoleném statistikem, a tak subjektivní.[3]
Témata
Následuje několik důležitých témat matematické statistiky:[4][5]
Pravděpodobnostní rozdělení
A rozdělení pravděpodobnosti je funkce který přiřadí a pravděpodobnost ke každému měřitelná podmnožina možných výsledků náhodného experiment, průzkum, nebo postup statistická inference. Příklady lze nalézt v experimentech, jejichž ukázkový prostor je nečíselné, kde distribuce by byla a kategorické rozdělení; experimenty, jejichž vzorový prostor je kódován diskrétními náhodné proměnné, kde distribuci lze určit pomocí a funkce pravděpodobnostní hmotnosti; a experimenty se vzorovými prostory kódovanými spojitými náhodnými proměnnými, kde rozdělení lze určit pomocí a funkce hustoty pravděpodobnosti. Složitější experimenty, například ty, které se účastní stochastické procesy definované v nepřetržitý čas, může požadovat použití obecnějších pravděpodobnostní opatření.
Rozdělení pravděpodobnosti může být buď univariate nebo vícerozměrný. Univariate distribuce dává pravděpodobnosti jeden náhodná proměnná převzetí různých alternativních hodnot; vícerozměrná distribuce (a společné rozdělení pravděpodobnosti ) uvádí pravděpodobnosti a náhodný vektor —Sada dvou nebo více náhodných proměnných — přebírající různé kombinace hodnot. Mezi důležité a běžně se vyskytující jednorozměrné rozdělení pravděpodobnosti patří binomická distribuce, hypergeometrická distribuce a normální distribuce. The vícerozměrné normální rozdělení je běžně se vyskytující vícerozměrná distribuce.
Speciální distribuce
- Normální distribuce, nejběžnější kontinuální distribuce
- Bernoulliho distribuce, za výsledek jediného Bernoulliho soudu (např. úspěch / neúspěch, ano / ne)
- Binomická distribuce, pro počet „pozitivních výskytů“ (např. úspěchy, ano hlasy atd.) s daným pevným celkovým počtem nezávislý výskyty
- Negativní binomické rozdělení, pro pozorování binomického typu, ale kde kvantita zájmu je počet poruch před dosažením daného počtu úspěchů
- Geometrické rozdělení, pro pozorování binomického typu, ale kde kvantitou zájmu je počet selhání před prvním úspěchem; speciální případ záporného binomického rozdělení, kde je počet úspěchů jeden.
- Diskrétní rovnoměrné rozdělení, pro konečný soubor hodnot (např. výsledek spravedlivého zemřít)
- Kontinuální rovnoměrné rozdělení, pro průběžně distribuované hodnoty
- Poissonovo rozdělení, pro počet výskytů události typu Poisson v daném časovém období
- Exponenciální rozdělení, na dobu před další událostí Poissonova typu
- Distribuce gama, za dobu před nastáním dalších k Poissonových událostí
- Distribuce chí-kvadrát, rozdělení součtu čtverců standardní normální proměnné; užitečné např. pro vyvození ohledně rozptyl vzorku normálně distribuovaných vzorků (viz chí-kvadrát test )
- Studentova distribuce, rozdělení poměru a standardní normální proměnná a druhá odmocnina měřítka chi na druhou proměnná; užitečné pro závěr ohledně znamenat normálně distribuovaných vzorků s neznámou odchylkou (viz Studentův t-test )
- Distribuce beta, pro jedinou pravděpodobnost (reálné číslo mezi 0 a 1); konjugovat s Bernoulliho distribuce a binomická distribuce
Statistická inference
Statistická inference je proces vyvozování závěrů z dat, která podléhají náhodným změnám, například pozorovacím chybám nebo odchylkám odběru vzorků.[6] Počáteční požadavky takového systému postupů pro odvození a indukce spočívají v tom, že systém by měl poskytovat rozumné odpovědi, pokud je aplikován na přesně definované situace, a že by měl být dostatečně obecný, aby mohl být aplikován v celé řadě situací. Inferenční statistiky se používají k testování hypotéz a odhadů pomocí ukázkových dat. Zatímco deskriptivní statistika popsat vzorek, inferenční statistika odvodí předpovědi o větší populaci, kterou vzorek představuje.
Výsledkem statistické inference může být odpověď na otázku „co by se mělo dělat dál?“, Kde by mohlo jít o rozhodnutí o dalších experimentech nebo průzkumech nebo o vyvození závěru před provedením nějaké organizační nebo vládní politiky. část, statistická inference dělá výroky o populacích, s využitím dat získaných z populace zájmu prostřednictvím nějaké formy náhodného výběru. Obecněji řečeno, data o náhodném procesu se získávají z jeho pozorovaného chování během konečné doby. Vzhledem k parametru nebo hypotéze, o které si přejeme odvodit, statistická inference nejčastěji používá:
- A statistický model - náhodného procesu, který má generovat data, který je známý při použití randomizace, a -
- konkrétní realizace náhodného procesu; tj. soubor dat.
Regrese
v statistika, regresní analýza je statistický proces pro odhad vztahů mezi proměnnými. Zahrnuje mnoho způsobů modelování a analýzy několika proměnných, když je kladen důraz na vztah mezi a závislá proměnná a jeden nebo více nezávislé proměnné. Přesněji řečeno, regresní analýza pomáhá pochopit, jak se mění typická hodnota závislé proměnné (nebo „proměnné kritéria“), když se mění některá z nezávislých proměnných, zatímco ostatní nezávislé proměnné zůstávají pevné. Regresní analýza nejčastěji odhaduje podmíněné očekávání závislé proměnné vzhledem k nezávislým proměnným - tj průměrná hodnota závislé proměnné, když jsou nezávislé proměnné pevné. Méně často se zaměřujeme na a kvantil, nebo jiný parametr umístění podmíněného rozdělení závislé proměnné vzhledem k nezávislým proměnným. Ve všech případech je cílem odhadu a funkce nezávislých proměnných zvaných regresní funkce. V regresní analýze je také zajímavé charakterizovat variaci závislé proměnné kolem regresní funkce, kterou lze popsat pomocí rozdělení pravděpodobnosti.
Bylo vyvinuto mnoho technik pro provádění regresní analýzy. Známé metody, jako např lineární regrese, jsou parametrické v tom, že regresní funkce je definována jako konečný počet neznámých parametry které se odhadují z data (např. pomocí obyčejné nejmenší čtverce ). Neparametrická regrese odkazuje na techniky, které umožňují regresní funkci ležet v zadané sadě funkce, což může být nekonečně-dimenzionální.
Neparametrické statistiky
Neparametrické statistiky jsou hodnoty vypočítané z dat způsobem, který není založen na parametrizováno rodiny rozdělení pravděpodobnosti. Zahrnují obojí popisný a inferenční statistika. Typickými parametry jsou průměr, rozptyl atd. Na rozdíl parametrické statistiky, neparametrické statistiky nevytvářejí žádné předpoklady o rozdělení pravděpodobnosti posuzovaných proměnných[Citace je zapotřebí ].
Neparametrické metody jsou široce používány ke studiu populací, které mají seřazené pořadí (například recenze filmů, které dostávají jednu až čtyři hvězdičky). Pokud mají data a., Může být nutné použít neparametrické metody hodnocení ale žádná jasná numerická interpretace, například při hodnocení předvolby. Ve smyslu úrovně měření, neparametrické metody vedou k "ordinálním" datům.
Protože neparametrické metody vytvářejí méně předpokladů, je jejich použitelnost mnohem širší než u příslušných parametrických metod. Zejména je lze použít v situacích, kdy je o dané aplikaci známo méně. Také díky spoléhání se na méně předpokladů je více neparametrických metod robustní.
Dalším důvodem pro použití neparametrických metod je jednoduchost. V určitých případech, i když je použití parametrických metod oprávněné, může být použití neparametrických metod snazší. Kvůli této jednoduchosti a jejich větší robustnosti někteří statistici považují neparametrické metody za ponechání menšího prostoru pro nesprávné použití a nedorozumění.
Statistiky, matematika a matematické statistiky
Matematická statistika je klíčovou podmnožinou oboru statistika. Statističtí teoretici studujte a vylepšujte statistické postupy s matematikou a statistický výzkum často vyvolává matematické otázky. Statistická teorie se opírá o pravděpodobnost a teorie rozhodování.
Matematici a statistici mají rádi Gauss, Laplace, a C. S. Peirce použitý teorie rozhodování s rozdělení pravděpodobnosti a ztrátové funkce (nebo obslužné funkce ). Rozhodovací teoretický přístup ke statistickým závěrům byl znovu oživen Abraham Wald a jeho nástupci,[7][8][9][10][11][12][13] a ve velké míře využívá vědecké výpočty, analýza, a optimalizace; pro návrh experimentů, používají statistici algebra a kombinatorika.
Viz také
Reference
- ^ Lakshmikantham, ed. D. Kannan, ... V. (2002). Příručka stochastické analýzy a aplikací. New York: M. Dekker. ISBN 0824706609.CS1 maint: další text: seznam autorů (odkaz)
- ^ Schervish, Mark J. (1995). Teorie statistiky (Corr. 2nd print. Ed.). New York: Springer. ISBN 0387945466.
- ^ Freedman, D.A. (2005) Statistické modely: teorie a praxe, Cambridge University Press. ISBN 978-0-521-67105-7
- ^ Hogg, R. V., A. Craig a J. W. McKean. „Úvod do matematické statistiky.“ (2005).
- ^ Larsen, Richard J. a Marx, Morris L. „Úvod do matematické statistiky a jejích aplikací“ (2012). Prentice Hall.
- ^ Upton, G., Cook, I. (2008) Oxfordský statistický slovník, OUP. ISBN 978-0-19-954145-4
- ^ Wald, Abraham (1947). Sekvenční analýza. New York: John Wiley and Sons. ISBN 0-471-91806-7.
Viz Dover reprint, 2004: ISBN 0-486-43912-7
- ^ Wald, Abraham (1950). Statistické rozhodovací funkce. John Wiley and Sons, New York.
- ^ Lehmann, Erich (1997). Testování statistických hypotéz (2. vyd.). ISBN 0-387-94919-4.
- ^ Lehmann, Erich; Cassella, George (1998). Teorie odhadu bodu (2. vyd.). ISBN 0-387-98502-6.
- ^ Bickel, Peter J.; Doksum, Kjell A. (2001). Matematická statistika: základní a vybraná témata. 1 (Druhé (aktualizovaný tisk 2007) ed.). Pearson Prentice-Hall.
- ^ Le Cam, Lucien (1986). Asymptotické metody v teorii statistického rozhodování. Springer-Verlag. ISBN 0-387-96307-3.
- ^ Liese, Friedrich & Miescke, Klaus-J. (2008). Teorie statistického rozhodování: Odhad, testování a výběr. Springer.
Další čtení
- Borovkov, A. A. (1999). Matematická statistika. CRC Press. ISBN 90-5699-018-7
- Virtuální laboratoře pro pravděpodobnost a statistiku (Univ. Z Ala.-Huntsville)
- StatiBot, interaktivní online expertní systém pro statistické testy.
- Matematická statistika[1] ISBN 978-9383385188 Manohar Ray, Har swarup Sharma publikoval Ram Prasad Agra
- ^ Ray, M .; Sharma, H.S. (1966). Matematická statistika. Ram Prasad & Sons.