Statistická inference - Statistical inference

Statistická inference je proces používání analýza dat odvodit vlastnosti podkladu rozdělení pravděpodobnosti.^[1] Inferenční statistická analýza odvozuje vlastnosti a populace, například testováním hypotéz a odvozením odhadů. Předpokládá se, že pozorovaný soubor dat je odebrány vzorky z větší populace.

S inferenční statistikou lze porovnávat deskriptivní statistika. Popisná statistika se týká pouze vlastností pozorovaných dat a nezakládá se na předpokladu, že data pocházejí z větší populace. v strojové učení, termín odvození místo toho se někdy používá k označení „vytvořit predikci hodnocením již trénovaného modelu“;^[2] v této souvislosti se odvození vlastností modelu označuje jako výcvik nebo učení se (spíše než odvození) a použití modelu pro predikci se označuje jako odvození (namísto předpověď); viz také prediktivní závěr.

Úvod

Statistická inference vytváří teze o populaci pomocí dat získaných z populace s nějakou formou vzorkování. Vzhledem k hypotéze o populaci, pro kterou chceme vyvodit závěry, se statistická inference skládá z (první) výběr A statistický model procesu, který generuje data a (druhý) odvození propozic z modelu.^{[Citace je zapotřebí ]}

Konishi a Kitagawa uvádějí: „Většinu problémů statistických závěrů lze považovat za problémy související se statistickým modelováním.“^[3] Související Sir David Cox uvedl: „Jak je [překlad] problému z předmětu do statistického modelu prováděn, je často nejdůležitější částí analýzy“.^[4]

The závěr statistické inference je statistická tvrzení.^[5] Některé běžné formy statistických návrhů jsou následující:

A bodový odhad, tj. konkrétní hodnota, která nejlépe aproximuje některý sledovaný parametr;
an odhad intervalu, např. A interval spolehlivosti (nebo odhad odhadu), tj. interval vytvořený pomocí datové sady čerpané z populace tak, aby při opakovaném vzorkování takových datových sad takové intervaly obsahovaly skutečnou hodnotu parametru s pravděpodobnost na uvedeném úroveň spolehlivosti;
A důvěryhodný interval, tj. soubor hodnot obsahujících například 95% zadní víry;
odmítnutí a hypotéza;^{[poznámka 1]}
shlukování nebo klasifikace datových bodů do skupin.

Modely a předpoklady

Jakýkoli statistický závěr vyžaduje určité předpoklady. A statistický model je soubor předpokladů týkajících se generování pozorovaných údajů a podobných údajů. Popisy statistických modelů obvykle zdůrazňují roli populačních kvantit, o které se zajímáme, z čehož chceme vyvodit závěr.^[6] Deskriptivní statistiky se obvykle používají jako předběžný krok před vyvozením formálnějších závěrů.^[7]

Stupeň modelů / předpokladů

Statistici rozlišují mezi třemi úrovněmi modelových předpokladů;

Plně parametrické: Předpokládá se, že rozdělení pravděpodobnosti popisující proces generování dat je plně popsáno rodinou rozdělení pravděpodobnosti zahrnující pouze konečný počet neznámých parametrů.^[6] Například lze předpokládat, že rozdělení hodnot populace je skutečně normální, s neznámým průměrem a rozptylem a že datové sady jsou generovány „jednoduchý“ náhodný výběr vzorků. Rodina zobecněné lineární modely je široce používaná a flexibilní třída parametrických modelů.
Neparametrické: Předpoklady o procesu generování dat jsou mnohem menší než v parametrických statistikách a mohou být minimální.^[8] Každé kontinuální rozdělení pravděpodobnosti má například medián, který lze odhadnout pomocí mediánu vzorku nebo Hodges – Lehmann – Sen odhadce, který má dobré vlastnosti, když data vznikají z jednoduchého náhodného vzorkování.
Semi-parametrický: Tento termín obvykle implikuje předpoklady „mezi“ plně a neparametrickými přístupy. Například lze předpokládat, že rozdělení populace má konečný průměr. Dále lze předpokládat, že průměrná úroveň odezvy v populaci závisí skutečně lineárně na nějaké proměnné (parametrický předpoklad), ale neuděláme žádný parametrický předpoklad popisující rozptyl kolem tohoto průměru (tj. O přítomnosti nebo možné formě jakékoli heteroscedasticita ). Obecněji lze poloparametrické modely často rozdělit na komponenty „strukturální“ a „náhodné variace“. S jednou komponentou je zacházeno parametricky a s druhou neparametricky. Známý Coxův model je sada semi-parametrických předpokladů.

Důležitost platných modelů / předpokladů

Ať už je vytvořena jakákoli úroveň předpokladu, správně kalibrovaná inference obecně vyžaduje, aby byly tyto předpoklady správné; tj. že mechanismy generování dat byly skutečně správně specifikovány.

Nesprávné předpoklady „jednoduchý“ náhodný výběr vzorků může zneplatnit statistický závěr.^[9] Složitější polo- a plně parametrické předpoklady jsou také důvodem k obavám. Například nesprávný předpoklad Coxova modelu může v některých případech vést k chybným závěrům.^[10] Nesprávné předpoklady normality v populaci také zneplatňují některé formy závěrů založených na regresi.^[11] Použití žádný parametrický model je většinou odborníků na vzorkování lidských populací skeptický: „většina statistiků, kteří se zabývají vzorkováním, pokud se vůbec zabývají intervaly spolehlivosti, omezuje se na prohlášení o [odhadech] na základě velmi velkých vzorků, kde centrální limitní věta zajišťuje, že tyto [ odhadci] budou mít rozdělení, která jsou téměř normální. “^[12] Zejména normální rozdělení „by bylo naprosto nerealistickým a katastroficky nerozumným předpokladem, pokud bychom měli co do činění s jakýmkoli druhem ekonomické populace.“^[12] Zde centrální limitní věta uvádí, že distribuční průměr vzorku „pro velmi velké vzorky“ je přibližně normálně distribuován, pokud distribuce není těžce sledována.

Přibližné rozdělení

Vzhledem k obtížnosti specifikovat přesné rozdělení statistik vzorků bylo vyvinuto mnoho metod pro jejich aproximaci.

S konečnými vzorky, výsledky aproximace změřte, jak blízko se limitující distribuce blíží statistice distribuce vzorků: Například s 10 000 nezávislými vzorky normální distribuce přibližuje (na dvě číslice přesnosti) distribuci průměr vzorku u mnoha distribucí populace podle Berry – Esseenova věta.^[13]Přesto pro mnoho praktických účelů poskytuje normální aproximace dobrou aproximaci distribuce střední hodnoty vzorku, pokud existuje 10 (nebo více) nezávislých vzorků, podle simulačních studií a zkušeností statistiků.^[13] V návaznosti na Kolmogorovovu práci v 50. letech 20. století využívá pokročilá statistika teorie aproximace a funkční analýza kvantifikovat chybu aproximace. V tomto přístupu je metrická geometrie z rozdělení pravděpodobnosti je studován; tento přístup kvantifikuje chybu aproximace například pomocí Kullback – Leiblerova divergence, Bregmanova divergence a Hellingerova vzdálenost.^[14]^[15]^[16]

S neomezeně velkými vzorky omezující výsledky jako teorém centrálního limitu popište mezní rozdělení statistik vzorku, pokud existuje. Omezující výsledky nejsou výroky o konečných vzorcích a pro konečné vzorky jsou skutečně irelevantní.^[17]^[18]^[19] Pro práci s konečnými vzorky je však často vyvolána asymptotická teorie omezení distribucí. Například k omezení výsledků se často používají omezující výsledky zobecněná metoda momentů a použití zobecněné odhadovací rovnice, které jsou populární v ekonometrie a biostatistika. Velikost rozdílu mezi mezním a skutečným rozdělením (formálně „chyba“ aproximace) lze posoudit pomocí simulace.^[20] Heuristická aplikace omezujících výsledků na konečné vzorky je běžnou praxí v mnoha aplikacích, zejména u nízkodimenzionálních modely s log-konkávní pravděpodobnosti (například s jedním parametrem exponenciální rodiny ).

Randomizační modely

Pro daný datový soubor, který byl vytvořen randomizačním návrhem, je distribuce randomizace statistik (pod nulovou hypotézou) definována vyhodnocením statistik testu pro všechny plány, které mohly být generovány randomizačním návrhem. V častých závěrech randomizace umožňuje, aby závěry vycházely spíše z distribuce randomizace než ze subjektivního modelu, což je důležité zejména při vzorkování průzkumu a návrhu experimentů.^[21]^[22] Statistické závěry z randomizovaných studií jsou také přímočařejší než mnoho jiných situací.^[23]^[24]^[25] v Bayesovský závěr, randomizace je také důležitá: v vzorkování průzkumu, Použití vzorkování bez náhrady zajišťuje zaměnitelnost vzorku s populací; v randomizovaných experimentech zaručuje randomizace a náhodně chybí předpoklad pro kovariát informace.^[26]

Objektivní randomizace umožňuje správně induktivní postupy.^[27]^[28]^[29]^[30]^[31]Mnoho statistiků dává přednost analýze dat založené na randomizaci, která byla generována dobře definovanými postupy randomizace.^[32] (Je však pravda, že v oblastech vědy s rozvinutými teoretickými znalostmi a experimentální kontrolou mohou randomizované experimenty zvýšit náklady na experimenty, aniž by došlo ke zlepšení kvality závěrů.^[33]^[34]) Podobně výsledky z randomizované experimenty jsou doporučovány předními statistickými úřady jako umožňující závěry s větší spolehlivostí než pozorovací studie stejných jevů.^[35]Dobrá pozorovací studie však může být lepší než špatný randomizovaný experiment.

Statistická analýza randomizovaného experimentu může být založena na randomizačním schématu uvedeném v experimentálním protokolu a nevyžaduje subjektivní model.^[36]^[37]

Některé hypotézy však nelze kdykoli otestovat pomocí objektivních statistických modelů, které přesně popisují randomizované experimenty nebo náhodné vzorky. V některých případech jsou takové randomizované studie neekonomické nebo neetické.

Modelová analýza randomizovaných experimentů

Standardním postupem je při analýze dat z randomizovaných experimentů odkazovat na statistický model, např. Lineární nebo logistické modely.^[38] Volbou statistického modelu se však řídí randomizační schéma. Bez znalosti schématu randomizace není možné zvolit vhodný model.^[22] Vážně zavádějící výsledky lze získat analýzou dat z randomizovaných experimentů při ignorování experimentálního protokolu; Mezi běžné chyby patří zapomenutí blokování použitého v experimentu a záměna opakovaných měření na stejné experimentální jednotce s nezávislými replikáty léčby aplikované na různé experimentální jednotky.^[39]

Odvození randomizace bez modelu

Techniky bez modelu poskytují doplněk k metodám založeným na modelu, které využívají redukcionistické strategie zjednodušení reality. První kombinují, vyvíjejí, sestavují a trénují algoritmy, které se dynamicky přizpůsobují kontextovým souvislostem procesu a učí se vnitřním charakteristikám pozorování.^[38]^[40]

Například jednoduchá lineární regrese bez modelu je založena buď na

A náhodný designkde jsou dvojice pozorování ${displaystyle (X_ {1}, Y_ {1}), (X_ {2}, Y_ {2}), cdots, (X_ {n}, Y_ {n})}$ - jsou nezávislé a identicky distribuované (iid), nebo -
A deterministický design, kde proměnné ${displaystyle X_ {1}, X_ {2}, cdots, X_ {n}}$ jsou deterministické, ale odpovídající proměnné odezvy ${displaystyle Y_ {1}, Y_ {2}, cdots, Y_ {n}}$ jsou náhodné a nezávislé se společným podmíněným rozdělením, tj. ${displaystyle Pleft (Y_ {j} leq y | X_ {j} = xight) = D_ {x} (y)}$ , který je nezávislý na indexu ${displaystyle j}$ .

V obou případech odvození náhodnosti bez modelu pro vlastnosti společného podmíněného rozdělení ${displaystyle D_ {x} (.)}$ spoléhá na některé podmínky pravidelnosti, např. funkční hladkost. Například odvození randomizace bez modelu pro funkci populace podmíněný průměr, ${displaystyle mu (x) = E (Y | X = x)}$ , lze důsledně odhadnout pomocí lokálního průměrování nebo lokálního polynomického přizpůsobení, za předpokladu, že ${displaystyle mu (x)}$ je hladký. Také, opíraje se o asymptotickou normálnost nebo převzorkování, můžeme sestrojit intervaly spolehlivosti pro populační rys, v tomto případě podmíněný průměr, ${displaystyle mu (x)}$ .^[41]

Paradigmata pro odvození

Založily se různé školy statistické inference. Tyto školy - neboli „paradigmata“ - se vzájemně nevylučují a metody, které dobře fungují v rámci jednoho paradigmatu, mají často atraktivní interpretace v rámci jiných paradigmat.

Bandyopadhyay a Forster^[42] popsat čtyři paradigmata: „(i) klasická statistika nebo statistika chyb, (ii) Bayesiánská statistika, (iii) statistika založená na pravděpodobnosti a (iv) statistika založená na Akaikeanově informačním kritériu“. Klasický (nebo častý ) paradigma, Bayesian paradigma pravděpodobnost paradigma a AIC paradigma založené na principech jsou shrnuty níže.

Časté závěry

Toto paradigma kalibruje věrohodnost propozic tím, že zvažuje (fiktivní) opakované vzorkování distribuce populace za účelem vytvoření datových souborů podobných tomu, který máme k dispozici. Zvážením charakteristik datové sady při opakovaném vzorkování lze vyčíslit frekventované vlastnosti statistické nabídky - i když v praxi může být tato kvantifikace náročná.

Příklady častých závěrů

p-hodnota
Interval spolehlivosti
Nulová hypotéza testování hypotéz

Častá inference, objektivita a teorie rozhodování

Jedna interpretace častý závěr (nebo klasický závěr) je, že je použitelný pouze z hlediska pravděpodobnost frekvence; tj. pokud jde o opakovaný odběr vzorků z populace. Přístup Neymana^[43] vyvíjí tyto postupy z hlediska pravděpodobností před experimentem. To znamená, že před provedením experimentu se rozhodne o pravidle, které vede k závěru, že pravděpodobnost správnosti je vhodným způsobem kontrolována: taková pravděpodobnost nemusí mít častou nebo opakovanou interpretaci vzorkování. Naproti tomu Bayesiánská inference funguje z hlediska podmíněných pravděpodobností (tj. Pravděpodobností podmíněných pozorovanými údaji) ve srovnání s marginálními (ale podmíněnými neznámými parametry) pravděpodobnostmi používanými v přístupu.

Frekvenční postupy testování významnosti a intervaly spolehlivosti lze konstruovat bez ohledu na obslužné funkce. Některé prvky časté statistiky, jako např statistická teorie rozhodování, začlenit obslužné funkce.^{[Citace je zapotřebí ]} Zejména častý vývoj optimálního závěru (např objektivní odhady minimální odchylky nebo jednotně nejvýkonnější testování ) využít ztrátové funkce, které hrají roli (negativních) užitkových funkcí. Funkce ztráty nemusí být výslovně uvedeny pro statistické teoretiky, aby prokázali, že statistický postup má vlastnost optimality.^[44] Ztrátové funkce jsou však často užitečné pro určení vlastností optimality: například mediánně nezaujaté odhady jsou optimální pod absolutní hodnota ztrátové funkce v tom smyslu, že minimalizují očekávanou ztrátu a nejmenší čtverce odhady jsou optimální pro funkce na druhou na ztrátu chyb, protože minimalizují očekávanou ztrátu.

Zatímco statistici využívající častou inferenci si musí sami zvolit parametry zájmu a odhady /statistika testu pokud se má použít, absence zjevně explicitních nástrojů a dřívější distribuce pomohla častým postupům, aby byly obecně považovány za „objektivní“.^[45]

Bayesovský závěr

Bayesovský počet popisuje stupně víry pomocí „jazyka“ pravděpodobnosti; víry jsou pozitivní, integrují se do jednoho a dodržují axiomy pravděpodobnosti. Bayesiánská inference využívá dostupné zadní víry jako základ pro vytváření statistických návrhů. Existují několik různých odůvodnění za použití bayesiánského přístupu.

Příklady Bayesovské závěry

Důvěryhodný interval pro odhad intervalu
Bayesovy faktory pro srovnání modelů

Bayesovský závěr, subjektivita a teorie rozhodování

Mnoho neformálních Bayesiánských závěrů je založeno na „intuitivně rozumných“ shrnutích zadních stran. Například zadní průměr, medián a režim, intervaly nejvyšší zadní hustoty a Bayesovy faktory lze motivovat tímto způsobem. Zatímco uživatel užitková funkce pro tento druh závěru není třeba uvádět, všechny tyto souhrny závisí (do určité míry) na uvedených dřívějších přesvědčeních a jsou obecně považovány za subjektivní závěry. (Metody předchozí konstrukce, které nevyžadují externí vstup, byly navrhováno ale ještě není plně vyvinut.)

Formálně je Bayesianova inference kalibrována s odkazem na výslovně uvedenou užitečnost nebo funkci ztráty; „Bayesovo pravidlo“ je pravidlo, které maximalizuje očekávanou užitečnost v průměru za zadní nejistotou. Formální Bayesiánský závěr proto automaticky poskytuje optimální rozhodnutí v teoretická rozhodnutí smysl. Vzhledem k předpokladům, údajům a užitečnosti lze Bayesiánskou inferenci odvodit v podstatě pro jakýkoli problém, i když ne každá statistická inference musí mít Bayesiánskou interpretaci. Analýzy, které nejsou formálně Bayesovské, mohou být (logicky) nesouvislý; rysem Bayesovských postupů, které používají vlastní přednosti (tj. ty, které jsou integrovatelné do jednoho), je to, že je zaručeno, že budou koherentní. Někteří zastánci Bayesovský závěr tvrdit tento závěr musí se odehrávají v tomto teoreticko-rozhodovacím rámci, a to Bayesovský závěr by neměl být zakončen hodnocením a shrnutím zadních přesvědčení.

Závěr založený na pravděpodobnosti

Pravděpodobnost přistupuje ke statistikám pomocí funkce pravděpodobnosti. Někteří věřící předpokládají, že statistiku považují za pouze výpočetní podporu z důkazů. Jiní však navrhují závěry založené na pravděpodobnostní funkci, z nichž nejznámější je odhad maximální věrohodnosti.

Odvození založené na AIC

The Informační kritérium Akaike (AIC) je odhadce relativní kvality statistické modely pro danou sadu dat. Vzhledem k kolekci modelů pro data odhaduje AIC kvalitu každého modelu ve srovnání s každým z ostatních modelů. AIC tedy poskytuje prostředky pro výběr modelu.

AIC je založen na teorie informace: nabízí odhad relativních ztracených informací při použití daného modelu k reprezentaci procesu, který generoval data. (Přitom se zabývá kompromisem mezi dobrota fit modelu a jednoduchost modelu.)

Další paradigmata pro odvození

Minimální délka popisu

Princip minimální délky popisu (MDL) byl vyvinut z myšlenek v teorie informace^[46] a teorie Kolmogorovova složitost.^[47] Princip (MDL) vybírá statistické modely, které maximálně komprimují data; závěr vychází z předpokladu, že nebudou přijaty srovnávací nebo nefalšovatelné „mechanismy generování dat“ nebo pravděpodobnostní modely pro data, jak by to bylo možné v častých nebo bayesovských přístupech.

Pokud však ve skutečnosti existuje "mechanismus generující data", pak podle Shannon je věta o zdrojovém kódování poskytuje MDL popis dat, v průměru a asymptoticky.^[48] Při minimalizaci délky popisu (nebo popisné složitosti) je odhad MDL podobný odhad maximální věrohodnosti a maximální a posteriori odhad (použitím maximální entropie Bayesiánští priorové ). MDL se však vyhýbá předpokladu, že je znám základní model pravděpodobnosti; princip MDL lze také použít bez předpokladu, že např. údaje vzešly z nezávislého odběru vzorků.^[48]^[49]

Princip MDL byl použit v komunikaci-teorie kódování v teorie informace, v lineární regrese,^[49] a v dolování dat.^[47]

Hodnocení inferenčních postupů založených na MDL často používá techniky nebo kritéria z teorie výpočetní složitosti.^[50]

Výchozí odvození

Výchozí odvození byl přístup ke statistickým závěrům založený na základní pravděpodobnost, známé také jako „základní rozdělení“. V následné práci byl tento přístup označen jako nedefinovaný, extrémně omezený v použitelnosti a dokonce klamný.^[51]^[52] Tento argument je však stejný jako argument, který ukazuje^[53] že tzv rozdělení důvěry není platný rozdělení pravděpodobnosti a protože to nezruší platnost žádosti intervaly spolehlivosti, nemusí nutně vyvrátit závěry vycházející z výchozích argumentů. Byl učiněn pokus znovu interpretovat rané dílo Fishera základní argument jako speciální případ použití teorie odvození Horní a dolní pravděpodobnost.^[54]

Strukturální závěr

Rozvíjení myšlenek Fishera a Pitmana v letech 1938 až 1939,^[55] George A. Barnard rozvinutý „strukturální závěr“ nebo „klíčový závěr“,^[56] přístup využívající invariantní pravděpodobnosti na skupinové rodiny. Barnard přeformuloval argumenty za fiduciální inferencí u omezené třídy modelů, na nichž by „fiducial“ postupy byly dobře definované a užitečné.

Inferenční témata

Níže uvedená témata jsou obvykle zahrnuta v oblasti statistická inference.

Dějiny

Al-Kindi, an Arabský matematik v 9. století, použil nejdříve známý statistický závěr v jeho Rukopis o dešifrování kryptografických zpráv, práce na dešifrování a frekvenční analýza.^[57]

Viz také

Poznámky

^ Podle Peirce přijetí znamená, že dotaz na tuto otázku prozatím končí. Ve vědě jsou všechny vědecké teorie revidovatelné.

Reference

Citace

^ Upton, G., Cook, I. (2008) Oxfordský statistický slovník, OUP. ISBN 978-0-19-954145-4.
^ „TensorFlow Lite inference“. Termín odvození označuje proces provádění modelu TensorFlow Lite na zařízení za účelem předpovědi na základě vstupních dat.
^ Konishi a Kitagawa (2008), s. 75.
^ Cox (2006), s. 197.
^ „Statistická inference - encyklopedie matematiky“. www.encyclopediaofmath.org. Citováno 2019-01-23.
^ ^A ^b Cox (2006) strana 2
^ Evans, Michael; et al. (2004). Pravděpodobnost a statistika: Věda nejistoty. Freeman a společnost. p. 267. ISBN 9780716747420.
^ van der Vaart, A.W. (1998) Asymptotické statistiky Cambridge University Press. ISBN 0-521-78450-6 (strana 341)
^ Kruskal 1988
^ Freedman, D.A. (2008) „Analýza přežití: Epidemiologické riziko?“. Americký statistik (2008) 62: 110-119. (Přetištěno jako Kapitola 11 (strany 169–192) Freedmana (2010)).
^ Berk, R. (2003) Regresní analýza: Konstruktivní kritika (Pokročilé kvantitativní techniky v sociálních vědách) (v. 11) Sage publikace. ISBN 0-7619-2904-5
^ ^A ^b Brewer, Ken (2002). Odvození vzorků z kombinovaného průzkumu: Vážení slonů Basu. Hodder Arnold. p. 6. ISBN 978-0340692295.
^ ^A ^b Jörgen Hoffman-Jörgensen Pravděpodobnost s výhledem na statistiku, Svazek I. Strana 399^{[úplná citace nutná ]}
^ Le Cam (1986)^{[stránka potřebná ]}
^ Erik Torgerson (1991) Srovnání statistických experimentů, svazek 36 encyklopedie matematiky. Cambridge University Press.^{[úplná citace nutná ]}
^ Liese, Friedrich & Miescke, Klaus-J. (2008). Teorie statistického rozhodování: Odhad, testování a výběr. Springer. ISBN 978-0-387-73193-3.
^ Kolmogorov (1963, s. 369): „Koncept frekvence, založený na pojmu omezení frekvence, jak se počet pokusů zvyšuje do nekonečna, nepřispívá ničím k doložení použitelnosti výsledků teorie pravděpodobnosti na skutečné praktické problémy, kde musí vždy řešit konečný počet pokusů “.
^ „Opravdu, věty omezte na ${displaystyle n}$ inklinuje k nekonečnu ', logicky postrádají obsah o tom, co se v konkrétním případě stane ${displaystyle n}$ . Jediné, co mohou udělat, je navrhnout určité přístupy, jejichž výkon musí být poté zkontrolován v daném případě. “- Le Cam (1986) (strana xiv)
^ Pfanzagl (1994): „Zásadní nevýhodou asymptotické teorie: To, co od asymptotické teorie očekáváme, jsou výsledky, které mají přibližně… To, co asymptotická teorie nabízí, jsou limitní věty.“ (Strana ix) „Pro aplikace jsou důležité aproximace , ne limity. “ (strana 188)
^ Pfanzagl (1994): „Tím, že vezmeme větu o limitu jako přibližně pravdivou pro velké velikosti vzorků, dopustíme se chyby, jejíž velikost není známa. [...] Realistické informace o zbývajících chybách lze získat simulacemi.“ (stránka ix)
^ Neyman, J. (1934) „O dvou různých aspektech reprezentativní metody: metodě stratifikovaného vzorkování a metodě účelového výběru“, Journal of the Royal Statistical Society, 97 (4), 557–625 JSTOR 2342192
^ ^A ^b Hinkelmann a Kempthorne (2008)^{[stránka potřebná ]}
^ Pokyny ASA pro první kurz statistiky pro nestatistiky. (k dispozici na webu ASA)
^ David A. Freedman a další Statistika.
^ Moore a kol. (2015).
^ Gelman A. et al. (2013). Bayesovská analýza dat (Chapman & Hall ).
^ Peirce (1877-1878)
^ Peirce (1883)
^ Freedman, Pisani & Purves 1978.
^ David A. Freedman Statistické modely.
^ Rao, C.R. (1997) Statistiky a pravda: šanci pracovat, World Scientific. ISBN 981-02-3111-3
^ Peirce; Freedman; Moore a kol. (2015).^{[Citace je zapotřebí ]}
^ Box, G.E.P. a přátelé (2006) Zlepšení téměř všeho: Nápady a eseje, revidované vydáníWiley. ISBN 978-0-471-72755-2
^ Cox (2006), s. 196.
^
Pokyny ASA pro první kurz statistiky pro nestatistiky. (k dispozici na webu ASA)
- David A. Freedman a další Statistika.
- Moore a kol. (2015).
^ Neyman, Jerzy. 1923 [1990]. „O aplikaci teorie pravděpodobnosti na zemědělské experimenty. Esej o zásadách. Oddíl 9.“ Statistická věda 5 (4): 465–472. Trans. Dorota M. Dabrowska a Terence P. Speed.
^ Hinkelmann & Kempthorne (2008)^{[stránka potřebná ]}
^ ^A ^b Dinov, Ivo; Palanimalai, Selvam; Khare, Ashwini; Christou, Nicolas (2018). „Statistická inference založená na randomizaci: infrastruktura převzorkování a simulace“. Statistika výuky. 40 (2): 64–73. doi:10.1111 / test.12156. PMC 6155997. PMID 30270947.
^ Hinkelmann a Kempthorne (2008), kapitola 6.
^ Tang, Ming; Gao, Chao; Goutman, Stephen; Kalinin, Alexandr; Mukherjee, Bhramar; Guan, Yuanfang; Dinov, Ivo (2019). „Techniky založené na modelech a bez modelu pro diagnostickou predikci amyotrofické laterální sklerózy a shlukování pacientů“. Neuroinformatika. 17 (3): 407–421. doi:10.1007 / s12021-018-9406-9. PMC 6527505. PMID 30460455.
^ Politis, D.N. (2019). „Odvození bez statistik ve statistice: jak a proč“. Bulletin IMS. 48.
^ Bandyopadhyay a Forster (2011). Citace je převzata z úvodu knihy (str.3). Viz také „Oddíl III: Čtyři paradigmata statistiky“.
^ Neyman, J. (1937). „Nástin teorie statistického odhadu na základě klasické teorie pravděpodobnosti“. Filozofické transakce Královské společnosti v Londýně A. 236 (767): 333–380. doi:10.1098 / rsta.1937.0005. JSTOR 91337.
^ Předmluva k Pfanzagl.
^ Malý, Roderick J. (2006). „Calibrated Bayes: A Bayes / Frequentist Roadmap“. Americký statistik. 60 (3): 213–223. doi:10.1198 / 000313006X117837. ISSN 0003-1305. JSTOR 27643780. S2CID 53505632.
^ Soofi (2000)
^ ^A ^b Hansen & Yu (2001)
^ ^A ^b Hansen a Yu (2001), strana 747.
^ ^A ^b Rissanen (1989), strana 84
^ Joseph F. Traub, G. W. Wasilkowski a H. Wozniakowski. (1988)^{[stránka potřebná ]}
^ Neyman (1956)
^ Zabell (1992)
^ Cox (2006), strana 66
^ Hampel 2003.
^ Davison, strana 12.^{[úplná citace nutná ]}
^ Barnard, G.A. (1995) „Pivotal Models and Fiducial Argument“, International Statistical Review, 63 (3), 309–323. JSTOR 1403482
^ Broemeling, Lyle D. (1. listopadu 2011). "Účet včasné statistické inference v arabské kryptologii". Americký statistik. 65 (4): 255–257. doi:10.1198 / tas.2011.10191. S2CID 123537702.

Zdroje

Bandyopadhyay, P. S .; Forster, M. R., eds. (2011), Filozofie statistiky, Elsevier.
Bickel, Peter J .; Doksum, Kjell A. (2001). Matematická statistika: Základní a vybraná témata. 1 (Druhé (aktualizovaný tisk 2007) ed.). Prentice Hall. ISBN 978-0-13-850363-5. PAN 0443141.
Cox, D. R. (2006). Principy statistické inference, Cambridge University Press. ISBN 0-521-68567-2.
Fisher, R. A. (1955), „Statistické metody a vědecká indukce“, Journal of the Royal Statistical Society, Řada B, 17, 69–78. (kritika statistických teorií Jerzy Neyman a Abraham Wald )
Freedman, D. A. (2009). Statistické modely: Teorie a praxe (přepracované vydání). Cambridge University Press. s. xiv + 442 s. ISBN 978-0-521-74385-3. PAN 2489600.
Freedman, D. A. (2010). Statistické modely a kauzální závěry: Dialog se sociálními vědami (Editoval David Collier, Jasjeet Sekhon a Philip B.Stark), Cambridge University Press.
Hampel, Frank (únor 2003). „Správný základní argument“ (PDF) (Výzkumná zpráva č. 114). Citováno 29. března 2016. Citovat deník vyžaduje | deník = (Pomoc)CS1 maint: ref = harv (odkaz)
Hansen, Mark H .; Yu, Bin (Červen 2001). „Výběr modelu a princip minimální délky popisu: recenzní práce“. Journal of the American Statistical Association. 96 (454): 746–774. CiteSeerX 10.1.1.43.6581. doi:10.1198/016214501753168398. JSTOR 2670311. PAN 1939352. S2CID 14460386. Archivovány od originál dne 16. 11. 2004.
Hinkelmann, Klaus; Kempthorne, Oscar (2008). Úvod do experimentálního designu (Druhé vydání.). Wiley. ISBN 978-0-471-72756-9.
Kolmogorov, Andrej N. (1963). Msgstr "Na tabulkách náhodných čísel". Sankhya Ser. A. 25: 369–375. PAN 0178484. Přetištěno jako Kolmogorov, Andrej N. (1998). Msgstr "Na tabulkách náhodných čísel". Teoretická informatika. 207 (2): 387–395. doi:10.1016 / S0304-3975 (98) 00075-9. PAN 1643414.
Konishi S., Kitagawa G. (2008), Informační kritéria a statistické modelováníSpringer.
Kruskal, William (Prosinec 1988). „Zázraky a statistiky: příležitostné převzetí nezávislosti (prezidentská adresa ASA)“. Journal of the American Statistical Association. 83 (404): 929–940. doi:10.2307/2290117. JSTOR 2290117.
Le Cam, Lucian. (1986) Asymptotické metody teorie statistického rozhodováníSpringer. ISBN 0-387-96307-3
Moore, D. S.; McCabe, G. P .; Craig, B. A. (2015), Úvod do praxe statistiky, Osmé vydání, Macmillan.
Neyman, Jerzy (1956). „Poznámka k článku sira Ronalda Fishera“. Journal of the Royal Statistical Society, Series B. 18 (2): 288–294. doi:10.1111 / j.2517-6161.1956.tb00236.x. JSTOR 2983716. (odpověď na Fishera 1955)
Peirce, C. S. (1877–1878), „Ilustrace logiky vědy“ (řada), Populární věda měsíčně, sv. 12–13. Příslušné jednotlivé práce:
- (1878 březen), „Nauka o šancích“, Populární věda měsíčně, v. 12, březnové číslo, s. 604 –615. Internetový archiv Eprint.
- (1878 dubna), „Pravděpodobnost indukce“, Populární věda měsíčně, v. 12, s. 705 –718. Internetový archiv Eprint.
- (1878 červen), „Řád přírody“, Populární věda měsíčně, v. 13, s. 203 –217.Internetový archiv Eprint.
- (1878 srpen), „Deduction, Induction, and Hypothesis“, Populární věda měsíčně, v. 13, s. 470 –482. Internetový archiv Eprint.
Peirce, C. S. (1883), „Teorie pravděpodobného závěru“, Studie v logice, str. 126-181, Little, Brown a Company. (Přetištěno 1983, Nakladatelská společnost John Benjamins, ISBN 90-272-3271-7)
Freedman, D.A.; Pisani, R .; Purves, R.A. (1978). Statistika. New York: W. W. Norton & Company.CS1 maint: ref = harv (odkaz)
Pfanzagl, Johann; s pomocí R. Hambökera (1994). Parametrická statistická teorie. Berlín: Walter de Gruyter. ISBN 978-3-11-013863-4. PAN 1291393.
Rissanen, Jorma (1989). Stochastická složitost ve statistickém šetření. Série v informatice. 15. Singapur: World Scientific. ISBN 978-9971-5-0859-3. PAN 1082556.
Soofi, Ehsan S. (prosinec 2000). „Hlavní informační-teoretické přístupy (Viněty pro rok 2000: Teorie a metody, ed. George Casella)“. Journal of the American Statistical Association. 95 (452): 1349–1353. doi:10.1080/01621459.2000.10474346. JSTOR 2669786. PAN 1825292. S2CID 120143121.
Traub, Joseph F.; Wasilkowski, G. W .; Wozniakowski, H. (1988). Informační složitost. Akademický tisk. ISBN 978-0-12-697545-1.
Zabell, S.L. (srpen 1992). „R. A. Fisher a základní argument“. Statistická věda. 7 (3): 369–387. doi:10.1214 / ss / 1177011233. JSTOR 2246073.

Další čtení

Casella, G., Berger, R. L. (2002). Statistická inference. Duxbury Press. ISBN 0-534-24312-6
Freedman, D.A. (1991). "Statistické modely a kůže na boty". Sociologická metodologie. 21: 291–313. doi:10.2307/270939. JSTOR 270939.
Held L., Bové D.S. (2014). Aplikovaná statistická inference - pravděpodobnost a Bayes (Springer).
Lenhard, Johannes (2006). „Modely a statistická inference: kontroverze mezi Fisherem a Neymanem-Pearsonem“ (PDF). British Journal for the Philosophy of Science. 57: 69–91. doi:10.1093 / bjps / axi152.
Lindley, D (1958). "Fiducial distribuce a Bayesova věta". Journal of the Royal Statistical Society, Series B. 20: 102–7.
Rahlf, Thomas (2014). „Statistická inference“, Claude Diebolt a Michael Haupert (eds.), „Handbook of Cliometrics (Springer Reference Series)“, Berlín / Heidelberg: Springer. http://www.springerreference.com/docs/html/chapterdbid/372458.html
Reid, N .; Cox, D. R. (2014). „K některým zásadám statistické inference“. Mezinárodní statistický přehled. 83 (2): 293–308. doi:10.1111 / insr.12067. hdl:10.1111 / insr.12067.
Young, G.A., Smith, R.L. (2005). Základy statistické inferenceCUP. ISBN 0-521-83971-8

externí odkazy

MIT OpenCourseWare: Statistická inference
Statistická inference NPTEL, odkaz na youtube
Statistická indukce a predikce

[6] Podle Peirce přijetí znamená, že dotaz na tuto otázku prozatím končí. Ve vědě jsou všechny vědecké teorie revidovatelné.

[Oxford-1] Upton, G., Cook, I. (2008) Oxfordský statistický slovník, OUP. ISBN 978-0-19-954145-4.

[2] „TensorFlow Lite inference“. Termín odvození označuje proces provádění modelu TensorFlow Lite na zařízení za účelem předpovědi na základě vstupních dat.

[3] Konishi a Kitagawa (2008), s. 75.

[4] Cox (2006), s. 197.

[5] „Statistická inference - encyklopedie matematiky“. www.encyclopediaofmath.org. Citováno 2019-01-23.

[Cox2006-7] A ^b Cox (2006) strana 2

[8] Evans, Michael; et al. (2004). Pravděpodobnost a statistika: Věda nejistoty. Freeman a společnost. p. 267. ISBN 9780716747420.

[9] van der Vaart, A.W. (1998) Asymptotické statistiky Cambridge University Press. ISBN 0-521-78450-6 (strana 341)

[10] Kruskal 1988

[11] Freedman, D.A. (2008) „Analýza přežití: Epidemiologické riziko?“. Americký statistik (2008) 62: 110-119. (Přetištěno jako Kapitola 11 (strany 169–192) Freedmana (2010)).

[12] Berk, R. (2003) Regresní analýza: Konstruktivní kritika (Pokročilé kvantitativní techniky v sociálních vědách) (v. 11) Sage publikace. ISBN 0-7619-2904-5

[Brewer-13] A ^b Brewer, Ken (2002). Odvození vzorků z kombinovaného průzkumu: Vážení slonů Basu. Hodder Arnold. p. 6. ISBN 978-0340692295.

[JHJ-14] A ^b Jörgen Hoffman-Jörgensen Pravděpodobnost s výhledem na statistiku, Svazek I. Strana 399^{[úplná citace nutná ]}

[15] Le Cam (1986)^{[stránka potřebná ]}

[16] Erik Torgerson (1991) Srovnání statistických experimentů, svazek 36 encyklopedie matematiky. Cambridge University Press.^{[úplná citace nutná ]}

[17] Liese, Friedrich & Miescke, Klaus-J. (2008). Teorie statistického rozhodování: Odhad, testování a výběr. Springer. ISBN 978-0-387-73193-3.

[18] Kolmogorov (1963, s. 369): „Koncept frekvence, založený na pojmu omezení frekvence, jak se počet pokusů zvyšuje do nekonečna, nepřispívá ničím k doložení použitelnosti výsledků teorie pravděpodobnosti na skutečné praktické problémy, kde musí vždy řešit konečný počet pokusů “.

[19] „Opravdu, věty omezte na ${displaystyle n}$ inklinuje k nekonečnu ', logicky postrádají obsah o tom, co se v konkrétním případě stane ${displaystyle n}$ . Jediné, co mohou udělat, je navrhnout určité přístupy, jejichž výkon musí být poté zkontrolován v daném případě. “- Le Cam (1986) (strana xiv)

[20] Pfanzagl (1994): „Zásadní nevýhodou asymptotické teorie: To, co od asymptotické teorie očekáváme, jsou výsledky, které mají přibližně… To, co asymptotická teorie nabízí, jsou limitní věty.“ (Strana ix) „Pro aplikace jsou důležité aproximace , ne limity. “ (strana 188)

[21] Pfanzagl (1994): „Tím, že vezmeme větu o limitu jako přibližně pravdivou pro velké velikosti vzorků, dopustíme se chyby, jejíž velikost není známa. [...] Realistické informace o zbývajících chybách lze získat simulacemi.“ (stránka ix)

[22] Neyman, J. (1934) „O dvou různých aspektech reprezentativní metody: metodě stratifikovaného vzorkování a metodě účelového výběru“, Journal of the Royal Statistical Society, 97 (4), 557–625 JSTOR 2342192

[Hinkelmann_and_Kempthorne-23] A ^b Hinkelmann a Kempthorne (2008)^{[stránka potřebná ]}

[24] Pokyny ASA pro první kurz statistiky pro nestatistiky. (k dispozici na webu ASA)

[25] David A. Freedman a další Statistika.

[26] Moore a kol. (2015).

[27] Gelman A. et al. (2013). Bayesovská analýza dat (Chapman & Hall ).

[28] Peirce (1877-1878)

[29] Peirce (1883)

[FOOTNOTEFreedmanPisaniPurves1978-30] Freedman, Pisani & Purves 1978.

[31] David A. Freedman Statistické modely.

[32] Rao, C.R. (1997) Statistiky a pravda: šanci pracovat, World Scientific. ISBN 981-02-3111-3

[33] Peirce; Freedman; Moore a kol. (2015).^{[Citace je zapotřebí ]}

[34] Box, G.E.P. a přátelé (2006) Zlepšení téměř všeho: Nápady a eseje, revidované vydáníWiley. ISBN 978-0-471-72755-2

[35] Cox (2006), s. 196.

[36] Pokyny ASA pro první kurz statistiky pro nestatistiky. (k dispozici na webu ASA)
David A. Freedman a další Statistika.
Moore a kol. (2015).

[37] David A. Freedman a další Statistika.

[38] Moore a kol. (2015).

[37] Neyman, Jerzy. 1923 [1990]. „O aplikaci teorie pravděpodobnosti na zemědělské experimenty. Esej o zásadách. Oddíl 9.“ Statistická věda 5 (4): 465–472. Trans. Dorota M. Dabrowska a Terence P. Speed.

[38] Hinkelmann & Kempthorne (2008)^{[stránka potřebná ]}

[Dinov_Palanimalai_Khare_Christou_2018-39] A ^b Dinov, Ivo; Palanimalai, Selvam; Khare, Ashwini; Christou, Nicolas (2018). „Statistická inference založená na randomizaci: infrastruktura převzorkování a simulace“. Statistika výuky. 40 (2): 64–73. doi:10.1111 / test.12156. PMC 6155997. PMID 30270947.

[40] Hinkelmann a Kempthorne (2008), kapitola 6.

[Tang_model-based_Model-Free_2019-41] Tang, Ming; Gao, Chao; Goutman, Stephen; Kalinin, Alexandr; Mukherjee, Bhramar; Guan, Yuanfang; Dinov, Ivo (2019). „Techniky založené na modelech a bez modelu pro diagnostickou predikci amyotrofické laterální sklerózy a shlukování pacientů“. Neuroinformatika. 17 (3): 407–421. doi:10.1007 / s12021-018-9406-9. PMC 6527505. PMID 30460455.

[Politis_Model-Free_Inference_2019-42] Politis, D.N. (2019). „Odvození bez statistik ve statistice: jak a proč“. Bulletin IMS. 48.

[43] Bandyopadhyay a Forster (2011). Citace je převzata z úvodu knihy (str.3). Viz také „Oddíl III: Čtyři paradigmata statistiky“.

[44] Neyman, J. (1937). „Nástin teorie statistického odhadu na základě klasické teorie pravděpodobnosti“. Filozofické transakce Královské společnosti v Londýně A. 236 (767): 333–380. doi:10.1098 / rsta.1937.0005. JSTOR 91337.

[45] Předmluva k Pfanzagl.

[46] Malý, Roderick J. (2006). „Calibrated Bayes: A Bayes / Frequentist Roadmap“. Americký statistik. 60 (3): 213–223. doi:10.1198 / 000313006X117837. ISSN 0003-1305. JSTOR 27643780. S2CID 53505632.

[Soofi_2000_1349–1353-47] Soofi (2000)

[HY-48] A ^b Hansen & Yu (2001)

[HY747-49] A ^b Hansen a Yu (2001), strana 747.

[JR-50] A ^b Rissanen (1989), strana 84

[51] Joseph F. Traub, G. W. Wasilkowski a H. Wozniakowski. (1988)^{[stránka potřebná ]}

[52] Neyman (1956)

[53] Zabell (1992)

[54] Cox (2006), strana 66

[FOOTNOTEHampel2003-55] Hampel 2003.

[56] Davison, strana 12.^{[úplná citace nutná ]}

[57] Barnard, G.A. (1995) „Pivotal Models and Fiducial Argument“, International Statistical Review, 63 (3), 309–323. JSTOR 1403482

[LB-58] Broemeling, Lyle D. (1. listopadu 2011). "Účet včasné statistické inference v arabské kryptologii". Americký statistik. 65 (4): 255–257. doi:10.1198 / tas.2011.10191. S2CID 123537702.

[1]

[2]

[3]

[4]

[5]

[poznámka 1]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]