Kontrola, zda je mince spravedlivá - Checking whether a coin is fair

v statistika, otázka kontrola, zda je mince spravedlivá je ten, jehož význam spočívá v zaprvé v poskytnutí jednoduchého problému, na kterém lze ilustrovat základní myšlenky statistická inference a za druhé, v poskytnutí jednoduchého problému, který lze použít k porovnání různých konkurenčních metod statistické inference, včetně teorie rozhodování. Praktický problém kontroly, zda je mince spravedlivá, lze považovat za snadno vyřešený provedením dostatečně velkého počtu pokusů, ale statistik a teorie pravděpodobnosti může poskytnout vodítko ke dvěma typům otázek; konkrétně ty, kolik pokusů je třeba provést, a přesnosti odhad pravděpodobnosti otočení hlavy odvozený z daného vzorku pokusů.

A spravedlivá mince je idealizovaný randomizační zařízení se dvěma státy (obvykle pojmenovanými „hlavy“ a „ocasy“ ), u nichž je stejná pravděpodobnost výskytu. Je založen na flip na mince široce se používá ve sportu a jiných situacích, kdy je nutné dát dvěma stranám stejnou šanci na výhru. Buď speciálně navržený čip nebo častěji jednoduchá měna mince je použito, i když to druhé může být mírně „nespravedlivé“ kvůli asymetrickému rozložení hmotnosti, což může způsobit, že se jeden stát bude vyskytovat častěji než druhý, což jedné straně poskytne nespravedlivou výhodu.[1] Možná bude tedy nutné experimentálně otestovat, zda je mince ve skutečnosti „spravedlivá“ - to znamená, zda je pravděpodobnost pádu mince na jednu stranu, když je hodena, přesně 50%. Je samozřejmě nemožné vyloučit svévolně malé odchylky od spravedlnosti, u nichž lze očekávat, že ovlivní pouze jedno převrácení za celou dobu převrácení; také je vždy možné za nefér (nebo „předpojatý ") mince, která se objeví přesně 10 hlav za 20 otočení. Proto jakýkoli test spravedlnosti musí zajistit pouze určitou míru důvěry v určitý stupeň spravedlnosti (určité maximální zkreslení). Podle přísnější terminologie je problém stanovení parametrů a Bernoulliho proces, vzhledem k pouze omezenému vzorku Bernoulliho zkoušky.

Preambule

Tento článek popisuje experimentální postupy pro určení, zda je mince spravedlivá nebo nespravedlivá. Existuje mnoho statistických metod pro analýzu takového experimentálního postupu. Tento článek ilustruje dva z nich.

Obě metody předepisují experiment (nebo pokus), při kterém se mince hodí mnohokrát a zaznamená se výsledek každého losování. Výsledky lze poté statisticky analyzovat a rozhodnout, zda je mince „spravedlivá“ nebo „pravděpodobně nespravedlivá“.

  • Funkce zadní hustoty pravděpodobnostinebo PDF (Bayesovský přístup ). Skutečná pravděpodobnost získání určité strany při hodu mincí zpočátku není známa, ale nejistotu představuje „předchozí distribuce ". Teorie Bayesovský závěr se používá k odvození zadní distribuce kombinací předchozí distribuce a funkce pravděpodobnosti což představuje informace získané z experimentu. Pravděpodobnost, že tato konkrétní mince je „spravedlivou mincí“, lze poté dosáhnout integrací souboru PDF zadní distribuce během příslušného intervalu, který představuje všechny pravděpodobnosti, které lze v praktickém smyslu počítat jako „spravedlivé“.
  • Odhad skutečné pravděpodobnosti (Častý přístup ). Tato metoda předpokládá, že experimentátor se může rozhodnout hodit minci kolikrát. Experimentátor nejprve rozhodne o požadované úrovni spolehlivosti a přípustném rozsahu chyby. Tyto parametry určují minimální počet losování, které je nutné provést k dokončení experimentu.

Důležitým rozdílem mezi těmito dvěma přístupy je, že první přístup dává určitou váhu předchozím zkušenostem s házením mincí, zatímco druhý ne. Otázka, jakou váhu přikládat předchozí zkušenosti, v závislosti na kvalitě (důvěryhodnosti) této zkušenosti, je diskutována níže teorie důvěryhodnosti.

Funkce zadní hustoty pravděpodobnosti

Jednou z metod je výpočet zadní funkce hustoty pravděpodobnosti z Bayesovská teorie pravděpodobnosti.

Test se provádí hodem mince N časy a všímat si pozorovaných počtů hlav, ha ocasy, t. Symboly H a T představují obecnější proměnné vyjadřující počet hlav a ocasů mohl byly v experimentu pozorovány. Tím pádem N = H+T = h+t.

Dále nechte r skutečná pravděpodobnost získání hlav v jednom losování mince. Toto je vlastnost mince, která je vyšetřována. Použitím Bayesova věta, hustota zadní pravděpodobnosti r podmíněno h a t je vyjádřena takto:

kde G(r) představuje předchozí rozdělení hustoty pravděpodobnosti r, který leží v rozsahu 0 až 1.

Předchozí rozdělení hustoty pravděpodobnosti shrnuje to, co je známo o rozdělení r při absenci pozorování. Budeme předpokládat, že předchozí distribuce z r je jednotný v intervalu [0, 1]. To znamená, G(r) = 1. (V praxi by bylo vhodnější předpokládat předchozí distribuci, která je mnohem silnější v oblasti kolem 0,5, aby odrážela naše zkušenosti se skutečnými mincemi.)

Pravděpodobnost získání h míří dovnitř N losování mince s pravděpodobností hlav rovných r je dán binomická distribuce:

Dosazením do předchozího vzorce:

Toto je ve skutečnosti a beta distribuce (dále jen před konjugátem pro binomické rozdělení), jehož jmenovatel lze vyjádřit pomocí funkce beta:

Jako jednotná byla předpokládána předchozí distribuce, a protože h a t jsou celá čísla, lze to napsat také z hlediska faktoriály:

Příklad

Například nechte N = 10, h = 7, tj. Mince je hodena 10krát a získá se 7 hlav:

Graf vpravo ukazuje funkce hustoty pravděpodobnosti z r vzhledem k tomu, že bylo získáno 7 hlav v 10 losováních. (Poznámka: r je pravděpodobnost získání hlav, když jednou hodíte stejnou minci.)

Graf hustoty pravděpodobnosti F(r | H = 7,T = 3) = 1320 r7 (1 - r)3 s r v rozmezí od 0 do 1.

Pravděpodobnost neobjektivní mince (pro tento účel definována jako pravděpodobnost, že sestoupí z hlavy někde mezi 45% a 55%)

je ve srovnání s alternativní hypotézou (zkreslená mince) malá. Není to však dost malé na to, abychom věřili, že mince má výrazné zkreslení. Tato pravděpodobnost je mírně vyšší než náš předpoklad pravděpodobnosti, že by mince byla spravedlivá, což odpovídá jednotné předchozí distribuci, která byla 10%. Při použití předchozí distribuce, která odráží naše předchozí znalosti o tom, co je mince a jak funguje, by zadní distribuce hypotézu neprospívala zaujatosti. Počet pokusů v tomto příkladu (10 losování) je však velmi malý a při více pokusech by byl výběr předchozí distribuce poněkud méně relevantní.)

S uniformou před, zadní rozdělení pravděpodobnosti F(r | H = 7,T = 3) dosahuje svého vrcholu při r = h / (h + t) = 0,7; tato hodnota se nazývá maximum a posteriori (MAP) odhad z r. Také s uniformou před očekávaná hodnota z r pod zadní distribucí je


Odhad skutečné pravděpodobnosti

Nejlepší odhad skutečné hodnoty je odhadcem .

Tento odhad má rozpětí chyby (E) kde na určité úrovni spolehlivosti.

Pomocí tohoto přístupu k rozhodnutí, kolikrát má být hodena mince, jsou vyžadovány dva parametry:

  1. Úroveň spolehlivosti, kterou označuje interval spolehlivosti (Z)
  2. Maximální (přijatelná) chyba (E)
  • Úroveň spolehlivosti je označena Z a je dána hodnotou Z standardu normální distribuce. Tuto hodnotu lze odečíst a standardní skóre statistická tabulka pro normální rozdělení. Některé příklady jsou:
Hodnota Z.Úroveň důvěryKomentář
0.6745dává 50.000% úrovně spolehlivostiPolovina
1.0000dává 68.269% úrovně spolehlivostiJeden standardní dev
1.6449dává 90.000% úrovně spolehlivosti"Jedna devět"
1.9599dává 95.000% úrovně spolehlivosti95 procent
2.0000dává 95.450% úrovně spolehlivostiDva standardní dev
2.5759dává 99.000% úrovně spolehlivosti"Dvě devítky"
3.0000dává 99.730% úrovně spolehlivostiTři std dev
3.2905dává 99.900% úrovně spolehlivosti"Tři devítky"
3.8906dává 99.990% úrovně spolehlivosti"Čtyři devítky"
4.0000dává 99.993% úrovně spolehlivostiČtyři standardní dev
4.4172dává 99.999% úrovně spolehlivosti"Pět devět"
  • Maximální chyba (E) je definována kde je odhadovaná pravděpodobnost získávání hlav. Poznámka: je stejná skutečná pravděpodobnost (získání hlav) jako předchozí části tohoto článku.
  • Ve statistikách odhad podílu vzorku (označený str) má standardní chyba dána:

kde n je počet pokusů (který označil N v předchozí části).

Tato standardní chyba funkce str má maximum na . Dále je pravděpodobné, že v případě hodu mincí str nebude daleko od 0,5, takže je rozumné vzít str= 0,5 v následujícím:

A proto je hodnota maximální chyby (E) dána vztahem

Řešení požadovaného počtu losování mincí, n,

Příklady

1. Je-li požadována maximální chyba 0,01, kolikrát by měla být mince hodena?

na 68,27% úrovni spolehlivosti (Z = 1)
na 95,45% úrovni spolehlivosti (Z = 2)
na 99,90% úrovni spolehlivosti (Z = 3,3)

2. Pokud je mince hodena 10 000krát, jaká je maximální chyba odhadce na hodnotě (skutečná pravděpodobnost získání hlav při hodu mincí)?

na 68,27% úrovni spolehlivosti (Z = 1)
na 95,45% úrovni spolehlivosti (Z = 2)
na 99,90% úrovni spolehlivosti (Z = 3,3)

3. Mince je hodena 12 000krát s výsledkem 5961 hlav (a 6039 ocasů). Jaký interval má hodnotu (skutečná pravděpodobnost získání hlav) leží uvnitř, pokud je požadována úroveň spolehlivosti 99,999%?

Nyní najděte hodnotu Z odpovídající 99,999% úrovni spolehlivosti.

Nyní vypočítat E

Interval, který obsahuje r, je tedy:

Proto by 99,999% času obsahoval výše uvedený interval což je skutečná hodnota získání hlav v jednom losování.

Další přístupy

Další přístupy k otázce kontroly, zda je mince spravedlivá, jsou k dispozici pomocí teorie rozhodování, jehož aplikace by vyžadovala formulaci a funkce ztráty nebo užitková funkce který popisuje důsledky rozhodnutí. Přístup, který se vyhne vyžadování buď ztrátové funkce, nebo předchozí pravděpodobnosti (jako v Bayesovském přístupu), je přístup „vzorkování přijetí“.[2]

Další aplikace

Výše uvedená matematická analýza pro určení, zda je mince spravedlivá, lze použít i pro jiná použití. Například:

  • Stanovení podílu vadných položek u produktu podrobeného konkrétnímu (ale dobře definovanému) stavu. Někdy může být výroba produktu velmi obtížná nebo nákladná. Pokud navíc testování takových produktů povede k jejich zničení, měl by být testován minimální počet položek. Pomocí podobné analýzy lze nalézt funkci hustoty pravděpodobnosti míry vad produktu.
  • Hlasování dvou stran. Pokud se vezme malý náhodný výběr vzorku, kde existují pouze dvě vzájemně se vylučující možnosti, pak je to podobné, jako když hodíte jednu minci vícekrát pomocí případně předpojaté mince. Podobnou analýzu lze proto použít k určení důvěry, kterou lze připsat skutečnému poměru odevzdaných hlasů. (Pokud je to lidem dovoleno zdržet se pak to musí analýza vzít v úvahu a analogie převrácení mince zcela neplatí.)
  • Stanovení poměru pohlaví u velké skupiny živočišných druhů. Za předpokladu, že při náhodném výběru populace bude odebrán malý náhodný vzorek (tj. Malý ve srovnání s celkovou populací), je analýza podobná stanovení pravděpodobnosti získání hlav při losování mincí.

Viz také

Reference

  1. ^ Pokud je však mince spíše chytena, než aby se mohla odrazit nebo otočit, je obtížné ovlivnit výsledek otočení mince. Vidět Gelman, Andrew; Deborah Nolan (2002). „Učitelský koutek: Můžete si načíst kostku, ale nemůžete zkreslit minci“. Americký statistik. 56 (4): 308–311. doi:10.1198/000313002605.
  2. ^ Cox, D.R., Hinkley, D.V. (1974) Teoretická statistika (Příklad 11.7), Chapman & Hall. ISBN  0-412-12420-3
  • Guttman, Wilks a Hunter: Úvodní inženýrská statistika, John Wiley & Sons, Inc. (1971) ISBN  0-471-33770-6
  • Devinder Sivia: Analýza dat, Bayesian Tutorial, Oxford University Press (1996) ISBN  0-19-851889-7