Kritérium chauvenets - Chauvenets criterion - Wikipedia
![]() | tento článek potřebuje další citace pro ověření.červenec 2013) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Ve statistické teorii Chauvenetovo kritérium (pojmenováno pro William Chauvenet[1]) je prostředkem k posouzení, zda jedna experimentální data - an odlehlý - ze souboru pozorování bude pravděpodobně falešný.[Citace je zapotřebí ]
Derivace
Myšlenkou Chauvenetova kritéria je najít pásmo pravděpodobnosti soustředěné na průměr a normální distribuce, který by měl rozumně obsahovat všech n vzorků datové sady. Tímto způsobem lze všechny datové body z n vzorků, které leží mimo toto pásmo pravděpodobnosti, považovat za odlehlé hodnoty, odebrané ze sady dat a lze vypočítat nový průměr a směrodatnou odchylku na základě zbývajících hodnot a nové velikosti vzorku. Tato identifikace odlehlých hodnot bude dosažena zjištěním počtu směrodatných odchylek, které odpovídají hranicím pásma pravděpodobnosti kolem průměru () a porovnání této hodnoty s absolutní hodnotou rozdílu mezi podezřelými odlehlými hodnotami a průměrem děleným směrodatnou odchylkou vzorku (rovnice 1).
(1)
kde
- je maximální povolená odchylka,
- je absolutní hodnota,
- je hodnota podezření na odlehlou hodnotu,
- je průměr vzorku a
- je standardní směrodatná odchylka.
Aby bylo možné považovat za zahrnující všechny pozorování ve vzorku, pásmo pravděpodobnosti (vycentrované na průměr) musí pouze zohledňovat vzorky (pokud pak musí být v pravděpodobnostním pásmu započítáno pouze 2,5 vzorků). Ve skutečnosti nemůžeme mít dílčí vzorky (2,5 pro ) je přibližně . Cokoli méně než je přibližně (2 pokud ) a není platný, protože chceme najít pravděpodobnostní pásmo, které obsahuje pozorování, ne Vzorky. Stručně řečeno, hledáme pravděpodobnost, , to se rovná mimo vzorky (rovnice 2).
(2)
kde
- je pásmo pravděpodobnosti soustředěné na průměr vzorku a
- je velikost vzorku.
Množství odpovídá kombinované pravděpodobnosti představované dvěma konci normálního rozdělení, které spadají mimo pásmo pravděpodobnosti . Za účelem zjištění úrovně standardní odchylky spojené s , je třeba analyzovat pouze pravděpodobnost jednoho z konců normálního rozdělení kvůli jeho symetrii (rovnice 3).
(3)
kde
- je pravděpodobnost představovaná jedním ocasem normálního rozdělení a
- = velikost vzorku.
Rovnice 1 je analogická k -skóre rovnice (rovnice 4).
(4)
kde
- je -skóre,
- je hodnota vzorku,
- je průměr standardního normálního rozdělení a
- je směrodatná odchylka standardního normálního rozdělení.
Na základě rovnice 4 vyhledejte (Rovnice 1) najděte odpovídající z-skóre v -skóre tabulka. se rovná skóre pro . Pomocí této metody lze určit pro jakoukoli velikost vzorku. V aplikaci Excel lze najít pomocí následujícího vzorce: = ABS (NORM.S.INV (1 / (4n))).
Výpočet
Chcete-li použít Chauvenetovo kritérium, nejprve vypočítejte znamenat a standardní odchylka ze sledovaných údajů. Na základě toho, jak moc se podezřelý údaj liší od průměru, použijte normální distribuce funkce (nebo její tabulka) k určení pravděpodobnost že daný datový bod bude na hodnotě podezřelého datového bodu. Vynásobte tuto pravděpodobnost počtem získaných datových bodů. Pokud je výsledek menší než 0,5, může být podezřelý datový bod vyřazen, tj. Čtení může být odmítnuto, pokud je pravděpodobnost získání konkrétní odchylky od průměru menší než .[Citace je zapotřebí ]
Příklad
Předpokládejme například, že hodnota je experimentálně měřena v několika pokusech jako 9, 10, 10, 10, 11 a 50. Průměr je 16,7 a směrodatná odchylka 16,34. 50 se liší od 16,7 o 33,3, což je o něco více než dvě standardní odchylky. Pravděpodobnost získání dat více než dvou standardních odchylek od průměru je zhruba 0,05. Bylo provedeno šest měření, takže statistická hodnota (velikost dat vynásobená pravděpodobností) je 0,05 × 6 = 0,3. Protože 0,3 <0,5, podle Chauvenetova kritéria by naměřená hodnota 50 měla být vyřazena (ponechat nový průměr 10, se standardní odchylkou 0,7).[Citace je zapotřebí ]
Peirceovo kritérium
Další metoda pro eliminaci falešných dat se nazývá Peirceovo kritérium. Byl vyvinut několik let před zveřejněním Chauvenetova kritéria a jedná se o přísnější přístup k racionálnímu mazání odlehlých údajů.[2] Jiné metody jako např Grubbsův test pro odlehlé hodnoty jsou uvedeny v seznamu pro Odlehlá.[Citace je zapotřebí ]
Kritika
Vymazání odlehlých údajů je kontroverzní praxí, na kterou se mnozí vědci a instruktoři vědy dívají; zatímco Chauvenetovo kritérium poskytuje objektivní a kvantitativní metodu pro odmítnutí dat, nedělá praxi vědecky nebo metodologicky spolehlivější, zejména v malých souborech nebo tam, kde normální distribuce nelze předpokládat. Odmítnutí odlehlých hodnot je přijatelnější v oblastech praxe, kde jsou spolehlivě známy základní model měřeného procesu a obvyklé rozdělení chyby měření.
Reference
- ^ Chauvenet, William. Manuál sférické a praktické astronomie V. II. 1863. Dotisk z roku 1891. 5. vydání. Dover, NY: 1960. str. 474–566.
- ^ Ross, PhD, Stephen (2003). Článek University of New Haven. J. Engr. Technologie, podzim 2003. Citováno z http://newton.newhaven.edu/sross/piercescriterion.pdf[trvalý mrtvý odkaz ].
Bibliografie
- Taylor, John R. Úvod do analýzy chyb. 2. vydání. Sausalito, Kalifornie: University Science Books, 1997. str. 166–8.
- Barnett, Vic a Lewis, Toby. "Odlehlé hodnoty ve statistických datech". 3. vydání. Chichester: J. Wiley and Sons, 1994. ISBN 0-471-93094-6.
- Aicha Zerbet, Michail Nikulin. Nová statistika pro zjišťování odlehlých hodnot v exponenciálním případě, Communications in Statistics: Theory and Methods, 2003, v.32, str. 573–584.