Odhad poměru - Ratio estimator

The odhad poměru je statistický parametr a je definován jako poměr z prostředek dvou náhodných proměnných. Odhady poměru jsou předpojatý a je nutné provést opravy, jsou-li použity při experimentálních nebo průzkumných pracích. Odhady poměru jsou asymetrické a symetrické testy, jako je t test by neměly být použity ke generování intervalů spolehlivosti.

Předpětí je řádu Ó(1/n) (viz velká O notace ) tak jako velikost vzorku (n) se zvýší, zkreslení se asymptoticky přiblíží 0. Proto je odhad pro velké velikosti vzorků přibližně nestranný.

Definice

Předpokládejme, že existují dvě vlastnosti - X a y - které lze pozorovat pro každý prvek vzorku v datové sadě. Poměr R je

Poměrný odhad hodnoty hodnoty y obměňovat (θy) je

kde θX je odpovídající hodnota X obměňovat. θy je známo, že je asymptoticky normálně distribuován.[1]

Statistické vlastnosti

Poměr vzorku (r) se odhaduje ze vzorku

To, že je poměr zkreslený, lze ukázat pomocí Jensenova nerovnost takto (za předpokladu nezávislosti mezi x a y):

Při jednoduchém náhodném výběru je předpětí řádu Ó( n−1 ). Horní mez relativního zkreslení odhadu poskytuje variační koeficient (poměr standardní odchylka do znamenat ).[2] Při jednoduchém náhodném výběru je relativní zkreslení Ó( n−1/2 ).

Oprava zkreslení střední hodnoty

Metody korekce v závislosti na distribuci X a y se liší, liší se ve své účinnosti, takže je obtížné doporučit celkově nejlepší metodu. Protože odhady r jsou zkreslené, měla by se ve všech následujících výpočtech použít opravená verze.

Oprava odchylky s přesností na první objednávku je[Citace je zapotřebí ]

kde mX je průměr variátu X a sab je kovariance mezi A a b.

Pro zjednodušení zápisu sab budou následně použity k označení kovariance mezi variacemi A a b.

Další odhad na základě Taylorova expanze je

kde n je velikost vzorku, N je velikost populace, mX je průměr variátu X, sX2 a sy2 jsou vzorky odchylky z X a y se liší respektive a ρ je ukázková korelace mezi X a y se liší.

Výpočtově jednodušší, ale o něco méně přesná verze tohoto odhadu je

kde N je velikost populace, n je velikost vzorku, mX je průměr z X obměňovat, sX2 a sy2 jsou vzorky odchylky z X a y se liší respektive a ρ je ukázková korelace mezi X a y se liší. Tyto verze se liší pouze faktorem ve jmenovateli ( N - 1). Pro velké N rozdíl je zanedbatelný.

Oprava druhého řádu je[3]

Byly rovněž navrženy další metody korekce zkreslení. Pro zjednodušení zápisu budou použity následující proměnné

Pascualův odhad:[4]

Bealeův odhad:[5]

Odhad plechovky:[6]

Sahoův odhad:[7]

Sahoo také navrhl řadu dalších odhadů:[8]

Li mX a my jsou obě větší než 10, pak je následující aproximace správná k pořadí O ( n−3 ).[3]

Asymptoticky správný odhad je[9]

Odhad jackknife

A odhad kapesního nože poměru je méně zaujatý než naivní forma. Odhad poměru kapesního nože je

kde n je velikost vzorku a ri se odhadují s vynecháním jednoho páru variací najednou.[10]

Alternativní metodou je rozdělení vzorku na G skupiny každé velikosti p s n = str.[11] Nechat ri být odhadem ith skupina. Pak odhadce

má zkreslení maximálně Ó( n−2 ).

Další odhady založené na rozdělení vzorku na G skupiny jsou:[12]

kde je průměr poměrů rG z G skupiny a

kde ri' je hodnota vzorkovacího poměru s ith skupina vynechána.

Další metody odhadu

Mezi další metody odhadu odhadce poměru patří maximální pravděpodobnost a bootstrapping.[10]

Odhad celkem

Odhadovaný součet y obměňovat ( τy ) je

kde ( τX ) je součet X obměňovat.

Odhady odchylek

Rozptyl vzorkovacího poměru je přibližně:

kde sX2 a sy2 jsou odchylky X a y se liší, mX a my jsou prostředky X a y se liší respektive a sab je kovariancí A a b.

Přestože je odhad přibližného rozptylu níže uvedeného poměru zkreslený, je-li velikost vzorku velká, je zkreslení v tomto odhadu zanedbatelné.

kde N je velikost populace, n je velikost vzorku a mX je průměr z X obměňovat.

Další odhad rozptylu založený na Taylorova expanze je

kde n je velikost vzorku, N je velikost populace a ρ je korelační koeficient mezi X a y se liší.

Odhad přesný na O ( n−2 ) je[9]

Pokud je rozdělení pravděpodobnosti Poissonian, odhadce s přesností na O ( n−3 ) je[3]

Odhad rozptylu kudla je

kde ri je poměr s ith pár variant vynechán a rJ je odhad kapesního nože poměru.[10]

Rozptyl úhrnu

Rozptyl odhadovaného součtu je

Rozptyl průměru

Rozptyl odhadované střední hodnoty y variace je

kde mX je průměr z X obměňovat, sX2 a sy2 jsou ukázkové odchylky X a y se liší respektive a ρ je ukázková korelace mezi X a y se liší.

Šikmost

The šikmost a špičatost poměru závisí na distribucích X a y se liší. Pro tyto parametry byly provedeny odhady normálně distribuováno X a y variuje, ale pro jiné distribuce dosud nebyly odvozeny žádné výrazy. Bylo zjištěno, že obecně jsou proměnné poměru zkosené doprava, jsou leptokurtic a jejich nenormálnost se zvyšuje, když je velikost jmenovatele variační koeficient se zvyšuje.

Pro normálně distribuované X a y kolísání šikmosti poměru je přibližně[6]

kde

Vliv na intervaly spolehlivosti

Protože odhad poměru je obecně zkreslený intervaly spolehlivosti vytvořené s rozptylem a symetrické testy, jako je t test, jsou nesprávné.[10] Tyto intervaly spolehlivosti mají tendenci nadhodnocovat velikost levého intervalu spolehlivosti a podceňovat velikost pravého.

Pokud je odhad poměru unimodální (což se často stává), pak lze provést konzervativní odhad 95% intervalů spolehlivosti s Vysochanskiï – Petuninová nerovnost.

Alternativní metody redukce předpětí

Alternativní metodou redukce nebo eliminace předpětí v odhadovém poměru je změna metody vzorkování. Rozptyl poměru pomocí těchto metod se liší od odhadů uvedených dříve. Všimněte si, že zatímco mnoho aplikací, jako jsou ty, které jsou diskutovány v Lohr[13] mají být omezeny na pozitivní celá čísla pouze, jako jsou velikosti skupin vzorků, funguje metoda Midzuno-Sen pro libovolnou posloupnost kladných čísel, integrálních nebo ne. Není jasné, co to znamená Lahiriho metodu funguje protože vrátí zkreslený výsledek.

Lahiriho metoda

První z těchto schémat odběru vzorků je dvojí použití metody odběru vzorků zavedené Lahiri v roce 1951.[14] Algoritmus zde vychází z popisu od Lohra.[13]

  1. Vyberte číslo M = max ( X1, ..., XN) kde N je velikost populace.
  2. Vybrat i náhodně z a rovnoměrné rozdělení dne [1,N].
  3. Vybrat k náhodně z a rovnoměrné rozdělení dne [1,M].
  4. Li kXi, pak Xi je zachován ve vzorku. Pokud ne, pak je zamítnut.
  5. Tento postup opakujte od kroku 2, dokud nedosáhnete požadované velikosti vzorku.

Stejný postup pro stejnou požadovanou velikost vzorku se provádí s y obměňovat.

Lahiriho schéma popsané Lohrem je předpjatý vysoko a tak je zajímavý pouze z historických důvodů. Místo toho se doporučuje níže popsaná technika Midzuno-Sen.

Midzuno-Senova metoda

V roce 1952 Midzuno a Sen nezávisle popsali schéma vzorkování, které poskytuje objektivní odhad poměru.[15][16]

První vzorek je vybrán s pravděpodobností úměrnou velikosti souboru X obměňovat. Zbývající n - 1 vzorek je vybrán náhodně bez nahrazení zbývajících N - 1 člen v populaci. Pravděpodobnost výběru podle tohoto schématu je

kde X je součet N X se liší a Xi jsou n členové vzorku. Pak poměr součtu y se mění a součet X takto vybrané variace je nestranný odhad odhadce poměru.

V symbolech máme

kde Xi a yi jsou vybrány podle schématu popsaného výše.

Odhad poměru daný tímto schématem je nestranný.

Särndal, Swensson a Wretman připisují Lahiri, Midzunovi a Senovi postřehy vedoucí k této metodě[17] ale Lahiriho technika je předpjatá vysoko.


Další odhady poměru

Cín (1965)[18] popsal a porovnával odhady poměru navržené Beale (1962)[19] a Quenouille (1956)[20] a navrhl upravený přístup (nyní označovaný jako Tinova metoda). Tyto poměrové odhady se běžně používají k výpočtu zatížení znečišťujícími látkami ze vzorkování vodních cest, zejména tam, kde se průtok měří častěji než kvalita vody. Například viz Quilbe et al., (2006)[21]


Obyčejná regrese nejmenších čtverců

Pokud lineární vztah mezi X a y se liší a existuje regrese rovnice prochází počátkem, pak odhadovaná odchylka regresní rovnice je vždy menší než u odhadu poměru. Přesný vztah mezi odchylkami závisí na linearitě vztahu mezi X a y variace: když je vztah jiný než lineární, odhad poměru může mít nižší rozptyl než ten odhadovaný regresí.

Použití

Ačkoli může být odhad poměru použitelný v řadě nastavení, je zvláště vhodný ve dvou případech:

  • když se mění X a y jsou velmi korelovaný skrz původ
  • když není známa celková velikost populace

Dějiny

První známé použití odhadce poměru bylo do John Graunt v Anglie který v roce 1662 jako první odhadl poměr y/X kde y představoval celkový počet obyvatel a X známý celkový počet registrovaných narození ve stejných oblastech během předchozího roku.

Později Messance (~ 1765) a Moheau (1778) zveřejnili velmi pečlivě připravené odhady pro Francie na základě počtu obyvatel v určitých okresech a počtu narozených, zemřelých a sňatků, jak je uvedeno pro celou zemi. Okresy, ze kterých se určoval poměr obyvatel k narození, tvořily pouze vzorek.

V roce 1802 Laplace si přál odhadnout počet obyvatel Francie. Ne sčítání lidu byly provedeny a Laplaceovi chyběly zdroje, aby mohl počítat každého jednotlivce. Místo toho vzorkoval 30 farnosti jejichž celkový počet obyvatel byl 2 037 615. Křestní zápisy farnosti byly považovány za spolehlivé odhady počtu živě narozených dětí, proto použil celkový počet narozených za období tří let. Odhad vzorku činil 71 866 333 křtů ročně během tohoto období, což představuje poměr jednoho registrovaného křtu na každých 28,35 osob. Také měl k dispozici celkový počet registrací křtu pro Francii a předpokládal, že poměr živě narozených k populaci je konstantní. Poté použil poměr ze svého vzorku k odhadu počtu obyvatel Francie.

Karl Pearson v roce 1897 uvedl, že odhady poměru jsou zkreslené a varují před jejich použitím.[22]

Viz také

Reference

  1. ^ Scott AJ, Wu CFJ (1981) O asymptotickém rozdělení poměrových a regresních odhadů. JASA 76: 98–102
  2. ^ Cochran WG (1977) Techniky odběru vzorků. New York: John Wiley & Sons
  3. ^ A b C Ogliore RC, Huss GR, Nagashima K (2011) Odhad poměru v analýze SIMS. Jaderné přístroje a metody ve fyzice Výzkum Část B: Interakce paprsků s materiály a atomy 269 (17) 1910–1918
  4. ^ Pascual JN (1961) Nestranný odhad poměru ve stratifikovaném výběru. JASA 56 (293): 70–87
  5. ^ Beale EML (1962) Některé využití počítačů v operačním výzkumu. Industrielle Organization 31: 27-28
  6. ^ A b Tin M (1965) Srovnání některých odhadů poměru. JASA 60: 294–307
  7. ^ Sahoo LN (1983). Na metodě zkreslení zkreslení v odhadu poměru. J Statistické rozlišení 17: 1—6
  8. ^ Sahoo LN (1987) O třídě téměř nezaujatých odhadů poměru populace. Statistiky 18: 119-121
  9. ^ A b van Kempen GMP, van Vliet LJ (2000) Průměr a rozptyl odhadů poměru použitých při zobrazování poměru fluorescence. Cytometrie 39: 300–305
  10. ^ A b C d Choquet D, L'ecuyer P, Léger C (1999) Bootstrap intervaly spolehlivosti pro poměry očekávání. Transakce ACM na modelování a počítačové simulaci - TOMACS 9 (4) 326-348 doi:10.1145/352222.352224
  11. ^ Durbin J (1959) Poznámka k aplikaci Quenouilleovy metody redukce zkreslení na odhad poměrů. Biometrika 46: 477-480
  12. ^ Mickey MR (1959) Některé konečné populační nezaujaté poměry a odhady regrese. JASA 54: 596–612
  13. ^ A b Lohr S (2010) Odběr vzorků - návrh a analýza (2. vydání)
  14. ^ Lahiri DB (1951) Metoda výběru vzorku poskytující objektivní odhady poměru. Bull Int Stat Inst 33: 133–140
  15. ^ Midzuno H (1952) Na vzorkovacím systému s pravděpodobností úměrnou součtu velikostí. Ann Inst Stat Math 3: 99-107
  16. ^ Sen AR (1952) Současný stav vzorkování pravděpodobnosti a jeho použití při odhadu charakteristiky. Econometrika 20-103
  17. ^ Särndal, C-E, B Swensson J Wretman (1992) Model asistoval vzorkování průzkumu. Springer, §7.3.1 (iii)
  18. ^ Tin M (1965). Srovnání některých odhadů poměru. Journal of the American Statistical Association, 60 (309), 294–307. https://doi.org/10.1080/01621459.1965.10480792
  19. ^ Beale EML (1965) Některé využití počítačů v operačním výzkumu. Industrielle organizace 31: 27-8
  20. ^ Quenouille R Rousseau AN Duchemin M Poulin A Gangbazo G Villeneuve J-P (2006) Výběr metody výpočtu pro odhad zatížení sedimentů a živin v potocích: aplikace k řece Beaurivage (Quebec, Kanada). Journal of Hydrology 326: 295-310
  21. ^ Quilbé, R., Rousseau, A. N., Duchemin, M., Poulin, A., Gangbazo, G., & Villeneuve, J. P. (2006). Výběr metody výpočtu pro odhad zatížení sedimentů a živin v tocích: Aplikace na řeku Beaurivage (Québec, Kanada). Journal of Hydrology, 326 (1–4), 295–310. https://doi.org/10.1016/j.jhydrol.2005.11.008
  22. ^ Pearson K (1897) O formě falešné korelace, která může vzniknout při použití indexů pro měření orgánů. Proc Roy Soc Lond 60: 498