Horní kódování - Top-coded - Wikipedia
v ekonometrie a statistika, a top-kódované datové pozorování je takové, pro které jsou datové body, jejichž hodnoty jsou nad horní mezí cenzurováno.
Údaje průzkumu jsou před zveřejněním často topkódovány, aby byla zachována anonymita respondentů. Pokud by například odpověď z průzkumu uvedla respondenta s vlastním majetkem ve výši 79 miliard USD, nebyl by anonymní, protože by lidé věděli, že existuje velká šance, že respondent byl Bill Gates. Lze také použít vrchní kódování, aby se zabránilo možným chybám odlehlé hodnoty od zveřejnění.
Dolní kódování je analogické, např. pokud jsou částky pod nulou vykazovány jako nula. K hornímu kódování dochází u dat zaznamenaných ve skupinách, např. pokud jsou věkové skupiny hlášeny v těchto skupinách: 0-20, 21-50, 50-99, 100 a více. Zde víme jen to, kolik lidí má věk nad 100 let, ne jejich distribuci. Producenti údajů z průzkumů někdy uvolňují průměr cenzurovaných částek, aby pomohli uživatelům vyvrátit nezaujaté odhady nejvyšší skupiny.
Příklad: Top-coding of income at $ 30,000
id | stáří | skutečné bohatství | proměnná bohatství v souboru dat |
---|---|---|---|
1 | 26 | 24,778 | 24,778 |
2 | 32 | 26,750 | 26,750 |
3 | 45 | 26,780 | 26,780 |
4 | 64 | 35,469 | 30000+ |
5 | 27 | 43,695 | 30000+ |
Top-coding je obecný problém pro analýzu veřejných datových sad. Horní kódování v Aktuální průzkum populace ztěžuje odhad míry nerovnosti příjmů, protože je blokována podoba rozdělení vysokých příjmů. Abychom překonali tento problém, poskytuje CPS střední hodnotu nejlépe kódovaných hodnot.[1]
Praxe top-codingu, nebo zastropování vykázané maximální hodnoty v daňových přiznáních k ochraně anonymity činitele, komplikuje analýzu rozložení bohatství ve Spojených státech.[2]
Důsledky pro obyčejné nejmenší čtverce odhad
- Pokud je dolní mez skupiny s horním kódem použita jako hodnota regresoru (ve výše uvedeném příkladu 30000), je OLS zaujatý a nekonzistentní, protože nejvyšší hodnoty regresoru jsou hlášeny se systematickou chybou.
- Nejlépe kódovaná pozorování lze z regrese úplně vynechat. Pokud neexistují systematické rozdíly mezi vynechanou skupinou a zahrnutými skupinami, je OLS konzistentní a nezaujatý.
- The Tobit postup je robustní až po špičkové kódování a poskytuje nezaujaté odhady.
Viz také
Další čtení
- Jenkins, S. P., Burkhauser, R. V., Feng, S., & Larrimore, J. (2009). Měření nerovnosti pomocí cenzurovaných dat: přístup s více imputacemi, ISER Working Paper Series 2009-04, Institute for Social and Economic Research.
Reference
- ^ Larrimore, Jeff, Richard V. Burkhauser, Shuaizhang Feng a Laura Zayatz. 2008. Konzistentní buněčné prostředky pro topkódované příjmy ve veřejném použití March CPS (1976-2007). Journal of Economic and Social Measurement 33 (2-3)
- ^ Hacker, Jacob S. a Paul Pierson (2010). Politika vítězů a všech: Jak Washington zbohatl - a obrátil se zády ke střední třídě. Simon & Schuster. str.13. ISBN 978-1-4165-8869-6.
![]() | Tento Ekonometrie související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |