Zkrácení (statistika) - Truncation (statistics)

v statistika, zkrácení vede k hodnotám, které jsou omezeny nad nebo pod, což má za následek a zkrácený vzorek.[1] Náhodná proměnná se říká, že je zkrácen zdola, pokud pro určitou prahovou hodnotu , přesná hodnota je známý pro všechny případy , ale neznámý pro všechny případy . Podobně zkrácení shora znamená přesnou hodnotu je znám v případech, kdy , ale není známo, kdy .[2]

Zkrácení je podobné, ale odlišné od konceptu statistická cenzura. Zkrácený vzorek lze považovat za ekvivalentní podkladovému vzorku se všemi hodnotami mimo hranice zcela vynechanými, přičemž není zachován ani počet vynechaných. Při statistické cenzuře by byla zaznamenána nota dokumentující, která mez (horní nebo dolní) byla překročena a hodnota této meze. Při zkráceném vzorkování se nezaznamenává žádná nota.

Aplikace

Obvykle hodnoty, které pojistitelé příjem jsou zkráceny vlevo, správně cenzurovány nebo obojí. Například pokud se na pojistníky vztahuje pojistný limit u, pak jakékoli ztráty, které jsou ve skutečnosti vyšší u jsou hlášeny pojišťovně jako přesné u protože u je částka pojišťovna platí. Pojistitel ví, že skutečná ztráta je větší než u ale nevědí, co to je. Na druhé straně ke zkrácení vlevo dochází, když jsou pojistníci předmětem odpočitatelné položky. Pokud se na pojistníky vztahuje odpočitatelná položka d, jakákoli ztráta, která je menší než d nebudou ani hlášeny pojišťovně. Pokud existuje nárok na limit politiky ve výši u a odečitatelná částka d, jakákoli ztráta, která je větší než u bude nahlášena pojišťovně jako ztráta protože to je částka, kterou musí pojišťovna zaplatit. Proto jsou údaje o ztrátě pojištění zkráceny, protože pojišťovna neví, zda jsou hodnoty pod odečitatelnou hodnotou d protože pojistníci neuplatní nárok. Ztráta z pojištění je také správně cenzurována, pokud je ztráta větší než u protože u je nejvíce, co pojišťovna zaplatí. Ví tedy pouze, že váš nárok je větší než u, nikoli přesná výše nároku.

Pravděpodobnostní rozdělení

Zkrácení lze použít na jakékoli rozdělení pravděpodobnosti. To obvykle povede k nové distribuci, nikoli k jedné ve stejné rodině. Tedy pokud náhodná proměnná XF(X) jako distribuční funkce, nová náhodná proměnná Y definována jako distribuce X zkrácen na pootevřený interval (A, b] má distribuční funkci

pro y v intervalu (A, b] a 0 nebo 1 jinak. Pokud by zkrácení bylo do uzavřeného intervalu [A, b], distribuční funkce by byla

pro y v intervalu [A, b] a 0 nebo 1 jinak.

Analýza dat

Analýzu dat, kde se s pozorováním zachází jako se zkrácenými verzemi standardních distribucí, lze provést pomocí maximální pravděpodobnost, kde by pravděpodobnost byla odvozena z distribuce nebo hustoty zkrácené distribuce. To zahrnuje zohlednění faktoru v upravené funkci hustoty, která bude záviset na parametrech původního rozdělení.

V praxi je-li frakce zkrácena velmi malá, může být efekt zkrácení při analýze dat ignorován. Například je běžné používat a normální distribuce modelovat data, jejichž hodnoty mohou být pouze kladné, ale pro něž je typický rozsah hodnot daleko od nuly. V takových případech může být formálně vhodnější zkrácená nebo cenzurovaná verze normální distribuce (i když by existovaly alternativy); výsledkem složitější analýzy by bylo velmi málo změn. Software je však snadno dostupný pro odhad maximální pravděpodobnosti i středně komplikovaných modelů, jako je regresní modely, pro zkrácená data.[3]

v ekonometrie, zkrácené závislé proměnné jsou proměnné u nichž nelze pro určité hodnoty v určitém rozsahu provést pozorování.[4] Regresní modely s tak závislými proměnnými vyžadují zvláštní péči, která správně rozpozná zkrácenou povahu proměnné. Odhad takového zkrácený regresní model lze provést parametricky,[5][6] nebo poloparametrické a neparametrické rámce.[7][8]

Viz také

Reference

  1. ^ Dodge, Y. (2003) Oxfordský slovník statistických pojmů. OUP. ISBN  0-19-920613-9
  2. ^ Breen, Richard (1996). Regresní modely: Cenzurovaná, ukázková vybraná nebo zkrácená data. Kvantitativní aplikace ve společenských vědách. 111. Thousand Oaks: Sage. s. 2–4. ISBN  0-8039-5710-6.
  3. ^ Wolynetz, M. S. (1979). "Odhad maximální pravděpodobnosti v lineárním modelu z omezených a cenzurovaných normálních dat". Journal of the Royal Statistical Society. Řada C. 28 (2): 195–206. doi:10.2307/2346749. JSTOR  2346749.
  4. ^ "Zkrácené závislé proměnné". About.com. Citováno 2008-03-22.
  5. ^ Amemiya, T. (1973). "Regresní analýza, když je závislá proměnná zkrácena na normální". Econometrica. 41 (6): 997–1016. doi:10.2307/1914031. JSTOR  1914031.
  6. ^ Heckman, James (1976). „Společná struktura statistických modelů zkrácení, výběru vzorků a omezených závislých proměnných a jednoduchý odhad pro takové modely“. Annals of Economic and Social Measurement. 5 (4): 475–492.
  7. ^ Lewbel, A.; Linton, O. (2002). „Neparametrická cenzurovaná a zkrácená regrese“. Econometrica. 70 (2): 765–779. doi:10.1111/1468-0262.00304. JSTOR  2692291.
  8. ^ Park, B. U .; Simar, L .; Zelenyuk, V. (2008). „Odhad místní pravděpodobnosti zkrácené regrese a jejích dílčích derivátů: teorie a aplikace“ (PDF). Journal of Econometrics. 146 (1): 185–198. doi:10.1016 / j.jeconom.2008.08.007.