Regresní ředění - Regression dilution - Wikipedia

Regresní ředění, také známý jako regresní útlum, je zaujatost regrese sklon k nule (podhodnocení jeho absolutní hodnoty), způsobený chybami v nezávislé proměnné.
Zvažte použití přímky pro vztah výstupní proměnné y na predikční proměnnou Xa odhad sklonu přímky. Statistická variabilita, chyba měření nebo náhodný šum v y proměnné příčiny nejistota v odhadovaném sklonu, ale ne zaujatost: v průměru postup vypočítá správný sklon. Variabilita, chyba měření nebo náhodný šum v X proměnná způsobí zkreslení v odhadovaném sklonu (stejně jako nepřesnost). Čím větší je rozptyl v X měření, tím blíže se odhadovaný sklon musí přiblížit nule místo skutečné hodnoty.

Může se zdát protiintuitivní, že šum v predikční proměnné X vyvolává předpětí, ale šum ve výsledné proměnné y ne. Odvolej to lineární regrese není symetrický: linie nejvhodnější pro předpovídání y z X (obvyklá lineární regrese) není stejná jako řada nejvhodnější pro predikci X z y.[1]
Jak opravit regresní ředění
Případ náhodně distribuovaného X proměnná
V případě, že X proměnná vzniká náhodně je známá jako strukturální model nebo strukturální vztah. Například v lékařské studii jsou pacienti získáváni jako vzorek z populace a jejich charakteristiky, jako je krevní tlak lze považovat za vznikající z a náhodný vzorek.
Za určitých předpokladů (obvykle normální distribuce předpoklady) je známý poměr mezi skutečným sklonem a očekávaným odhadovaným sklonem. Frost a Thompson (2000) zkoumají několik metod pro odhad tohoto poměru, a tedy pro korekci odhadovaného sklonu.[2] Termín regresní ředicí poměr, i když není definován zcela stejným způsobem všemi autory, se používá pro tento obecný přístup, ve kterém je přizpůsobena obvyklá lineární regrese a poté je použita korekce. Odpověď Longforda (2001) na Frost & Thompson odkazuje čtenáře na jiné metody a rozšiřuje regresní model tak, aby uznal variabilitu proměnné x, takže nevzniká zkreslení.[3] Fuller (1987) je jedním ze standardních referencí pro hodnocení a korekci regresního ředění.[4]
Hughes (1993) ukazuje, že metody regresního ředicího poměru platí přibližně v modelech přežití.[5] Rosner (1992) ukazuje, že poměrové metody platí přibližně pro modely logistické regrese.[6] Carroll a kol. (1995) uvádějí více podrobností o regresním ředění v nelineárních modelech a představují metody regresního ředicího poměru jako nejjednodušší případ regresní kalibrace způsoby, ve kterých mohou být také začleněny další kovariáty.[7]
Obecně platí, že metody pro strukturální model vyžadují určitý odhad variability proměnné x. To bude vyžadovat opakovaná měření proměnné x u stejných jedinců, a to buď v dílčí studii hlavního souboru dat, nebo v samostatném souboru dat. Bez těchto informací nebude možné provést opravu.
Případ pevné X proměnná
Případ, že X je pevná, ale měřená hlukem, je známá jako funkční model nebo funkční vztah. Viz například Riggs et al. (1978).[8]
Násobek X proměnné
Případ více proměnných prediktorů podléhajících variabilitě (případně korelovaný ) byl dobře studován pro lineární regresi a pro některé nelineární regresní modely.[4][7] Jiné nelineární modely, jako např modely proporcionálních rizik pro analýza přežití, byly uvažovány pouze s jediným prediktorem, který podléhá variabilitě.[5]
Je nutná korekce?
v statistická inference na základě regresní koeficienty, Ano; v prediktivní modelování aplikace není nutná ani vhodná. Abyste tomu porozuměli, zvažte chybu měření následovně. Nechat y být výslednou proměnnou, X být skutečnou proměnnou prediktoru a w být přibližným pozorováním X. Frost a Thompson to například navrhují X může být skutečný, dlouhodobý krevní tlak pacienta a w může být krevní tlak pozorovaný při jedné konkrétní návštěvě kliniky.[2] Regresní ředění nastává, pokud nás zajímá vztah mezi y a X, ale odhadněte vztah mezi y a w. Protože w se měří s variabilitou, sklon regresní přímky o y na w je menší než regresní čára y na X.
Záleží na tom? v prediktivní modelování, Ne. Standardní metody mohou odpovídat regresi y na w bez zkreslení. Existuje zkreslení, pouze pokud použijeme regresi y na w jako aproximaci regrese y na x. V příkladu, za předpokladu, že měření krevního tlaku jsou u budoucích pacientů podobně variabilní, poskytuje naše regresní linie y na w (pozorovaný krevní tlak) nezaujaté předpovědi.
Příkladem okolnosti, za které je požadována korekce, je předpověď změny. Předpokládejme změnu v X je známo za některých nových okolností: odhadnout pravděpodobnou změnu výsledné proměnné y, sklon regrese y na X je potřeba, ne y na w. To vzniká v epidemiologie. Pokračovat příkladem, ve kterém X označuje krevní tlak, možná velký klinické hodnocení poskytl odhad změny krevního tlaku při nové léčbě; pak možný účinek na y, podle nové léčby, by měla být odhadnuta ze sklonu v regresi y na X.
Další okolností je prediktivní modelování, ve kterém jsou budoucí pozorování také variabilní, ale ne (ve výše uvedené větě) „podobně variabilní“. Například pokud aktuální datový soubor obsahuje krevní tlak měřený s větší přesností, než je běžné v klinické praxi. Jeden konkrétní příklad toho vznikl při vývoji regresní rovnice založené na klinické studii, ve které byl krevní tlak průměrem šesti měření, pro použití v klinické praxi, kde je krevní tlak obvykle jediným měřením.[9]
Upozornění
Všechny tyto výsledky lze matematicky zobrazit v případě jednoduchá lineární regrese za předpokladu normálního rozdělení v celém rozsahu (rámec Frost & Thompson).
Bylo diskutováno, že špatně provedená korekce pro regresní ředění, zejména pokud je provedena bez kontroly základních předpokladů, může způsobit větší poškození odhadu než žádná korekce.[10]
Další čtení
Regresní ředění bylo poprvé zmíněno pod útlumem jména autorem Spearman (1904).[11] Ti, kdo hledají čitelné matematické zpracování, by mohli začít Frostem a Thompsonem (2000),[2] nebo vidět korekce útlumu.
Viz také
- Oprava útlumu
- Modely chyb v proměnných
- Kvantování (zpracování signálu) - společný zdroj chyby ve vysvětlujících nebo nezávislých proměnných
Reference
- ^ Draper, N.R .; Smith, H. (1998). Aplikovaná regresní analýza (3. vyd.). John Wiley. p. 19. ISBN 0-471-17082-8.
- ^ A b C Frost, C. a S. Thompson (2000). "Oprava pro zkreslení regresního ředění: srovnání metod pro jednu proměnnou prediktoru." Journal of the Royal Statistical Society Série A 163: 173–190.
- ^ Longford, N. T. (2001). "Korespondence". Journal of the Royal Statistical Society, Series A. 164: 565. doi:10.1111 / 1467-985x,00219.
- ^ A b Fuller, W. A. (1987). Modely chyb měření. New York: Wiley.
- ^ A b Hughes, M. D. (1993). "Regresní ředění v modelu proporcionálních rizik". Biometrie. 49: 1056–1066. doi:10.2307/2532247.
- ^ Rosner, B .; Spiegelman, D .; et al. (1992). "Oprava logistické regrese Odhady relativního rizika a intervaly spolehlivosti pro náhodnou chybu měření uvnitř osoby". American Journal of Epidemiology. 136: 1400–1403. doi:10.1093 / oxfordjournals.aje.a 116453.
- ^ A b Carroll, R. J., Ruppert, D. a Stefanski, L. A. (1995). Chyba měření v nelineárních modelech. New York, Wiley.
- ^ Riggs, D. S .; Guarnieri, J. A .; et al. (1978). Msgstr "Přizpůsobení přímek, když jsou obě proměnné předmětem chyby". Humanitní vědy. 22: 1305–60. doi:10.1016 / 0024-3205 (78) 90098-x.
- ^ Stevens, R. J .; Kothari, V .; Adler, A. I .; Stratton, I.M .; Holman, R. R. (2001). „Dodatek k„ UKPDS Risk Engine: model pro riziko koronárních srdečních onemocnění u diabetu typu 2 UKPDS 56) “. Klinická věda. 101: 671–679. doi:10.1042 / cs20000335.
- ^ Davey Smith, G.; Phillips, A. N. (1996). „Inflace v epidemiologii:„ Důkaz a měření souvislosti mezi dvěma věcmi “se vrátil„. British Medical Journal. 312 (7047): 1659–1661. doi:10.1136 / bmj.312.7047.1659. PMC 2351357. PMID 8664725.
- ^ Spearman, C (1904). "Důkaz a měření asociace mezi dvěma věcmi". American Journal of Psychology. 15: 72–101. doi:10.2307/1412159.