v lineární regrese, průměrná odpověď a předpokládaná odpověď jsou hodnoty závislé proměnné vypočítané z regresních parametrů a dané hodnoty nezávislé proměnné. Hodnoty těchto dvou odpovědí jsou stejné, ale jejich vypočtené odchylky se liší.
Pozadí
Při přímém lícování je model

kde
je proměnná odezvy,
je vysvětlující proměnná, εi je náhodná chyba a
a
jsou parametry. Průměrná a předpokládaná hodnota odezvy pro danou vysvětlující hodnotu, Xd, darováno

zatímco skutečná odpověď by byla

Výrazy pro hodnoty a odchylky
a
jsou uvedeny v lineární regrese.
Střední odpověď
Protože data v této souvislosti jsou definována jako (X, y) páry pro každé pozorování, průměrná odpověď při dané hodnotě X, řekněme Xd, je odhad průměru střední hodnoty y hodnoty v populaci na X hodnota Xd, to je
. Rozptyl střední odezvy je dán vztahem

Tento výraz lze zjednodušit na

kde m je počet datových bodů.
K prokázání tohoto zjednodušení lze použít identitu

Předpokládaná odpověď
The předpokládaná odpověď distribuce je předpokládané rozdělení reziduí v daném bodě Xd. Rozptyl je tedy dán vztahem
![{displaystyle {egin {aligned} operatorname {Var} left (y_ {d} -left [{hat {alpha}} + {hat {eta}} x_ {d} ight] ight) & = operatorname {Var} (y_ { d}) + operatorname {Var} vlevo ({hat {alpha}} + {hat {eta}} x_ {d} ight) -2operatorname {Cov} vlevo (y_ {d}, vlevo [{hat {alpha}} + {hat {eta}} x_ {d} ight] ight) & = operatorname {Var} (y_ {d}) + operatorname {Var} vlevo ({hat {alpha}} + {hat {eta}} x_ {d } hned) .end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80e47ac6a76b520bc1cda774dfb6531bf3a16383)
Druhý řádek vyplývá ze skutečnosti, že
je nula, protože nový predikční bod je nezávislý na datech použitých k přizpůsobení modelu. Navíc termín
byla vypočtena dříve pro střední odpověď.
Od té doby
(pevný, ale neznámý parametr, který lze odhadnout), rozptyl predikované odpovědi je dán vztahem
![{displaystyle {egin {aligned} operatorname {Var} left (y_ {d} -left [{hat {alpha}} + {hat {eta}} x_ {d} ight] ight) & = sigma ^ {2} + sigma ^ {2} vlevo ({frac {1} {m}} + {frac {vlevo (x_ {d} - {ar {x}} ight) ^ {2}} {součet (x_ {i} - {ar { x}}) ^ {2}}} ight) [4pt] & = sigma ^ {2} vlevo (1+ {frac {1} {m}} + {frac {(x_ {d} - {ar {x }}) ^ {2}} {sum (x_ {i} - {ar {x}}) ^ {2}}} ight) .end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bfc1ff83b96c55f305e73a134431d6b15cc91ffb)
Intervaly spolehlivosti
The
intervaly spolehlivosti se počítají jako
. Interval spolehlivosti pro předpokládanou odpověď je tedy širší než interval pro střední odpověď. To se očekává intuitivně - rozptyl populace
hodnoty se nesnižují, když z nich někdo vzorkuje, protože náhodná proměnná εi nesnižuje se, ale rozptyl průměru střední hodnoty
se zmenšuje se zvýšeným vzorkováním, protože rozptyl v
a
pokles, takže průměrná odezva (predikovaná hodnota odezvy) se blíží
.
To je analogické s rozdílem mezi rozptylem populace a rozptylem výběrového průměru populace: rozptyl populace je parametr a nemění se, ale rozptyl výběrového průměru klesá se zvýšeným výběrem.
Obecná lineární regrese
Obecný lineární model lze psát jako

Proto, protože
obecný výraz pro rozptyl střední odezvy je

kde S je kovarianční matice parametrů zadaných

Reference
- Draper, N.R .; Smith, H. (1998). Aplikovaná regresní analýza (3. vyd.). John Wiley. ISBN 0-471-17082-8.