Regresní analýza - Regression analysis
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |

v statistické modelování, regresní analýza je sada statistických procesů pro odhadování vztahy mezi a závislá proměnná (často se nazývá „proměnná výsledku“) a jedna nebo více nezávislé proměnné (často nazývané „prediktory“, „kovariáty“ nebo „funkce“). Nejběžnější formou regresní analýzy je lineární regrese, ve kterém výzkumník najde linii (nebo složitější lineární kombinace ), který nejlépe odpovídá údajům podle konkrétního matematického kritéria. Například metoda obyčejné nejmenší čtverce vypočítá jedinečnou čáru (nebo nadrovina ), který minimalizuje součet čtvercových rozdílů mezi skutečnými daty a danou čarou (nebo nadrovinou). Z konkrétních matematických důvodů (viz lineární regrese ), toto umožňuje výzkumníkovi odhadnout podmíněné očekávání (nebo populace průměrná hodnota ) závislé proměnné, když nezávislé proměnné nabývají dané sady hodnot. Méně běžné formy regrese používají mírně odlišné postupy k odhadu alternativy parametry umístění (např., kvantilní regrese nebo Analýza nutných podmínek[1]) nebo odhad podmíněného očekávání v širší kolekci nelineárních modelů (např. neparametrická regrese ).
Regresní analýza se primárně používá pro dva koncepčně odlišné účely. Nejprve je široce používána regresní analýza předpověď a předpovídání, kde se jeho použití podstatně překrývá s oborem strojové učení. Za druhé, v některých situacích lze k odvození použít regresní analýzu kauzální vztahy mezi nezávislou a závislou proměnnou. Důležité je, že regrese samy o sobě odhalují pouze vztahy mezi závislou proměnnou a kolekcí nezávislých proměnných v pevné datové sadě. Chcete-li použít regresi k predikci nebo k odvození kauzálních vztahů, musí výzkumník pečlivě zdůvodnit, proč stávající vztahy mají prediktivní sílu pro nový kontext nebo proč má vztah mezi dvěma proměnnými kauzální interpretaci. To je obzvláště důležité, když vědci doufají, že odhadnou kauzální vztahy pomocí pozorovací údaje.[2][3]
Dějiny
Nejčasnější formou regrese byla metoda nejmenších čtverců, kterou vydalo Legendre v roce 1805,[4] a tím Gauss v roce 1809.[5] Legendre a Gauss aplikovali metodu na problém stanovení, z astronomických pozorování, oběžných drah těles kolem Slunce (většinou komet, ale také později nově objevených planetek). Gauss publikoval další vývoj teorie nejmenších čtverců v roce 1821,[6] včetně verze Gauss – Markovova věta.
Pojem „regrese“ vytvořil Francis Galton v devatenáctém století popsat biologický jev. Fenomén spočíval v tom, že výšky potomků vysokých předků mají tendenci klesat směrem k normálnímu průměru (fenomén známý také jako regrese směrem k průměru ).[7][8]Pro Galtona měla regrese pouze tento biologický význam,[9][10] ale jeho práce byla později rozšířena o Udny Yule a Karl Pearson do obecnějšího statistického kontextu.[11][12] V díle Yule a Pearsona společná distribuce předpokládá se, že odpověď a vysvětlující proměnné jsou Gaussian. Tento předpoklad byl oslaben R.A. Rybář ve svých pracích z let 1922 a 1925.[13][14][15] Fisher předpokládal, že podmíněné rozdělení proměnné odezvy je Gaussian, ale společné rozdělení nemusí být. V tomto ohledu se Fisherův předpoklad blíží Gaussově formulaci z roku 1821.
V padesátých a šedesátých letech používali ekonomové k výpočtu regresí elektromechanické stolní „kalkulačky“. Před rokem 1970 trvalo obdržení výsledku z jedné regrese někdy až 24 hodin.[16]
Regresní metody jsou i nadále oblastí aktivního výzkumu. V posledních desetiletích byly vyvinuty nové metody robustní regrese, regrese zahrnující korelované odpovědi jako např časové řady a růstové křivky, regrese, ve které prediktorem (nezávislá proměnná) nebo proměnnými odezvy jsou křivky, obrázky, grafy nebo jiné složité datové objekty, regresní metody pro různé typy chybějících dat, neparametrická regrese, Bayesian metody regrese, regrese, ve které se proměnné prediktoru měří s chybou, regrese s více proměnnými prediktoru než pozorování a kauzální závěr s regresí.
Regresní model
V praxi vědci nejprve vyberou model, který by chtěli odhadnout, a poté použijí zvolenou metodu (např. obyčejné nejmenší čtverce ) k odhadu parametrů daného modelu. Regresní modely zahrnují následující komponenty:
- The neznámé parametry, často označované jako a skalární nebo vektor .
- The nezávislé proměnné, které jsou pozorovány v datech a jsou často označovány jako vektor (kde označuje řádek dat).
- The závislá proměnná, které jsou pozorovány v datech a často označovány pomocí skaláru .
- The chybové podmínky, což jsou ne přímo pozorovány v datech a jsou často označovány pomocí skaláru .
V různých oblasti použití, místo terminologie se používají různé terminologie závislé a nezávislé proměnné.
Většina regresních modelů to navrhuje je funkce a , s představující aditivní chybový termín které mohou zastupovat nemodelované determinanty nebo náhodný statistický šum:
Cílem vědců je odhadnout funkci který nejvíce odpovídá datům. K provedení regresní analýzy je forma funkce musí být specifikováno. Někdy je forma této funkce založena na znalostech o vztahu mezi nimi a to se nespoléhá na data. Pokud takové znalosti nejsou k dispozici, je k dispozici flexibilní nebo pohodlný formulář je vybrán. Například může navrhnout jednoduchá jednorozměrná regrese , což naznačuje, že výzkumník věří být přiměřenou aproximací pro statistický proces generující data.
Jakmile vědci určí jejich preferované statistický model, různé formy regresní analýzy poskytují nástroje pro odhad parametrů . Například, nejmenší čtverce (včetně jeho nejběžnější varianty, obyčejné nejmenší čtverce ) najde hodnotu který minimalizuje součet čtvercových chyb . Daná regresní metoda nakonec poskytne odhad , obvykle označeno rozlišit odhad od skutečné (neznámé) hodnoty parametru, která generovala data. Pomocí tohoto odhadu pak může výzkumník použít přizpůsobená hodnota pro predikci nebo pro posouzení přesnosti modelu při vysvětlování údajů. Zda se výzkumník skutečně zajímá o odhad nebo předpokládaná hodnota bude záviset na kontextu a jejich cílech. Jak je popsáno v obyčejné nejmenší čtverce, nejmenších čtverců je široce používán, protože odhadované funkce přibližuje podmíněné očekávání .[5] Alternativní varianty (např. nejmenší absolutní odchylky nebo kvantilní regrese ) jsou užitečné, když výzkumníci chtějí modelovat další funkce .
Je důležité si uvědomit, že k odhadu regresního modelu musí být dostatek dat. Předpokládejme například, že k nim má přístup výzkumný pracovník řádky dat s jednou závislou a dvěma nezávislými proměnnými: . Předpokládejme dále, že výzkumník chce odhadnout dvojrozměrný lineární model pomocí nejmenší čtverce: . Pokud má výzkumný pracovník přístup pouze k datové body, pak mohli najít nekonečně mnoho kombinací které vysvětlují data stejně dobře: lze zvolit libovolnou kombinaci, která vyhovuje , které všechny vedou k a jsou tedy platnými řešeními, která minimalizují součet čtverců zbytky. Chcete-li pochopit, proč existuje nekonečně mnoho možností, nezapomeňte, že systém rovnice má být vyřešena pro 3 neznámé, což dělá systém podurčeno. Alternativně lze vizualizovat nekonečně mnoho trojrozměrných rovin, které procházejí pevné body.
Obecněji lze odhadnout a nejmenší čtverce model s odlišné parametry, jeden musí mít odlišné datové body. Li , potom obecně neexistuje sada parametrů, která by dokonale odpovídala datům. Množství se často objevuje v regresní analýze a označuje se jako stupně svobody v modelu. Navíc pro odhad modelu nejmenších čtverců nezávislé proměnné musí být lineárně nezávislé: jeden musí ne být schopen rekonstruovat kteroukoli z nezávislých proměnných přidáním a vynásobením zbývajících nezávislých proměnných. Jak je uvedeno v obyčejné nejmenší čtverce, tato podmínka to zajišťuje je invertibilní matice a proto je to jedinečné řešení existuje.
Základní předpoklady
Regrese je sama o sobě jednoduše výpočtem využívajícím data. Za účelem interpretace výstupu regrese jako smysluplné statistické veličiny, která měří vztahy v reálném světě, se vědci často spoléhají na řadu klasických předpoklady. Mezi ně často patří:
- Vzorek je reprezentativní pro celou populaci.
- Nezávislé proměnné jsou měřeny bez chyby.
- Odchylky od modelu mají očekávanou hodnotu nula, podmíněné kovariátami:
- Rozptyl zbytků je konstantní napříč pozorováními (homoscedasticity ).
- Zbytky jsou nesouvisí navzájem. Matematicky variance – kovarianční matice chyb je úhlopříčka.
Několik podmínek stačí k tomu, aby odhadce nejmenších čtverců měla žádoucí vlastnosti: zejména Gauss – Markov předpoklady naznačují, že odhady parametrů budou objektivní, konzistentní, a účinný ve třídě lineárních nezaujatých odhadů. Odborníci vyvinuli řadu metod k udržení některých nebo všech těchto žádoucích vlastností v reálném prostředí, protože je nepravděpodobné, že by tyto klasické předpoklady platily přesně. Například modelování chyby v proměnných může vést k rozumným odhadům nezávislých proměnných měřených s chybami. Standardní chyby konzistentní s heteroscedasticitou povolit rozptyl změnit napříč hodnotami . Korelované chyby, které existují v podmnožinách dat nebo se řídí specifickými vzory, lze zpracovat pomocí seskupené standardní chyby, geograficky vážená regresenebo Newey – West standardní chyby, mimo jiné techniky. Když řádky dat odpovídají místům ve vesmíru, volba způsobu modelování v rámci geografických jednotek může mít důležité důsledky.[17][18] Podpole ekonometrie je do značné míry zaměřen na vývoj technik, které umožňují výzkumným pracovníkům činit rozumné závěry z reálného světa v reálných podmínkách, kde klasické předpoklady neplatí přesně.
Lineární regrese
V lineární regrese je specifikací modelu to, že závislá proměnná, je lineární kombinace z parametry (ale nemusí být lineární v nezávislé proměnné). Například v jednoduchá lineární regrese pro modelování datové body existuje jedna nezávislá proměnná: a dva parametry, a :
- přímka:
Ve vícenásobné lineární regrese existuje několik nezávislých proměnných nebo funkcí nezávislých proměnných.
Přidání termínu do k předchozí regresi dává:
- parabola:
Toto je stále lineární regrese; ačkoli výraz na pravé straně je v nezávislé proměnné kvadratický , je v parametrech lineární , a
V obou případech, je chybný výraz a dolní index indexuje konkrétní pozorování.
Vracíme naši pozornost k přímému případu: Vzhledem k náhodnému vzorku z populace odhadneme parametry populace a získáme model lineární regrese vzorku:
The reziduální, , je rozdíl mezi hodnotou závislé proměnné předpovězené modelem, a skutečná hodnota závislé proměnné, . Jednou z metod odhadu je obyčejné nejmenší čtverce. Tato metoda získává odhady parametrů, které minimalizují součet čtverců zbytky, SSR:
Minimalizace této funkce vede k sadě normální rovnice, sada simultánních lineárních rovnic v parametrech, které jsou řešeny tak, aby poskytly odhady parametrů, .

V případě jednoduché regrese jsou vzorce pro odhady nejmenších čtverců
kde je znamenat (průměr) z hodnoty a je průměr z hodnoty.
Za předpokladu, že termín chyby populace má konstantní rozptyl, je odhad této odchylky dán vztahem:
Tomu se říká střední kvadratická chyba (MSE) regrese. Jmenovatelem je velikost vzorku snížená o počet parametrů modelu odhadovaných ze stejných údajů, pro regresory nebo pokud je použit odposlech.[19] V tomto případě, jmenovatelem je .
The standardní chyby odhadů parametrů je dáno vztahem
Za dalšího předpokladu, že termín chyby populace je normálně distribuován, může výzkumník použít tyto odhadované standardní chyby k vytvoření intervaly spolehlivosti a chování testy hypotéz o populační parametry.
Obecný lineární model
V obecnějším modelu vícenásobné regrese existují nezávislé proměnné:
kde je -té pozorování na -tá nezávislá proměnná. Pokud má první nezávislá proměnná hodnotu 1 pro všechny , , pak se nazývá regresní zachycení.
Odhady parametrů nejmenších čtverců jsou získány z normální rovnice. Zbytek lze zapsat jako
The normální rovnice jsou
V maticové notaci se normální rovnice zapisují jako
Kde prvek je , prvek vektoru sloupce je a prvek je . Tím pádem je , je , a je . Řešení je
Diagnostika
Jakmile byl sestaven regresní model, může být důležité potvrdit dobrota fit modelu a statistická významnost odhadovaných parametrů. Mezi běžně používané kontroly dobré shody patří R na druhou, analýzy vzoru zbytky a testování hypotéz. Statistickou významnost lze ověřit pomocí F-test celkového přizpůsobení, následovaný t-testy jednotlivých parametrů.
Interpretace těchto diagnostických testů závisí do značné míry na předpokladech modelu. Ačkoli lze ke zneplatnění modelu použít zkoumání zbytků, výsledky a t-test nebo F-test je někdy obtížnější interpretovat, pokud jsou porušeny předpoklady modelu. Například pokud chybový člen nemá normální rozdělení, u malých vzorků nebudou odhadované parametry následovat normální rozdělení a zkomplikují odvození. U relativně velkých vzorků však a teorém centrálního limitu lze vyvolat tak, že testování hypotéz může pokračovat pomocí asymptotických aproximací.
Omezené závislé proměnné
Omezené závislé proměnné, což jsou proměnné odpovědi, které jsou kategorické proměnné nebo jsou proměnné, jejichž omezení spadají pouze do určitého rozsahu, často vznikají v ekonometrie.
Proměnná odezvy může být nespojitá („omezená“, aby ležela na nějaké podmnožině reálné čáry). U binárních (nula nebo jedna) proměnných, pokud analýza probíhá s lineární regresí nejmenších čtverců, se model nazývá lineární pravděpodobnostní model. Mezi nelineární modely pro binárně závislé proměnné patří probit a logitový model. The vícerozměrný probit model je standardní metoda odhadu společného vztahu mezi několika binárně závislými proměnnými a některými nezávislými proměnnými. Pro kategorické proměnné s více než dvěma hodnotami je multinomiální logit. Pro pořadové proměnné s více než dvěma hodnotami existují objednal logit a objednaný probit modely. Cenzurované regresní modely lze použít, když je závislá proměnná pozorována pouze někdy, a Heckmanova korekce lze použít modely typu, když vzorek není náhodně vybrán ze sledované populace. Alternativou k těmto postupům je lineární regrese založená na polychorická korelace (nebo polyseriální korelace) mezi kategorickými proměnnými. Takové postupy se liší v předpokladech o distribuci proměnných v populaci. Pokud je proměnná kladná s nízkými hodnotami a představuje opakování výskytu události, pak počítejte modely jako Poissonova regrese nebo negativní binomický lze použít model.
Nelineární regrese
Pokud funkce modelu není v parametrech lineární, musí být součet čtverců minimalizován iteračním postupem. To přináší mnoho komplikací, které jsou shrnuty v Rozdíly mezi lineárními a nelineárními nejmenšími čtverci.
Interpolace a extrapolace

Regresní modely předpovídají hodnotu Y proměnná se známými hodnotami X proměnné. Předpověď v rámci rozsah hodnot v datové sadě použité pro přizpůsobení modelu je známý neformálně jako interpolace. Předpověď mimo tento rozsah dat je znám jako extrapolace. Provedení extrapolace silně závisí na předpokladech regrese. Čím dále extrapolace jde mimo data, tím větší je prostor pro selhání modelu kvůli rozdílům mezi předpoklady a ukázkovými daty nebo skutečnými hodnotami.
Obecně se doporučuje[Citace je zapotřebí ] že při provádění extrapolace je třeba doprovázet odhadovanou hodnotu závislé proměnné pomocí a interval predikce což představuje nejistotu. Takové intervaly mají tendenci rychle se rozšiřovat, protože hodnoty nezávislých proměnných se pohybovaly mimo rozsah pokrytý pozorovanými údaji.
Z těchto a jiných důvodů mají někteří sklon říkat, že by mohlo být nerozumné podstoupit extrapolaci.[21]
To však nepokrývá celou sadu chyb při modelování, které mohou být provedeny: zejména předpoklad určité formy vztahu mezi Y a X. Správně provedená regresní analýza bude zahrnovat posouzení toho, jak dobře se předpokládaná forma shoduje s pozorovanými údaji, ale může tak činit pouze v rozsahu hodnot nezávislých proměnných, které jsou skutečně k dispozici. To znamená, že jakákoli extrapolace je obzvláště závislá na předpokladech o strukturní formě regresního vztahu. Poradenství o nejlepších postupech zde[Citace je zapotřebí ] je, že vztah lineární v proměnných a lineární v parametrech by neměl být zvolen jednoduše pro výpočetní pohodlí, ale že při konstrukci regresního modelu by měly být použity všechny dostupné znalosti. Pokud tato znalost zahrnuje skutečnost, že závislá proměnná nemůže jít mimo určitý rozsah hodnot, lze ji využít při výběru modelu - i když pozorovaná datová sada nemá žádné hodnoty, zejména v blízkosti těchto hranic. Důsledky tohoto kroku výběru vhodné funkční formy pro regresi mohou být velké, když se vezme v úvahu extrapolace. Může přinejmenším zajistit, aby jakákoli extrapolace vyplývající z přizpůsobeného modelu byla „realistická“ (nebo v souladu se známým).
Výpočty výkonu a velikosti vzorku
Neexistují žádné obecně dohodnuté metody pro spojování počtu pozorování s počtem nezávislých proměnných v modelu. Jedno pravidlo předpokládané Goodem a Hardinem je , kde je velikost vzorku, je počet nezávislých proměnných a je počet pozorování potřebných k dosažení požadované přesnosti, pokud by model měl pouze jednu nezávislou proměnnou.[22] Například výzkumný pracovník vytváří model lineární regrese pomocí datové sady, která obsahuje 1 000 pacientů (). Pokud se výzkumník rozhodne, že k přesné definici přímky je potřeba pět pozorování (), pak maximální počet nezávislých proměnných, které model může podporovat, je 4, protože
Jiné metody
Ačkoli se parametry regresního modelu obvykle odhadují pomocí metody nejmenších čtverců, byly použity i jiné metody:
- Bayesovské metody, např. Bayesiánská lineární regrese
- Procentní regrese pro situace, kdy redukce procento chyby se považují za vhodnější.[23]
- Nejméně absolutní odchylky, který je robustnější v přítomnosti odlehlých hodnot, což vede k kvantilní regrese
- Neparametrická regrese, vyžaduje velké množství pozorování a je výpočetně náročná
- Optimalizace scénáře, vedoucí k intervalové predikční modely
- Distanční metrické učení, které se naučí hledáním smysluplné metriky vzdálenosti v daném vstupním prostoru.[24]
Software
Všechny hlavní statistické softwarové balíčky fungují nejmenší čtverce regresní analýza a odvození. Jednoduchá lineární regrese a v některých lze provést vícenásobnou regresi pomocí nejmenších čtverců tabulkový kalkulátor aplikacích a na některých kalkulačkách. Zatímco mnoho statistických softwarových balíčků může provádět různé typy neparametrické a robustní regrese, tyto metody jsou méně standardizované; různé softwarové balíčky implementují různé metody a metoda s daným názvem může být implementována odlišně v různých balíčcích. Specializovaný regresní software byl vyvinut pro použití v oblastech, jako je průzkumová analýza a neuroimaging.
Viz také
- Anscombeovo kvarteto
- Křivka
- Teorie odhadu
- Prognózy
- Frakce rozptylu nevysvětlitelná
- Aproximace funkce
- Zobecněné lineární modely
- Kriging (lineární algoritmus odhadu nejmenších čtverců)
- Místní regrese
- Problém s upravitelnou plošnou jednotkou
- Vícedílné adaptivní regrese splajny
- Vícerozměrné normální rozdělení
- Pearsonův korelační koeficient produkt-moment
- Kvazi-variance
- Interval predikce
- Ověření regrese
- Robustní regrese
- Segmentovaná regrese
- Zpracování signálu
- Postupná regrese
- Odhad trendu
Reference
- ^ Nezbytná analýza stavu
- ^ David A. Freedman (27. dubna 2009). Statistické modely: teorie a praxe. Cambridge University Press. ISBN 978-1-139-47731-4.
- ^ R. Dennis Cook; Sanford Weisberg Kritika a analýza vlivu v regresi, Sociologická metodologie, Sv. 13. (1982), str. 313–361
- ^ DOPOLEDNE. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes „Firmin Didot, Paříž, 1805. Jako příloha se objevuje„ Sur la Méthode des moindres quarres “.
- ^ A b Kapitola 1 z: Angrist, J. D., & Pischke, J. S. (2008). Převážně neškodná ekonometrie: empirický společník. Princeton University Press.
- ^ C.F. Gauss. Theoria combinationis observumum erroribus minimis obnoxiae. (1821/1823)
- ^ Mogull, Robert G. (2004). Statistiky aplikované ve druhém semestru. Nakladatelská společnost Kendall / Hunt. str. 59. ISBN 978-0-7575-1181-3.
- ^ Galton, Francis (1989). "Příbuzenství a korelace (dotisk 1989)". Statistická věda. 4 (2): 80–86. doi:10.1214 / ss / 1177012581. JSTOR 2245330.
- ^ Francis Galton. „Typické zákony dědičnosti“, Nature 15 (1877), 492–495, 512–514, 532–533. (Galton v této práci používá termín „reverze“, který pojednává o velikosti hrášku.)
- ^ Francis Galton. Prezidentský projev, sekce H, Antropologie. (1885) (Galton v této práci používá výraz „regrese“, který pojednává o výšce lidí.)
- ^ Yule, G. Udny (1897). „K teorii korelace“. Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746.
- ^ Pearson, Karl; Yule, G.U .; Blanchard, Norman; Lee, Alice (1903). „Zákon dědičnosti předků“. Biometrika. 2 (2): 211–236. doi:10.1093 / biomet / 2.2.211. JSTOR 2331683.
- ^ Fisher, R.A. (1922). „Dobrá shoda regresních vzorců a rozdělení regresních koeficientů“. Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
- ^ Ronald A. Fisher (1954). Statistické metody pro výzkumné pracovníky (Dvanácté vydání). Edinburgh: Oliver a Boyd. ISBN 978-0-05-002170-5.
- ^ Aldrich, John (2005). „Fisher a regrese“. Statistická věda. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201.
- ^ Rodney Ramcharan. Regrese: Proč jsou ekonomové posedlí? Březen 2006. Přístupné 12. 12. 2011.
- ^ Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geograficky vážená regrese: analýza prostorově se měnících vztahů (Dotisk ed.). Chichester, Anglie: John Wiley. ISBN 978-0-471-49616-8.
- ^ Fotheringham, AS; Wong, DWS (1. ledna 1991). Msgstr "Problém s modifikovatelnou plošnou jednotkou ve vícerozměrné statistické analýze". Životní prostředí a plánování A. 23 (7): 1025–1044. doi:10.1068 / a231025. S2CID 153979055.
- ^ Steel, R.G.D a Torrie, J. H., Principy a postupy statistiky se zvláštním zřetelem na biologické vědy., McGraw Hill, 1960, strana 288.
- ^ Rouaud, Mathieu (2013). Pravděpodobnost, statistika a odhad (PDF). str. 60.
- ^ Chiang, C.L, (2003) Statistické metody analýzy, World Scientific. ISBN 981-238-310-7 - strana 274 část 9.7.4 „interpolace vs extrapolace“
- ^ Dobře, P. I.; Hardin, J. W. (2009). Časté chyby ve statistice (a jak se jim vyhnout) (3. vyd.). Hoboken, New Jersey: Wiley. str. 211. ISBN 978-0-470-45798-6.
- ^ Tofallis, C. (2009). "Procentuální regrese nejmenších čtverců". Journal of Modern Applied Statistical Methods. 7: 526–534. doi:10,2139 / ssrn.1406472. SSRN 1406472.
- ^ YangJing Long (2009). „Odhad lidského věku pomocí metrického učení pro regresní problémy“ (PDF). Proc. Mezinárodní konference o počítačové analýze obrazů a vzorů: 74–82. Archivovány od originál (PDF) dne 08.01.2010.
Další čtení
- William H. Kruskal a Judith M. Tanur, vyd. (1978), „Lineární hypotézy,“ Mezinárodní encyklopedie statistik. Free Press, v. 1,
- Evan J. Williams, „I. Regrese,“ s. 523–41.
- Julian C. Stanley „II. Analýza rozptylu“, s. 541–554.
- Lindley, D.V. (1987). „Regresní a korelační analýza,“ New Palgrave: A Dictionary of Economics, v. 4, s. 120–23.
- Birkes, David a Dodge, Y., Alternativní metody regrese. ISBN 0-471-56881-3
- Chatfield, C. (1993) "Výpočet prognóz intervalů," Journal of Business and Economic Statistics, 11. s. 121–135.
- Draper, N.R .; Smith, H. (1998). Aplikovaná regresní analýza (3. vyd.). John Wiley. ISBN 978-0-471-17082-2.
- Fox, J. (1997). Aplikovaná regresní analýza, lineární modely a související metody. Šalvěj
- Hardle, W., Aplikovaná neparametrická regrese (1990), ISBN 0-521-42950-1
- Meade, Nigel; Islam, Towhidul (1995). "Intervaly predikce pro předpovědi růstové křivky". Journal of Forecasting. 14 (5): 413–430. doi:10,1002 / za. 3980140502.
- A. Sen, M. Srivastava, Regresní analýza - teorie, metody a aplikace, Springer-Verlag, Berlin, 2011 (4. tisk).
- T. Strutz: Přizpůsobení dat a nejistota (praktický úvod do vážených nejmenších čtverců a dále). Vieweg + Teubner, ISBN 978-3-8348-1022-9.
- Malakooti, B. (2013). Provozní a výrobní systémy s více cíli. John Wiley & Sons.
externí odkazy
- "Regresní analýza", Encyclopedia of Mathematics, Stiskněte EMS, 2001 [1994]
- Nejčasnější použití: Regrese - základní historie a reference
- Regrese slabě korelovaných dat - jak se mohou objevit chyby lineární regrese, když je rozsah Y mnohem menší než rozsah X.