Částečná regrese nejmenších čtverců - Partial least squares regression
Část série na |
Regresní analýza |
---|
![]() |
Modely |
Odhad |
Pozadí |
|
Částečná regrese nejmenších čtverců (PLS regrese) je statistický metoda, která má určitý vztah k regrese hlavních složek; místo hledání hyperplanes maxima rozptyl mezi odpovědí a nezávislými proměnnými najde a lineární regrese model promítáním předpokládané proměnné a pozorovatelné proměnné do nového prostoru. Protože oba X a Y data se promítají do nových prostorů, rodina metod PLS je známá jako bilineární faktorové modely. Částečná diskriminační analýza nejmenších čtverců (PLS-DA) je varianta použitá, když je Y kategorické.
PLS se používá k nalezení základních vztahů mezi dvěma matice (X a Y), tj. a latentní proměnná přístup k modelování kovariance struktury v těchto dvou prostorech. Model PLS se pokusí najít vícerozměrný směr v X prostor, který vysvětluje maximální směr vícerozměrné odchylky v Y prostor. PLS regrese je zvláště vhodná, když matice prediktorů má více proměnných než pozorování, a když existuje multicollinearity mezi X hodnoty. Naproti tomu standardní regrese v těchto případech selže (pokud tomu tak není legalizovaný ).
Částečně nejmenší čtverce představil švédský statistik Herman O. A. Wold, který ji poté vyvinul se svým synem Svante Woldem. Alternativní termín pro PLS (a správnější podle Svante Wold[1]) je projekce do latentních struktur, ale termín částečné nejmenší čtverce je v mnoha oblastech stále dominantní. Ačkoli původní aplikace byly ve společenských vědách, PLS regrese je dnes nejrozšířenější v chemometrie a související oblasti. Používá se také v bioinformatika, senzometrie, neurovědy, a antropologie.
Podkladový model
Obecný základní model vícerozměrných PLS je
kde X je matice prediktorů, Y je matice odpovědí; T a U jsou matice, které jsou projekcemi X (dále jen X skóre, součástka nebo faktor matice) a projekce Y (dále jen Y skóre); P a Q jsou a ortogonální načítání matice; a matice E a F jsou chybové výrazy, o nichž se předpokládá, že jsou nezávislé a shodně distribuované náhodné normální proměnné. Rozklady X a Y jsou vyrobeny tak, aby maximalizovaly kovariance mezi T a U.
Algoritmy
Existuje řada variant PLS pro odhad faktoru a zaváděcích matic T, U, P a Q. Většina z nich konstruuje odhady lineární regrese mezi X a Y tak jako . Některé algoritmy PLS jsou vhodné pouze pro případ, kdy Y je sloupcový vektor, zatímco jiné se zabývají obecným případem matice Y. Algoritmy se také liší v tom, zda odhadují faktorovou matici T jako ortogonální, an ortonormální matice nebo ne.[2][3][4][5][6][7] Konečná předpověď bude pro všechny tyto varianty PLS stejná, ale komponenty se budou lišit.
PLS1
PLS1 je široce používaný algoritmus vhodný pro vektor Y případ. Odhaduje to T jako ortonormální matice. V pseudokódu je to vyjádřeno níže (velká písmena jsou matice, malá písmena jsou vektory, pokud jsou přepsána, a skaláry, pokud jsou přepsána):
1 funkce PLS1 (X, y, l) 2 3 , počáteční odhad w. 4 pro na 5 6 (všimněte si, že toto je skalární) 7 8 9 (všimněte si, že toto je skalární)10 -li 11 , přestávka the pro smyčku12 -li 13 14 15 konec pro16 definovat Ž být maticí se sloupy . To samé vytvořte P matice a q vektor 18 19 vrátit se
Tato forma algoritmu nevyžaduje vystředění vstupu X a Y, protože to je implicitně prováděno algoritmem. Tento algoritmus obsahuje „deflaci“ matice X (odčítání ), ale deflace vektoru y se neprovádí, protože to není nutné (lze prokázat, že deflaci y přináší stejné výsledky jako deflace[8]). Uživatelem zadaná proměnná l je limit počtu latentních faktorů v regresi; pokud se rovná hodnosti matice X, algoritmus získá odhady regrese nejmenších čtverců pro B a
Rozšíření
V roce 2002 byla zveřejněna nová metoda s názvem ortogonální projekce do latentních struktur (OPLS). V OPLS jsou data spojitých proměnných rozdělena na prediktivní a nekorelované informace. To vede k vylepšené diagnostice a snadněji interpretovatelné vizualizaci. Tyto změny však pouze zlepšují interpretovatelnost, nikoli predikčnost, modelů PLS.[9] L-PLS rozšiřuje regresi PLS na 3 připojené datové bloky.[10] Podobně lze použít OPLS-DA (diskriminační analýza) při práci s diskrétními proměnnými, jako při klasifikaci a studiích biomarkerů.
V roce 2015 byly částečné nejmenší čtverce spojeny s procedurou zvanou tříprůchodový regresní filtr (3PRF).[11] Za předpokladu, že počet pozorování a proměnných bude velký, je 3PRF (a tedy PLS) asymptoticky normální pro „nejlepší“ předpověď implikovanou lineárním latentním faktorovým modelem. V datech akciových trhů se ukázalo, že PLS poskytuje přesné předpovědi výnosů a růstu peněžních toků mimo vzorek.[12]
Verze PLS založená na rozklad singulární hodnoty (SVD) poskytuje paměťově efektivní implementaci, kterou lze použít k řešení vysokodimenzionálních problémů, jako je například souvislost milionů genetických markerů s tisíci zobrazovacích funkcí v zobrazovací genetice na hardwaru pro spotřebitele.[13]
Korelace PLS (PLSC) je další metodika související s regresí PLS,[14] který byl použit v neuroimagingu [14][15][16] a více nedávno ve sportovní vědě,[17] kvantifikovat sílu vztahu mezi soubory dat. Typicky PLSC rozdělí data do dvou bloků (podskupin), z nichž každý obsahuje jednu nebo více proměnných, a poté použije rozklad singulární hodnoty (SVD) stanovit sílu jakéhokoli vztahu (tj. množství sdílených informací), který by mohl existovat mezi dvěma podskupinami složek.[18] Dělá to pomocí SVD k určení setrvačnosti (tj. Součtu singulárních hodnot) kovarianční matice uvažovaných podskupin.[18][14]
Viz také
- Kanonická korelace
- Dolování dat
- Demingová regrese
- Extrakce funkcí
- Strojové učení
- Multilineární podprostorové učení
- Částečné modelování cesty nejmenších čtverců
- Analýza hlavních komponent
- Regresní analýza
- Celkový součet čtverců
Další čtení
- Kramer, R. (1998). Chemometrické techniky pro kvantitativní analýzu. Marcel-Dekker. ISBN 978-0-8247-0198-7.
- Frank, Ildiko E .; Friedman, Jerome H. (1993). "Statistický pohled na některé chemometrické regresní nástroje". Technometrics. 35 (2): 109–148. doi:10.1080/00401706.1993.10485033.
- Haenlein, Michael; Kaplan, Andreas M. (2004). „Průvodce pro začátečníky k analýze částečných nejmenších čtverců“. Porozumění statistikám. 3 (4): 283–297. doi:10.1207 / s15328031us0304_4.
- Henseler, Joerg; Fassott, Georg (2005). "Testování moderujících efektů v modelech cest PLS. Ilustrace dostupných postupů". Citovat deník vyžaduje
| deník =
(Pomoc) - Lingjærde, Ole-Christian; Christophersen, Nils (2000). "Smršťovací struktura částečných nejmenších čtverců". Scandinavian Journal of Statistics. 27 (3): 459–473. doi:10.1111/1467-9469.00201.
- Tenenhaus, Michel (1998). La Régression PLS: Théorie et Pratique. Paris: Technip.
- Rosipal, Roman; Kramer, Nicole (2006). „Přehled a poslední pokroky v částečných nejmenších čtvercích, v podprostoru, latentní struktuře a technikách výběru prvků“: 34–51. Citovat deník vyžaduje
| deník =
(Pomoc) - Helland, Inge S. (1990). "PLS regrese a statistické modely". Scandinavian Journal of Statistics. 17 (2): 97–114. JSTOR 4616159.
- Wold, Herman (1966). Msgstr "Odhad hlavních komponent a souvisejících modelů pomocí iteračních nejmenších čtverců". V Krishnaiaah, P.R. (ed.). Vícerozměrná analýza. New York: Academic Press. 391–420.
- Wold, Herman (1981). Přístup fixních bodů k vzájemně závislým systémům. Amsterdam: Severní Holandsko.
- Wold, Herman (1985). "Částečně nejmenší čtverce". V Kotz, Samuel; Johnson, Norman L. (eds.). Encyklopedie statistických věd. 6. New York: Wiley. 581–591.
- Wold, Svante; Ruhe, Axel; Wold, Herman; Dunn, W. J. (1984). "Problém kolineárnosti v lineární regresi. Přístup částečných nejmenších čtverců (PLS) k zobecněným inverzím". Časopis SIAM o vědeckých a statistických výpočtech. 5 (3): 735–743. doi:10.1137/0905052.
- Garthwaite, Paul H. (1994). "Interpretace částečných nejmenších čtverců". Journal of the American Statistical Association. 89 (425): 122–7. doi:10.1080/01621459.1994.10476452. JSTOR 2291207.
- Wang, H., ed. (2010). Příručka částečných nejmenších čtverců. ISBN 978-3-540-32825-4.
- Stone, M .; Brooks, R.J. (1990). "Regrese kontinua: Cross-Validated Sequentially Constructed Predikce zahrnující obyčejné nejmenší čtverce, částečné nejmenší čtverce a hlavní součásti regrese". Journal of the Royal Statistical Society, Series B. 52 (2): 237–269. JSTOR 2345437.
Reference
- ^ Wold, S; Sjöström, M .; Eriksson, L. (2001). "PLS-regrese: základní nástroj chemometrie". Chemometrie a inteligentní laboratorní systémy. 58 (2): 109–130. doi:10.1016 / S0169-7439 (01) 00155-1.
- ^ Lindgren, F; Geladi, P; Wold, S (1993). Msgstr "Algoritmus jádra pro PLS". J. Chemometrics. 7: 45–59. doi:10.1002 / cem.1180070104.
- ^ de Jong, S .; ter Braak, C.J.F. (1994). Msgstr "Komentáře k algoritmu jádra PLS". J. Chemometrics. 8 (2): 169–174. doi:10.1002 / cem.1180080208.
- ^ Dayal, BS; MacGregor, J.F. (1997). "Vylepšené algoritmy PLS". J. Chemometrics. 11 (1): 73–85. doi:10.1002 / (SICI) 1099-128X (199701) 11: 1 <73 :: AID-CEM435> 3.0.CO; 2- #.
- ^ de Jong, S. (1993). "SIMPLS: alternativní přístup k částečné regrese nejmenších čtverců". Chemometrie a inteligentní laboratorní systémy. 18 (3): 251–263. doi:10.1016 / 0169-7439 (93) 85002-X.
- ^ Rannar, S .; Lindgren, F .; Geladi, P .; Wold, S. (1994). "Algoritmus jádra PLS pro datové sady s mnoha proměnnými a méně objekty. Část 1: Teorie a algoritmus". J. Chemometrics. 8 (2): 111–125. doi:10.1002 / cem.1180080204.
- ^ Abdi, H. (2010). "Částečná regrese nejmenších čtverců a projekce na regresi latentní struktury (PLS-regrese)". Wiley Interdisciplinary Reviews: Computational Statistics. 2: 97–106. doi:10,1002 / wics.51.
- ^ Höskuldsson, Agnar (1988). "PLS regresní metody". Journal of Chemometrics. 2 (3): 219. doi:10.1002 / cem.1180020306.
- ^ Trygg, J; Wold, S (2002). "Ortogonální projekce k latentním strukturám". Journal of Chemometrics. 16 (3): 119–128. doi:10.1002 / cem.695.
- ^ Sæbøa, S .; Almøya, T .; Flatbergb, A .; Aastveita, A.H .; Martens, H. (2008). "LPLS-regrese: metoda pro predikci a klasifikaci pod vlivem základních informací na predikční proměnné". Chemometrie a inteligentní laboratorní systémy. 91 (2): 121–132. doi:10.1016 / j.chemolab.2007.10.006.
- ^ Kelly, Bryan; Pruitt, Seth (01.06.2015). „Tříprůchodový regresní filtr: nový přístup k předpovědi pomocí mnoha prediktorů“. Journal of Econometrics. Vysoké dimenzionální problémy v ekonometrii. 186 (2): 294–316. doi:10.1016 / j.jeconom.2015.02.011.
- ^ Kelly, Bryan; Pruitt, Seth (01.10.2013). „Očekávání trhu v průřezu současných hodnot“. The Journal of Finance. 68 (5): 1721–1756. CiteSeerX 10.1.1.498.5973. doi:10.1111 / jofi.12060. ISSN 1540-6261.
- ^ Lorenzi, Marco; Altmann, Andre; Gutman, Boris; Wray, Selina; Arber, Charles; Hibar, Derrek P .; Jahanshad, Neda; Schott, Jonathan M .; Alexander, Daniel C. (2018-03-20). „Citlivost atrofie mozku na TRIB3 u Alzheimerovy choroby, důkazy z funkčního stanovení priorit v zobrazovací genetice“. Sborník Národní akademie věd. 115 (12): 3162–3167. doi:10.1073 / pnas.1706100115. ISSN 0027-8424. PMC 5866534. PMID 29511103.
- ^ A b C Krishnan, Anjali; Williams, Lynne J .; McIntosh, Anthony Randal; Abdi, Hervé (květen 2011). "Metody částečných nejmenších čtverců (PLS) pro neuroimaging: Výukový program a recenze". NeuroImage. 56 (2): 455–475. doi:10.1016 / j.neuroimage.2010.07.034.
- ^ McIntosh, Anthony R .; Mišić, Bratislav (03.01.2013). "Vícerozměrné statistické analýzy pro neuroimagingová data". Roční přehled psychologie. 64 (1): 499–525. doi:10.1146 / annurev-psych-113011-143804. ISSN 0066-4308.
- ^ Beggs, Clive B .; Magnano, Christopher; Belov, Pavel; Krawiecki, Jacqueline; Ramasamy, Deepa P .; Hagemeier, Jesper; Zivadinov, Robert (02.05.2016). de Castro, Fernando (ed.). „Plocha průřezu vnitřní krční žíly a pulsilita mozkomíšního moku v akvaduktu Sylvius: srovnávací studie mezi zdravými subjekty a pacienty s roztroušenou sklerózou“. PLOS ONE. 11 (5): e0153960. doi:10.1371 / journal.pone.0153960. ISSN 1932-6203. PMC 4852898. PMID 27135831.
- ^ Tkaní, Dan; Jones, Ben; Ireton, Matt; Whitehead, Sarah; Till, Kevin; Beggs, Clive B. (2019-02-14). Connaboy, Chris (ed.). „Překonání problému multicollinearity v datech sportovního výkonu: nová aplikace analýzy korelace částečných nejmenších čtverců“. PLOS ONE. 14 (2): e0211776. doi:10.1371 / journal.pone.0211776. ISSN 1932-6203. PMC 6375576.
- ^ A b Abdi, Hervé; Williams, Lynne J. (2013), Reisfeld, Brad; Mayeno, Arthur N. (eds.), „Metody částečných nejmenších čtverců: korelace částečných nejmenších čtverců a částečná regrese nejmenších čtverců“, Výpočetní toxikologie, Humana Press, 930, str. 549–579, doi:10.1007/978-1-62703-059-5_23, ISBN 9781627030588