Návrhová matice - Design matrix
v statistika, a návrhová matice, také známý jako modelová matice nebo regresní matice a často označován X, je matice hodnot vysvětlující proměnné sady objektů. Každý řádek představuje jednotlivý objekt, přičemž postupné sloupce odpovídají proměnným a jejich specifickým hodnotám pro daný objekt. Určitě se používá návrhová matice statistické modely, např obecný lineární model.[1][2][3] Může obsahovat proměnné ukazatele (jednotky a nuly), které označují členství ve skupině v ANOVA, nebo může obsahovat hodnoty spojité proměnné.
Konstrukční matice obsahuje údaje o nezávislé proměnné (nazývané také vysvětlující proměnné) ve statistických modelech, které se pokoušejí vysvětlit pozorovaná data na proměnné odpovědi (často nazývané a závislá proměnná ), pokud jde o vysvětlující proměnné. Teorie vztahující se k takovým modelům podstatně využívá manipulace s maticemi zahrnující konstrukční matici: viz například lineární regrese. Pozoruhodným rysem konceptu designové matice je, že je schopna představovat řadu různých experimentální návrhy a statistické modely, např. ANOVA, ANCOVA, a lineární regrese.[Citace je zapotřebí ]
Definice
Konstrukční matice je definována jako matice takhle (jth sloupec ith řada ) představuje hodnotu jth proměnná spojená s ith objekt.
Regresní model, který je a lineární kombinace vysvětlujících proměnných proto může být reprezentováno pomocí maticového násobení jako
kde X je designová matice, je vektor koeficientů modelu (jeden pro každou proměnnou) a y je vektor predikovaných výstupů pro každý objekt.
Velikost
The matice z data má rozměr n-podle-p, kde n je počet pozorovaných vzorků a p je počet proměnných (funkce ) měřeno ve všech vzorcích.[4][5]
V této reprezentaci různé řádky obvykle představují různá opakování experimentu, zatímco sloupce představují různé typy dat (řekněme výsledky z konkrétních sond). Předpokládejme například, že proběhne experiment, kdy 10 lidí stáhne z ulice a položí jim čtyři otázky. Datová matice M by byla matice 10 × 4 (tj. 10 řádků a 4 sloupce). Datum v řádku i a sloupec j této matice by byla odpovědí i th osoba do j th otázka.
Příklady
Aritmetický průměr
Konstrukční matice pro aritmetický průměr je sloupec vektor jedniček.
Jednoduchá lineární regrese
Tato část uvádí příklad jednoduchá lineární regrese - to znamená regrese pouze s jedinou vysvětlující proměnnou - se sedmi pozorováními. Sedm datových bodů je {yi, Xi}, pro i = 1, 2,…, 7. Jednoduchý lineární regresní model je
kde je y-intercept a je sklon regresní přímky. Tento model může být reprezentován v maticové formě jako
kde první sloupec 1 s v návrhové matici umožňuje odhad y-intercept, zatímco druhý sloupec obsahuje X-hodnoty spojené s odpovídajícími y-hodnoty.
Vícenásobná regrese
Tato část obsahuje příklad vícenásobná regrese se dvěma kovariátami (vysvětlující proměnné): w a XOpět předpokládejme, že data se skládají ze sedmi pozorování a že pro každou pozorovanou hodnotu, kterou lze předpovědět (), hodnoty wi a Xi jsou pozorovány také dvě kovariáty. Uvažovaný model je
Tento model lze napsat v maticových pojmech jako
Zde je matice 7 × 3 na pravé straně konstrukční matice.
Jednosměrná ANOVA (buňka znamená model)
Tato část obsahuje příklad s jednosměrnou analýzou rozptylu (ANOVA ) se třemi skupinami a sedmi pozorováními. Daná sada dat obsahuje první tři pozorování patřící do první skupiny, následující dvě pozorování patřící do druhé skupiny a poslední dvě pozorování patřící do třetí skupiny. Pokud je model, který má být fit, pouze průměrem každé skupiny, pak model je
které lze zapsat
V tomto modelu představuje průměr z th skupina.
Jednosměrná ANOVA (offset od referenční skupiny)
Model ANOVA lze ekvivalentně zapsat jako každý parametr skupiny je kompenzací nějaké celkové reference. Obvykle se tento referenční bod považuje za jednu z uvažovaných skupin. To dává smysl v kontextu porovnávání více léčených skupin s kontrolní skupinou a kontrolní skupina je považována za „referenční“. V tomto příkladu byla jako referenční skupina vybrána skupina 1. Jako takový je model vhodný
s omezením, které je nula.
V tomto modelu je průměr referenční skupiny a je rozdíl od skupiny do referenční skupiny. není zahrnuto v matici, protože jeho rozdíl od referenční skupiny (samotné) je nutně nulový.
Viz také
- Datová matice
- Momentová matice
- Projekční matice
- Jakobiánská matice a determinant
- Bodová matice
- Gramová matice
- Vandermondeova matice
Reference
- ^ Everitt, B. S. (2002). Statistický slovník Cambridge (2. vyd.). Cambridge, Velká Británie: Cambridge University Press. ISBN 0-521-81099-X.
- ^ Box, G. E. P.; Tiao, G. C. (1992) [1973]. Bayesovský závěr ve statistické analýze. New York: John Wiley and Sons. ISBN 0-471-57428-7. (Část 8.1.1)
- ^ Timm, Neil H. (2007). Aplikovaná vícerozměrná analýza. Springer Science & Business Media. p. 107.
- ^ Johnson, Richard A; Wichern, Dean W (2001). Aplikovaná statistická analýza s více proměnnými. Pearson. 111–112. ISBN 0131877151.
- ^ "Základní pojmy pro statistiku s více proměnnými str. 2" (PDF). Institut SAS.
Další čtení
- Verbeek, Albert (1984). Msgstr "Geometrie výběru modelu v regresi". V Dijkstra, Theo K. (ed.). Analýza chybné specifikace. New York: Springer. str. 20–36. ISBN 0-387-13893-5.