Tento článek je o rozdělení součet čtverců ve statistice. Pro další použití viz
Součet čtverců.
"Varianční rozdělení" zde přesměrovává. Nesmí být zaměňována s
Rozptyl rozkladu.
| tento článek vyžaduje pozornost odborníka na statistiku. Přidejte prosím důvod nebo a mluvit parametr k této šabloně pro vysvětlení problému s článkem. Statistiky WikiProject může pomoci s náborem odborníka. (Listopadu 2008) |
The rozdělení součtů čtverců je koncept, který prostupuje velkou část inferenční statistiky a deskriptivní statistika. Správněji je to rozdělení částek čtvercové odchylky nebo chyby. Matematicky je součet čtverců odchylek měřítkem bez úprav nebo bez úprav disperze (také zvaný variabilita ). Při měřítku podle počtu stupně svobody, odhaduje rozptyl nebo šíření pozorování o jejich průměrné hodnotě. Rozdělení součtu čtverců odchylek na různé komponenty umožňuje, aby byla celková variabilita v datové sadě připsána různým typům nebo zdrojům variability, přičemž relativní důležitost každé z nich byla kvantifikována velikostí každé komponenty celkového součtu čtverců.
Pozadí
Vzdálenost od kteréhokoli bodu ve sběru dat k průměru dat je odchylka. To lze zapsat jako
, kde
je i-tý datový bod a
je odhad průměru. Pokud jsou všechny takové odchylky na druhou, pak sečteny, jako v
, to dává „součet čtverců“ pro tato data.
Když se do kolekce přidá více dat, součet čtverců se zvýší, s výjimkou nepravděpodobných případů, kdy se nová data rovnají střední hodnotě. Součet čtverců tedy obvykle poroste s velikostí sběru dat. To je projevem skutečnosti, že je bez měřítka.
V mnoha případech je počet stupně svobody je jednoduše počet dat ve sbírce, minus jedna. Píšeme to jako n - 1, kde n je počet dat.
Škálování (také známé jako normalizace) znamená upravit součet čtverců tak, aby se nezvětšoval s rostoucí velikostí shromažďování dat. To je důležité, když chceme porovnat vzorky různých velikostí, například vzorek 100 lidí ve srovnání se vzorkem 20 lidí. Pokud by součet čtverců nebyl normalizován, jeho hodnota by byla vždy větší pro vzorek 100 lidí než pro vzorek 20 lidí. Chcete-li měřítko součtu čtverců, vydělíme je stupni volnosti, tj. Vypočítáme součet čtverců na stupeň volnosti nebo rozptyl. Standardní odchylka, je zase druhá odmocnina rozptylu.
Výše uvedené informace ukazují, jak se součet čtverců používá v popisné statistice; viz článek na celkový součet čtverců pro použití této široké zásady na inferenční statistiky.
Rozdělení součtu čtverců v lineární regresi
Teorém. Vzhledem k lineární regresní model
včetně konstanty
, na základě vzorku
obsahující n pozorování, celkový součet čtverců
lze rozdělit do vysvětlil součet čtverců (ESS) a zbytkový součet čtverců (RSS):

kde tato rovnice je ekvivalentní každé z následujících forem:

- kde
je hodnota odhadovaná regresní přímkou
,
, ...,
podle odhadu koeficienty. [1]
Důkaz

To zajišťuje požadavek, aby model obsahoval konstantu nebo ekvivalentně, že návrhová matice obsahuje sloupec jedniček
, tj.
.
Důkaz lze vyjádřit také ve vektorové podobě, a to následovně:

Vyřazení pojmů v posledním řádku využilo skutečnost, že

Další rozdělení
Všimněte si, že zbytkový součet čtverců lze dále rozdělit na nevyhovující součet čtverců plus součet čtverců kvůli čisté chybě.
Viz také
Reference