Univariate (statistika) - Univariate (statistics)
Univariate je termín běžně používaný ve statistikách k popisu typu dat, který se skládá z pozorování pouze u jedné charakteristiky nebo atributu. Jednoduchým příkladem jednorozměrných údajů by byly platy pracovníků v průmyslu.[1] Stejně jako všechna ostatní data lze i jednorozměrná data vizualizovat pomocí grafů, obrázků nebo jiných analytických nástrojů poté, co jsou data změřena, shromážděna, nahlášena a analyzována.[2]
Jednorozměrné datové typy
Některá jednorozměrná data se skládají z čísel (například výška 65 palců nebo váha 100 liber), zatímco jiná jsou nečíselná (například barvy očí hnědé nebo modré). Obecně platí, že podmínky kategorický jednorozměrné údaje a numerické k rozlišení mezi těmito typy se používají jednorozměrná data.
Kategorická jednorozměrná data
Kategorická jednorozměrná data se skládají z nečíselných údajů pozorování které lze zařadit do kategorií. Zahrnuje štítky nebo názvy používané k identifikaci atributu každého prvku. Kategorická jednorozměrná data obvykle používají buď nominální nebo pořadové číslo měřítko měření.[3]
Numerická jednorozměrná data
Numerická jednorozměrná data sestávají z pozorování, která jsou čísly. Získávají se pomocí buď interval nebo poměr měřítko měření. Tento typ jednorozměrných dat lze ještě dále rozdělit do dvou podkategorií: oddělený a kontinuální.[4] Numerická jednorozměrná data jsou diskrétní, pokud je sada všech možných hodnot konečný nebo spočetně nekonečný. Diskrétní jednorozměrná data jsou obvykle spojena s počítáním (například počet knih přečtených osobou). Číselná jednorozměrná data jsou spojitá, pokud je množina všech možných hodnot intervalem čísel. Kontinuální jednorozměrná data jsou obvykle spojena s měřením (např. Váhy lidí).
Analýza dat a aplikace
Jednorozměrná analýza je nejjednodušší formou analýzy dat. Uni prostředek jedenjinými slovy, data mají pouze jednu proměnnou.[5] Jednorozměrná data vyžadují analýzu každého z nich proměnná odděleně. Data jsou shromažďována za účelem zodpovězení otázky, konkrétněji výzkumné otázky. Univariate data neodpovídají na výzkumné otázky týkající se vztahů mezi proměnnými, ale spíše se používají k popisu jedné charakteristiky nebo atributu, který se liší od pozorování k pozorování.[6] Výzkumník může obvykle hledat dva účely. Prvním z nich je odpovědět na výzkumnou otázku popisným studiem a druhým je získat znalosti o tom, jak atribut se mění s individuálním účinkem proměnné v Regresní analýza. Existuje několik způsobů, jak popsat vzory nalezené v jednorozměrných datech, které zahrnují grafické metody, míry centrální tendence a míry variability.[7]
Grafické metody
Nejčastěji používané grafické ilustrace pro jednorozměrná data jsou:
Tabulky distribuce frekvence
Frekvence udává, kolikrát se číslo vyskytuje. Frekvence pozorování ve statistikách nám říká, kolikrát se pozorování v datech vyskytlo. Například v následujícím seznamu čísel {1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9}, frekvence čísla 9 je 5 (protože se vyskytuje 5krát).
Sloupcové grafy
![](http://upload.wikimedia.org/wikipedia/commons/thumb/e/e3/Barplot.jpg/220px-Barplot.jpg)
Sloupcový graf je a graf skládající se z obdélníkový pruhy. Tam pruhy vlastně představují číslo nebo procento pozorování existujících kategorií v proměnné. The délka nebo výška pruhů poskytuje vizuální znázornění proporcionálních rozdílů mezi kategoriemi.
Histogramy
![](http://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Histarman2.jpg/220px-Histarman2.jpg)
Histogramy se používají k odhadu distribuce dat s frekvencí hodnot přiřazených k hodnotovému rozsahu zvanému a zásobník.[8]
Výsečové grafy
Výsečový graf je kruh rozdělený na části, které představují relativní frekvence nebo procenta populace nebo vzorku patřícího do různých kategorií.
Opatření centrální tendence
Centrální tendence je jednou z nejběžnějších numerických deskriptivních měr. Používá se k odhadu centrální polohy jednorozměrných dat výpočtem znamenat, medián a režimu.[9] Každý z těchto výpočtů má své vlastní výhody a omezení. Průměr má tu výhodu, že jeho výpočet zahrnuje každou hodnotu souboru dat, ale je obzvláště citlivý na vliv odlehlé hodnoty. Medián je lepším měřítkem, pokud soubor dat obsahuje odlehlé hodnoty. Režim je snadno vyhledatelný. Důležité je, že se neomezuje pouze na použití jednoho z těchto ukazatelů centrální tendence. Pokud jsou analyzovaná data kategorická, pak jediným měřítkem centrální tendence, které lze použít, je režim. Pokud však mají data číselnou povahu (pořadové číslo nebo interval /poměr ) pak lze k popisu dat použít režim, medián nebo průměr. Použití více než jednoho z těchto opatření poskytuje přesnější popisné shrnutí centrální tendence k univariate.[10]
Míry variability
Míra variabilita nebo disperze (odchylka od průměru) univariate datové sady může lépe odhalit tvar univariate distribuce dat. Poskytne některé informace o odchylkách mezi hodnotami dat. Míry variability spolu s opatřeními centrální tendence poskytují lepší obraz dat než samotné míry centrální tendence.[11] Tři nejčastěji používané míry variability jsou rozsah, rozptyl a standardní odchylka.[12] Vhodnost každého opatření by závisela na typu dat, tvaru distribuce dat a na tom, jaké měřítko centrální tendence se používá. Pokud jsou data kategorická, není možné vykazovat žádné údaje o variabilitě. U číselných údajů jsou možné všechny tři míry. Pokud je distribuce dat symetrická, pak měřítkem variability jsou obvykle rozptyl a směrodatná odchylka. Pokud jsou však data zkosený, pak měřítkem variability, které by bylo vhodné pro daný soubor dat, je rozsah.[13]
Jednorozměrné distribuce
Jednorozměrná distribuce je typ rozptýlení jedné náhodné proměnné popsané buď pomocí a funkce pravděpodobnostní hmotnosti (pmf) pro diskrétní rozdělení pravděpodobnosti nebo funkce hustoty pravděpodobnosti (pdf) pro spojité rozdělení pravděpodobnosti.[14] Nesmí být zaměňována s vícerozměrná distribuce.
Společné diskrétní distribuce
Rovnoměrné rozdělení (diskrétní)
Bernoulliho distribuce
Binomická distribuce
Geometrické rozdělení
Negativní binomické rozdělení
Poissonovo rozdělení
Hypergeometrická distribuce
Distribuce Zeta
Společné spojité distribuce
Rovnoměrné rozdělení (kontinuální)
Normální distribuce
Distribuce gama
Exponenciální rozdělení
Weibullova distribuce
Cauchyovo rozdělení
Distribuce beta
Viz také
- Univariate
- Jednorozměrná analýza
- Jednorozměrná distribuce
- Bivariační analýza
- Vícerozměrná analýza
- Seznam rozdělení pravděpodobnosti
Reference
- ^ Kachigan, Sam Kash (1986). Statistická analýza: interdisciplinární úvod do univariantních a multivariačních metod. New York: Radius Press. ISBN 0-942154-99-1.
- ^ Lacke, Prem S. Mann; s pomocí Christophera Jaye (2010). Úvodní statistika (7. vydání). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5.
- ^ Anderson, David R .; Sweeney, Dennis J .; Williams, Thomas A. Statistiky pro podnikání a ekonomiku (Desáté vydání). Cengage Learning. p. 1018. ISBN 978-0-324-80926-8.
- ^ Lacke, Prem S. Mann; s pomocí Christophera Jaye (2010). Úvodní statistika (7. vydání). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5.
- ^ „Jednorozměrná analýza“. stathow.
- ^ „Univariate Data“. study.com.
- ^ Trochim, William. "Deskriptivní statistika". Webové centrum pro metody sociálního výzkumu. Citováno 15. února 2017.
- ^ Diez, David M .; Barr, Christopher D .; Çetinkaya-Rundel, Mine (2015). Statistiky OpenIntro (3. vyd.). OpenIntro, Inc. str. 30. ISBN 978-1-9434-5003-9.
- ^ Stepanski, Norm O'Rourke, Larry Hatcher, Edward J. (2005). Podrobný přístup k použití SAS pro univariate a multivariate statistiky (2. vyd.). New York: Wiley-Interscience. ISBN 1-59047-417-1.
- ^ Longnecker, R. Lyman Ott, Michael (2009). Úvod do statistických metod a analýzy dat (6. vydání, mezinárodní vydání). Pacific Grove, Kalifornie: Brooks / Cole. ISBN 978-0-495-10914-3.
- ^ Meloun, Milán; Militky, Jiří (2011). Statistická analýza dat Praktický průvodce. Nové Dillí: Woodhead Pub Ltd. ISBN 978-0-85709-109-3.
- ^ Purves, David Freedman; Robert Pisani; Roger (2007). Statistika (4. vyd.). New York [USA]: Norton. ISBN 0-393-92972-8.
- ^ Anderson, David R .; Sweeney, Dennis J .; Williams, Thomas A. Statistiky pro podnikání a ekonomiku (Desáté vydání). Cengage Learning. p. 1018. ISBN 978-0-324-80926-8.
- ^ Samaniego, Francisco J. (2014). Stochastické modelování a matematická statistika: text pro statistiky a kvantitativní vědce. Boca Raton: CRC Press. p. 167. ISBN 978-1-4665-6046-8.