Graf Q – Q - Q–Q plot - Wikipedia




Ve statistikách a Graf Q – Q (kvantil-kvantil) je pravděpodobnostní spiknutí, což je a grafická metoda pro porovnání dvou rozdělení pravděpodobnosti vykreslením jejich kvantily proti sobě.[1] Nejprve je vybrána sada intervalů pro kvantily. Bod (X, y) na grafu odpovídá jednomu z kvantilů druhého rozdělení (y-coordinate) vyneseno proti stejnému kvantilu první distribuce (X-koordinovat). Čára je tedy parametrická křivka s parametrem, kterým je číslo intervalu pro kvantil.
Pokud jsou dvě srovnávaná rozdělení podobná, budou body v grafu Q – Q přibližně ležet na přímce y = X. Pokud jsou distribuce lineárně příbuzné, budou body v grafu Q – Q přibližně ležet na přímce, ale ne nutně na přímce y = X. Grafy Q – Q lze také použít jako grafický prostředek pro odhad parametrů v a rodina v měřítku polohy distribucí.
K porovnání tvarů distribucí se používá graf Q – Q, který poskytuje grafický pohled na to, jak jsou vlastnosti jako umístění, měřítko, a šikmost jsou podobné nebo odlišné ve dvou distribucích. Grafy Q – Q lze použít k porovnání sbírek dat, nebo teoretická rozdělení. Použití grafů Q – Q k porovnání dvou vzorků dat lze považovat za a neparametrické přístup k porovnání jejich podkladových distribucí. Děj Q – Q je obecně výkonnější přístup k tomu, než běžná technika porovnávání histogramy ze dvou vzorků, ale vyžaduje více dovedností k interpretaci. Grafy Q – Q se běžně používají k porovnání datové sady s teoretickým modelem.[2][3] To může poskytnout hodnocení „dobré shody“, které je grafické, spíše než redukcí na číselné shrnutí. Grafy Q – Q se také používají k porovnání dvou teoretických distribucí navzájem.[4] Protože grafy Q – Q porovnávají distribuce, není třeba, aby byly hodnoty sledovány jako páry, jako v a bodový diagram, nebo dokonce pro stejný počet hodnot ve dvou srovnávaných skupinách.
Termín „graf pravděpodobnosti“ někdy odkazuje konkrétně na graf Q – Q, někdy na obecnější třídu grafů a někdy na méně běžně používaný P – P děj. The pravděpodobnostní graf korelační koeficient graf (PPCC plot) je veličina odvozená z myšlenky grafů Q – Q, která měří shodu přizpůsobené distribuce s pozorovanými daty a která se někdy používá jako prostředek přizpůsobení distribuce datům.
Definice a konstrukce

A Graf Q – Q je graf kvantilů dvou distribucí proti sobě nebo graf založený na odhadech kvantilů. Vzor bodů v grafu se používá k porovnání obou distribucí.
Hlavním krokem při konstrukci grafu Q – Q je výpočet nebo odhad kvantilů, které mají být vyneseny. Pokud je jedna nebo obě osy v grafu Q – Q založeny na teoretickém rozdělení s kontinuem kumulativní distribuční funkce (CDF), všechny kvantily jsou jednoznačně definovány a lze je získat převrácením CDF. Pokud je teoretické rozdělení pravděpodobnosti s diskontinuální CDF jednou ze dvou porovnávaných distribucí, některé kvantily nemusí být definovány, takže může být vynesen interpolovaný kvantil. Pokud je Q – Q graf založen na datech, používá se několik kvantilových odhadů. Pravidla pro vytváření grafů Q – Q, kdy musí být kvantily odhadnuty nebo interpolovány, jsou volána vykreslování pozic.
Jednoduchým případem je situace, kdy jeden má dvě datové sady stejné velikosti. V takovém případě k vytvoření grafu Q – Q pořadí každé sady v rostoucím pořadí, poté se páruje a vykreslí odpovídající hodnoty. Složitější konstrukcí je případ, kdy se porovnávají dva soubory dat různých velikostí. Pro konstrukci grafu Q – Q je v tomto případě nutné použít znak interpolované kvantilový odhad tak, aby bylo možné sestrojit kvantily odpovídající stejné základní pravděpodobnosti.
Abstraktněji[4] dané dvě kumulativní funkce rozdělení pravděpodobnosti F a G, s přidruženými kvantilové funkce F−1 a G−1 (inverzní funkce CDF je kvantilová funkce), graf Q – Q nakreslí q-th kvantil F proti q-th kvantil G pro rozsah hodnot q. Graf Q – Q je tedy a parametrická křivka indexováno nad [0,1] s hodnotami ve skutečné rovině R2.
Výklad
Body vykreslené v grafu Q – Q se při pohledu zleva doprava vždy neklesají. Pokud jsou dvě srovnávaná rozdělení stejná, sleduje Q – Q čára 45 ° y = X. Pokud se obě distribuce shodnou po lineární transformaci hodnot v jedné z distribucí, pak graf Q – Q sleduje nějakou linii, ale ne nutně linii y = X. Pokud je obecný trend grafu Q – Q plošší než čára y = X, rozdělení vynesené na vodorovné ose je více rozptýlené než distribuce vynesená na svislé ose. Naopak, pokud je obecný trend grafu Q – Q strmější než přímka y = X, distribuce vynesená na svislé ose je více rozptýlené než distribuce vynesená na vodorovné ose. Grafy Q – Q jsou často obloukovité nebo ve tvaru písmene „S“, což naznačuje, že jedna z distribucí je více zkosená než druhá, nebo že jedna z distribucí má těžší ocasy než druhá.
Přestože je Q – Q graf založen na kvantilech, ve standardním Q – Q grafu není možné určit, který bod v grafu Q – Q určuje daný kvantil. Například není možné určit medián ani jedné ze dvou distribucí, které se porovnávají, inspekcí grafu Q – Q. Některé grafy Q – Q označují decil, aby bylo možné provádět takovéto stanovení.
Intercept a sklon lineární regrese mezi kvantily poskytuje měřítko relativního umístění a relativního měřítka vzorků. Pokud je medián distribuce vynesený na vodorovné ose 0, je průsečík regresní přímky měřítkem polohy a sklon je měřítkem měřítka. Vzdálenost mezi mediány je dalším měřítkem relativního umístění, které se odráží v grafu Q – Q. „korelační koeficient pravděpodobnosti "(PPCC plot) je korelační koeficient mezi spárovanými kvantily vzorku. Čím blíže je korelační koeficient k jedné, tím blíže jsou distribuce k tomu, aby se navzájem posunuly v zmenšené verzi. U distribucí s jediným parametrem tvaru poskytuje graf pravděpodobnostního korelačního koeficientu grafu metodu pro odhad parametru tvaru - jeden jednoduše vypočítá korelační koeficient pro různé hodnoty parametru tvaru a použije ten, který nejlépe vyhovuje, jako by jeden porovnávali distribuce různých typů.
Dalším běžným používáním grafů Q – Q je porovnání distribuce vzorku s teoretickým rozdělením, jako je standard normální distribuce N(0,1), jako v a normální pravděpodobnostní graf. Stejně jako v případě porovnávání dvou vzorků dat si jeden objedná data (formálně vypočítá statistiku objednávky) a poté je zakreslí proti určitým kvantilům teoretického rozdělení.[3]
Pozice vykreslování
Výběr kvantilů z teoretického rozdělení může záviset na kontextu a účelu. Jedna volba, daný vzorek velikosti n, je k / n pro k = 1, …, n, jelikož se jedná o kvantily, které si distribuce vzorkování uvědomuje. Poslední z nich, n / n, odpovídá 100. percentilu - maximální hodnotě teoretického rozdělení, která je někdy nekonečná. Další možností je použití (k − 0.5) / n, nebo místo toho rovnoměrně rozmístit body v jednotném rozdělení pomocí k / (n + 1).[6]
Bylo navrženo mnoho dalších možností, formálních i heuristických, založených na teorii nebo simulacích relevantních v kontextu. Následující podkapitoly pojednávají o některých z nich. Užší otázkou je volba maxima (odhad populačního maxima), známého jako Problém německého tanku, pro které existují podobná řešení „maxima vzorku plus mezera“, nejjednodušší m + m/n - 1. Formálnější uplatnění této uniformizace mezer se vyskytuje v roce odhad maximální vzdálenosti parametrů.
Očekávaná hodnota statistiky objednávky pro rovnoměrné rozdělení
The k / (n + 1) přístup se rovná vykreslování bodů podle pravděpodobnosti, že poslední z (n + 1) náhodně nakreslené hodnoty nepřesáhnou k- nejmenší z prvních n náhodně nakreslené hodnoty.[7][8]
Očekávaná hodnota statistiky objednávky pro standardní normální rozdělení
Při použití a normální pravděpodobnostní graf, kvantily, které jeden používá, jsou hodnosti, kvantil očekávané hodnoty řádové statistiky standardního normálního rozdělení.
Obecněji, Shapiro – Wilkův test používá očekávané hodnoty statistik objednávek dané distribuce; výsledný graf a čára poskytuje zobecněné nejmenší čtverce odhad umístění a rozsahu (z zachytit a sklon namontované linky).[9]I když to není pro normální rozdělení příliš důležité (umístění a měřítko se odhaduje průměrem a směrodatnou odchylkou), může to být užitečné pro mnoho dalších rozdělení.
To však vyžaduje výpočet očekávaných hodnot statistiky objednávky, což může být obtížné, pokud rozdělení není normální.
Medián statistik objednávky
Alternativně lze použít odhady medián statistik objednávek, které lze vypočítat na základě odhadů mediánu statistik objednávek rovnoměrného rozdělení a kvantilové funkce rozdělení; toto navrhl (Filliben 1975 ).[9]
To lze snadno vygenerovat pro jakoukoli distribuci, pro kterou lze vypočítat kvantilovou funkci, ale naopak výsledné odhady polohy a měřítka již nejsou přesně odhady nejmenších čtverců, i když se tyto významně liší pouze pro n malý.
Heuristika
Bylo použito nebo navrženo několik různých vzorců jako afinní symetrický vykreslování pozic. Takové vzorce mají formu (k − A) / (n + 1 − 2A) pro určitou hodnotu A v rozsahu od 0 do 1, což dává rozmezí mezi k / (n + 1) a (k − 1) / (n - 1).
Výrazy zahrnují:
- k / (n + 1)
- (k − 0.3) / (n + 0.4).[10]
- (k − 0.3175) / (n + 0.365).[11][poznámka 1]
- (k − 0.326) / (n + 0.348).[12]
- (k − ⅓) / (n + ⅓).[poznámka 2]
- (k − 0.375) / (n + 0.25).[Poznámka 3]
- (k − 0.4) / (n + 0.2).[13]
- (k − 0.44) / (n + 0.12).[poznámka 4]
- (k − 0.5) / (n).[14]
- (k − 0.567) / (n − 0.134).[15]
- (k − 1) / (n − 1).[poznámka 5]
Pro velkou velikost vzorku n, je mezi těmito různými výrazy malý rozdíl.
Fillibenův odhad
Statistické mediány řádu jsou mediány indexu statistika objednávek distribuce. Ty lze vyjádřit pomocí kvantilové funkce a objednat statistické mediány pro kontinuální rovnoměrné rozdělení podle:
kde U(i) jsou mediánové statistiky statistik jednotného řádu a G je kvantilová funkce pro požadované rozdělení. Kvantilní funkce je inverzní k kumulativní distribuční funkce (pravděpodobnost, že X je menší nebo rovno nějaké hodnotě). To znamená, že vzhledem k pravděpodobnosti chceme odpovídající kvantil kumulativní distribuční funkce.
James J. Filliben (Filliben 1975 ) používá následující odhady pro statistické mediány jednotného řádu:
Důvodem pro tento odhad je, že statistické mediány řádu nemají jednoduchou formu.
Viz také
- Probit analýzu vyvinul Chester Ittner Bliss v roce 1934.
Poznámky
- ^ Všimněte si, že toto také používá jiný výraz pro první a poslední bod. [1] cituje původní dílo (Filliben 1975 ). Tento výraz je odhadem mediány z U(k).
- ^ Jednoduchý (a snadno zapamatovatelný) vzorec pro vykreslování pozic; použito v BMDP statistický balíček.
- ^ Tohle je (Blom 1958 ) Je dřívější aproximace a je výraz použitý v MINITAB.
- ^ Tuto pozici vykreslování použil Irving I. Gringorten (Gringorten (1963) ) vykreslit body v testech pro Gumbelova distribuce.
- ^ Používá Filliben (1975), tyto body vykreslování se rovnají režimy z U(k).
Reference
Citace
- ^ Wilk, M.B .; Gnanadesikan, R. (1968), „Pravděpodobnostní metody vykreslování pro analýzu dat“, Biometrika, Biometrika Trust, 55 (1): 1–17, doi:10.1093 / biomet / 55.1.1, JSTOR 2334448, PMID 5661047.
- ^ Gnanadesikan (1977) str.
- ^ A b (Thode 2002, Oddíl 2.2.2, Kvantil-kvantilní grafy, str. 21 )
- ^ A b (Gibbons & Chakraborti 2003, str. 144 )
- ^ „SR 20 - North Cascades Highway - otevírání a zavírání historie“. Severní kaskády projdou. Washingtonské ministerstvo dopravy. Říjen 2009. Citováno 8. února 2009.
- ^ Weibull, Waloddi (1939), „Statistická teorie pevnosti materiálů“, IVA Handlingar, Královská švédská akademie technických věd (Č. 151)
- ^ Madsen, HO; et al. (1986), Metody konstrukční bezpečnosti
- ^ Makkonen, L. (2008), „Přivedení uzavření kontroverzní polohy vykreslování“, Komunikace ve statistice - teorie a metody (37): 460–467
- ^ A b Testování normality „Henry C. Thode, CRC Press, 2002, ISBN 978-0-8247-9613-6, str. 31
- ^ Benard & Bos-Levenbach (1953) . Vynesení pozorování na papír pravděpodobnosti. Statistica Neederlandica, 7: 163-173. doi:10.1111 / j.1467-9574.1953.tb00821.x. (v holandštině)}
- ^ Příručka inženýrských statistik: Normální pravděpodobnostní graf
- ^ Pozice vykreslování bez distribuce, Yu & Huang
- ^ Cunane (1978) .
- ^ Hazen, Allen (1914), „Uskladnění ve vzdouvacích zásobnících pro zásobování obecní vodou“, Transakce Americké společnosti stavebních inženýrů (Č. 77): 1547–1550
- ^ Larsen, rybíz a lov (1980) .
Zdroje
Tento článek zahrnujepublic domain materiál z Národní institut pro standardy a technologie webová stránka https://www.nist.gov.
- Blom, G. (1958), Statistické odhady a transformované beta proměnné, New York: John Wiley and Sons
- Chambers, John; William Cleveland; Beat Kleiner; Paul Tukey (1983), Grafické metody pro analýzu dat, Wadsworth
- Cleveland, W.S. (1994) Prvky grafických dat, Hobart Press ISBN 0-9634884-1-4
- Filliben, J. J. (únor 1975), „Test korelačního koeficientu pravděpodobnosti spiknutí pro normálnost“, Technometrics, Americká společnost pro kvalitu, 17 (1): 111–117, doi:10.2307/1268008, JSTOR 1268008.
- Gibbons, Jean Dickinson; Chakraborti, Subhabrata (2003), Neparametrický statistický závěr (4. vydání), CRC Press, ISBN 978-0-8247-4052-8
- Gnanadesikan, R. (1977) Metody statistické analýzy vícerozměrných pozorováníWiley ISBN 0-471-30845-5.
- Thode, Henry C. (2002), Testování normality, New York: Marcel Dekker, ISBN 0-8247-9613-6
externí odkazy
- Pravděpodobnostní spiknutí
- Alternativní popis QQ-Plot: http://www.stats.gla.ac.uk/steps/glossary/probability_distribution.html#qqplot