Rozsah interkvartilní - Interquartile range
![]() | tento článek potřebuje další citace pro ověření.Květen 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |

v deskriptivní statistika, Rozsah interkvartilní (IQR), také nazývaný střední, střední 50%nebo H-šíření, je měřítkem statistická disperze, což se rovná rozdílu mezi 75. a 25 percentily, nebo mezi horní a dolní kvartily,[1][2] IQR = Q3 − Q1. Jinými slovy, IQR je první kvartil odečtený od třetího kvartilu; tyto kvartily lze jasně vidět na a krabicový graf na datech. Je to upravený odhad, definováno jako 25% oříznuto rozsah a je běžně používaný robustní měřítko.
IQR je míra variability založená na rozdělení datové sady na kvartily. Kvartily rozdělují seřazenou datovou sadu na čtyři stejné části. Hodnoty, které oddělují části, se nazývají první, druhý a třetí kvartil; a jsou označeny Q1, Q2 a Q3.
Použití
Na rozdíl od celkového rozsah, mezikvartilní rozsah má a bod poruchy 25%,[3] a je proto často upřednostňován před celkovým rozsahem.
IQR se používá k sestavení krabicové grafy, jednoduchá grafická znázornění a rozdělení pravděpodobnosti.
IQR se používá v podnicích jako značka pro jejich příjem sazby.
Pro symetrické rozdělení (kde medián se rovná midhinge, průměr prvního a třetího kvartilu), polovina IQR se rovná střední absolutní odchylka (ŠÍLENÝ).
The medián je odpovídající míra centrální tendence.
IQR lze použít k identifikaci odlehlé hodnoty (vidět níže ).
Kvartilní odchylka nebo semikvartikulární rozsah je definován jako polovina IQR.[4][5]
Algoritmus
IQR sady hodnot se vypočítá jako rozdíl mezi horním a dolním kvartilem Q3 a Q1. Každý kvartil je medián[6] vypočteno následovně.
Vzhledem k sudému 2n nebo zvláštní 2n + 1 počet hodnot
- první kvartil Q1 = medián z n nejmenší hodnoty
- třetí kvartil Q3 = medián z n největší hodnoty[6]
The druhý kvartil Q2 je stejný jako běžný medián.[6]
Příklady
Soubor dat v tabulce
Následující tabulka má 13 řádků a řídí se pravidly pro lichý počet záznamů.
i | x [i] | Medián | Kvartil |
---|---|---|---|
1 | 7 | Q2=87 (medián celé tabulky) | Q1=31 (medián horní poloviny, od 1. do 6. řady) |
2 | 7 | ||
3 | 31 | ||
4 | 31 | ||
5 | 47 | ||
6 | 75 | ||
7 | 87 | ||
8 | 115 | ||
Q3=119 (medián dolní poloviny, od řady 8 do 13) | |||
9 | 116 | ||
10 | 119 | ||
11 | 119 | ||
12 | 155 | ||
13 | 177 |
Pro data v této tabulce je mezikvartilní rozsah IQR = Q3 - Otázka1 = 119 - 31 = 88.
Soubor dat v grafu pole prostého textu
+ −−−−− + - + * | −−−−−−−−−−− | | | −−−−−−−−−−− | + −−−−− + - + + −−− + −−− + −−− + −−− + + −−− + −−− + číselná řada 0 1 2 3 4 5 6 7 8 9 10 11 12
Pro soubor dat v tomto krabicový graf:
- dolní (první) kvartil Q1 = 7
- medián (druhý kvartil) Q2 = 8.5
- horní (třetí) kvartil Q3 = 9
- mezikvartilní rozsah, IQR = Q3 - Q1 = 2
- nižší 1,5 * IQR whisker = Q1 - 1,5 * IQR = 7 - 3 = 4. (Pokud na 4 není žádný datový bod, pak je nejnižší bod větší než 4.)
- horní 1,5 * IQR whisker = Q3 + 1,5 * IQR = 9 + 3 = 12. (Pokud ve 12 není žádný datový bod, pak je nejvyšší bod menší než 12.)
To znamená, že 1,5 * IQR vousy mohou mít nerovnoměrnou délku.
Distribuce
Interkvartilový rozsah spojitého rozdělení lze vypočítat integrací funkce hustoty pravděpodobnosti (což dává kumulativní distribuční funkce —Fungují také jakékoli jiné prostředky pro výpočet CDF). Dolní kvartil, Q1, je takové číslo, které je integrálem PDF od -∞ do Q1 se rovná 0,25, zatímco horní kvartil, Q3, je takové číslo, že integrál od -∞ do Q3 se rovná 0,75; z hlediska CDF lze kvartily definovat takto:
kde CDF−1 je kvantilová funkce.
Níže je uveden mezikvartilový rozsah a medián některých běžných distribucí
Rozdělení | Medián | IQR |
---|---|---|
Normální | μ | 2 Φ−1(0,75) σ ≈ 1,349σ ≈ (27/20) σ |
Laplace | μ | 2b ln (2) ≈ 1,386b |
Cauchy | μ | 2γ |
Test mezikvartilového rozsahu pro normálnost distribuce
IQR, znamenat, a standardní odchylka populace P lze použít v jednoduchém testu, zda P je normálně distribuováno nebo Gaussian. Li P je normálně distribuován, pak standardní skóre prvního kvartilu, z1, je −0,67 a standardní skóre třetího kvartilu, z3, je +0,67. Dáno znamenat = X a standardní odchylka = σ pro P, pokud P je normálně distribuován, první kvartil
a třetí kvartil
Pokud se skutečné hodnoty prvního nebo třetího kvartilu podstatně liší[je zapotřebí objasnění ] z vypočítaných hodnot, P není normálně distribuován. Normální distribuce však může být triviálně narušena, aby si udržela standardní Q1 a Q2. skóre na 0,67 a -0,67 a nelze je normálně distribuovat (takže výše uvedený test by vytvořil falešně pozitivní výsledek). Lepší test normality, jako je Děj Q-Q by zde bylo uvedeno.
Odlehlé hodnoty

Interkvartilní rozsah se často používá k nalezení odlehlé hodnoty v datech. Odlehlé hodnoty zde jsou definovány jako pozorování, která klesnou pod Q1 - 1,5 IQR nebo nad Q3 + 1,5 IQR. V boxplotu je nejvyšší a nejnižší hodnota v tomto limitu označena vousky krabice (často s další lištou na konci vousku) a případné odlehlé hodnoty jako jednotlivé body.
Viz také
Reference
- ^ Upton, Graham; Cook, Ian (1996). Porozumění statistikám. Oxford University Press. p. 55. ISBN 0-19-914391-9.
- ^ Zwillinger, D., Kokoska, S. (2000) Standardní tabulky pravděpodobnosti a statistiky a vzorce a vzorce CRC, CRC Stiskněte. ISBN 1-58488-059-7 strana 18.
- ^ Rousseeuw, Peter J .; Croux, Christophe (1992). Y. Dodge (ed.). „Explicitní stupnice odhadů s vysokým bodem poruchy“ (PDF). Statistická analýza L1 a související metody. Amsterdam: Severní Holandsko. str. 77–92.
- ^ Yule, G. Udny (1911). Úvod do teorie statistiky. Charles Griffin a společnost. str.147 –148.
- ^ Weisstein, Eric W. "Kvartilní odchylka". MathWorld.
- ^ A b C Bertil., Westergren (1988). Příručka k matematice Beta: koncepty, věty, metody, algoritmy, vzorce, grafy, tabulky. Studentská hořkost. p. 348. ISBN 9144250517. OCLC 18454776.
externí odkazy
Média související s Rozsah interkvartilní na Wikimedia Commons