Medcouple - Medcouple

Histogram 5000 náhodných hodnot vzorkovaných ze zkosení gama distribuce výše a odpovídající histogram hodnot jádra medcouple níže. Skutečný medcouple je medián spodní distribuce, označený na 0,1888994 žlutou čarou.

v statistika, medcouple je robustní statistika který měří šikmost a jednorozměrná distribuce.^[1] Je definován jako zmenšený mediánový rozdíl levé a pravé poloviny distribuce. Díky své robustnosti je vhodný pro identifikaci odlehlé hodnoty v upravené boxploty.^[2]^[3] Obyčejný krabicové grafy nedopadají dobře se zkosenými distribucemi, protože označují delší nesymetrické ocasy jako odlehlé hodnoty. Pomocí medcouple mohou být whiskery boxplot upraveny pro zkosené distribuce a mají tak přesnější identifikaci odlehlých hodnot pro nesymetrické distribuce.

Jako druh statistika objednávky, medcouple patří do třídy neúplných generalizovaných L-statistiky.^[1] Jako obyčejný medián nebo znamenat, medcouple je a neparametrická statistika, lze jej tedy vypočítat pro jakoukoli distribuci.

Definice

Za účelem harmonizace s nulové indexování v mnoha programovacích jazycích budeme indexovat od nuly ve všem, co následuje.

Nechat ${ displaystyle X: = {x_ {0} geq x_ {1} geq ldots geq x_ {n-1} }}$ být objednaným vzorkem velikosti ${ displaystyle n}$ a nechte ${ displaystyle x_ {m}}$ být medián z ${ displaystyle X}$ . Definujte sady

{ displaystyle X ^ {+}: = {x_ {i} ~ | ~ x_ {i} geq x_ {m} }}

,

{ displaystyle X ^ {-}: = {x_ {j} ~ | ~ x_ {j} leq x_ {m} }}

,

velikostí ${ displaystyle p: = | X ^ {+} |}$ a ${ displaystyle q: = | X ^ {-} |}$ resp. Pro ${ displaystyle x_ {i} ^ {+} v X ^ {+}}$ a ${ displaystyle x_ {j} ^ {-} v X ^ {-}}$ , definujeme funkce jádra

{ displaystyle h (x_ {i} ^ {+}, x_ {j} ^ {-}): = { begin {cases} displaystyle { frac {(x_ {i} ^ {+} - x_ {m }) - (x_ {m} -x_ {j} ^ {-})} {x_ {i} ^ {+} - x_ {j} ^ {-}}} & { text {if}} x_ {i } ^ {+}> x_ {j} ^ {-}, operatorname {signum} (p-1-ij) & { text {if}} x_ {i} ^ {+} = x_ {m} = x_ {j} ^ {-}, end {cases}}}

kde ${ displaystyle operatorname {podpis}}$ je znaková funkce.

The medcouple je pak medián množiny^[1]^:998

{ displaystyle {h (x_ {i} ^ {+}, x_ {j} ^ {-}) ~ | ~ x_ {i} ^ {+} v X ^ {+} { textu {a}} x_ {j} ^ {-} v X ^ {-} }}

.

Jinými slovy, rozdělíme rozdělení na všechny hodnoty větší nebo rovné mediánu a všechny hodnoty menší nebo rovné mediánu. Definujeme funkci jádra, jehož první proměnná je nad ${ displaystyle p}$ větší hodnoty a jejichž druhá proměnná je nad ${ displaystyle q}$ nižší hodnoty. Pro speciální případ hodnot vázaných na medián definujeme jádro pomocí funkce signum. Medcouple je pak mediánem nad všemi ${ displaystyle pq}$ hodnoty ${ displaystyle h (x_ {i} ^ {+}, x_ {j} ^ {-})}$ .

Protože medcouple není medián aplikovaný na všechny ${ displaystyle (x_ {i}, x_ {j})}$ páry, ale pouze pro ty, pro které ${ displaystyle x_ {i} ^ {+} geq x_ {m} geq x_ {j} ^ {-}}$ , patří do třídy neúplných zobecněných L-statistiky.^[1]^:998

Vlastnosti medcouple

Medcouple má řadu žádoucích vlastností. Několik z nich je přímo zděděno z funkce jádra.

Jádro medcouple

O funkci jádra provádíme následující pozorování ${ displaystyle h (x_ {i} ^ {+}, x_ {j} ^ {-})}$ :

Funkce jádra je invariantní k umístění.^[1]^:999 Pokud přidáme nebo odečteme jakoukoli hodnotu ke každému prvku vzorku ${ displaystyle X}$ , odpovídající hodnoty funkce jádra se nemění.
Funkce jádra je neměnná.^[1]^:999 Stejné měřítko všech prvků vzorku ${ displaystyle X}$ nemění hodnoty funkce jádra.

Tyto vlastnosti jsou zase zděděny medcouple. Medcouple je tedy nezávislý na znamenat a standardní odchylka distribuce, žádoucí vlastnost pro měření šikmost.Pro usnadnění výpočtu nám tyto vlastnosti umožňují definovat dvě sady

{ displaystyle Z ^ {+}: = left. left {{ frac {x_ {i} ^ {+} - x_ {m}} {r}} ~ right | ~ x_ {i} ^ { +} v X ^ {+} vpravo }}

{ displaystyle Z ^ {-}: = left. left {{ frac {x_ {j} ^ {-} - x_ {m}} {r}} ~ right | ~ x_ {j} ^ { -} v X ^ {-} vpravo }}

kde ${ displaystyle r = 2 max _ {0 leq i leq n-1} | x_ {i} |}$ . To dělá sadu ${ displaystyle Z: = Z ^ {+} pohár Z ^ {-}}$ mít rozsah maximálně 1, medián 0, a zachovat stejný medcouple jako ${ displaystyle X}$ .

Pro ${ displaystyle Z}$ , jádro medcouple se redukuje na

{ displaystyle h (z_ {i} ^ {+}, z_ {j} ^ {-}): = { begin {cases} displaystyle { frac {z_ {i} ^ {+} + z_ {j} ^ {-}} {z_ {i} ^ {+} - z_ {j} ^ {-}}} & { text {if}} z_ {i} ^ {+}> z_ {j} ^ {-} operatorname {signum} (p-1-ij) & { text {if}} z_ {i} ^ {+} = 0 = z_ {j} ^ {-} end {případů}}}

Používání poslední červené a změněné sady ${ displaystyle Z}$ můžeme pozorovat následující.

Funkce jádra je mezi -1 a 1,^[1]^:998 to je ${ displaystyle | h (z_ {i} ^ {+}, z_ {j} ^ {-}) | leq 1}$ . To vyplývá z nerovnost obráceného trojúhelníku ${ displaystyle | a | - | b | leq | a-b |}$ s ${ displaystyle a = z_ {i} ^ {+}}$ a ${ displaystyle b = z_ {j} ^ {-}}$ a skutečnost, že ${ displaystyle z_ {i} ^ {+} geq 0 geq z_ {j} ^ {-}}$ .
Jádro medcouple ${ displaystyle h (z_ {i} ^ {+}, z_ {j} ^ {-})}$ je neklesající v každé proměnné.^[1]^:1005 To lze ověřit částečnými derivacemi ${ displaystyle { frac { částečné h} { částečné z_ {i} ^ {+}}}}$ a ${ displaystyle { frac { částečné h} { částečné z_ {j} ^ {-}}}}$ , oba nezáporné, protože ${ displaystyle z_ {i} ^ {+} geq 0 geq z_ {j} ^ {-}}$ .

S vlastnostmi 1, 2 a 4 tak můžeme definovat následující matice,

{ displaystyle H: = (h_ {ij}) = (h (z_ {i} ^ {+}, z_ {j} ^ {-})) = { begin {pmatrix} h (z_ {0} ^ { +}, z_ {0} ^ {-}) & cdots & h (z_ {0} ^ {+}, z_ {q-1} ^ {-}) vdots & ddots & vdots h (z_ {p-1} ^ {+}, z_ {0} ^ {-}) & cdots & h (z_ {p-1} ^ {+}, z_ {q-1} ^ {-}) end {pmatrix}}.}

Pokud setřídíme sady ${ displaystyle Z ^ {+}}$ a ${ displaystyle Z ^ {-}}$ v sestupném pořadí pak matice ${ displaystyle H}$ má seřazené řádky a seřazené sloupce,^[1]^:1006

{ displaystyle H = { begin {pmatrix} h (z_ {0} ^ {+}, z_ {0} ^ {-}) & geq & cdots & geq & h (z_ {0} ^ {+} , z_ {q-1} ^ {-}) geq &&&& geq vdots && ddots && vdots geq &&&& geq h (z_ {p-1} ^ {+} , z_ {0} ^ {-}) & geq & cdots & geq & h (z_ {p-1} ^ {+}, z_ {q-1} ^ {-}) end {pmatrix}}. }

Medcouple je pak medián této matice s seřazenými řádky a seřazenými sloupci. Skutečnost, že řádky a sloupce jsou seřazeny, umožňuje implementaci a rychlý algoritmus pro výpočet medcouple.

Robustnost

The bod poruchy je počet hodnot, kterým může statistika odolat, než se stane bezvýznamným, tj. počet libovolně velkých odlehlých hodnot, kterým datová sada ${ displaystyle X}$ může mít, než bude ovlivněna hodnota statistiky. Pro medcouple je bod poruchy 25%, protože se jedná o medián převzatý páry ${ displaystyle (x_ {i}, x_ {j})}$ takhle ${ displaystyle x_ {i} geq x_ {m} geq x_ {j}}$ .^[1]^:1002

Hodnoty

Jako všechna opatření šikmost, medcouple je pozitivní pro distribuce, které jsou zkosené doprava, negativní pro distribuce zkosené doleva, a nula pro symetrické distribuce. Kromě toho jsou hodnoty medcouple omezeny 1 v absolutní hodnotě.^[1]^:998

Algoritmy pro výpočet medcouple

Před představením algoritmů medcouple si uvědomíme, že existují ${ displaystyle O (n)}$ algoritmy pro nalezení mediánu. Protože medcouple je medián, jsou důležité běžné algoritmy pro nalezení mediánu.

Naivní algoritmus

Naivní algoritmus pro výpočet medcouple je pomalý.^[1]^:1005 Postupuje ve dvou krocích. Nejprve vytvoří matici medcouple ${ displaystyle H}$ který obsahuje všechny možné hodnoty jádra medcouple. Ve druhém kroku najde medián této matice. Protože tam jsou ${ displaystyle pq cca { frac {n ^ {2}} {4}}}$ položky v matici v případě, že jsou všechny prvky datové sady ${ displaystyle X}$ jsou jedinečné, algoritmická složitost naivního algoritmu je ${ displaystyle O (n ^ {2})}$ .

Přesněji řečeno, naivní algoritmus probíhá následovně. Připomeňme, že používáme nulové indexování.

funkce naïve_medcouple (vektor X): // X je vektor o velikosti n.        // Řazení v sestupném pořadí lze provádět na místě v čase O (n log n)    sort_decreasing (X) xm: = medián (X) xscale: = 2 * max (abs (X)) // Definujte horní a dolní vystředěné a změněné vektory    // zdědí X vlastní klesající třídění    Zplus: = [(x - xm) / xscale | X v X takhle x> = xm] Zminus: = [(x - xm) / xscale | X v X takhle x <= xm] p: = velikost (Zplus) q: = velikost (Zminus) // Definujte funkci jádra zavírání nad Zplusem a Zminusem    funkce h (i, j): a: = Zplus [i] b: = Zminus [j] -li a == b: vrátit se signum (p - 1 - i - j) jiný:            vrátit se (a + b) / (a - b) endif    koncová funkce        // O (n ^ 2) operace nutné k vytvoření tohoto vektoru    H: = [h (i, j) | i v [0, 1, ..., p - 1] a j v [0, 1, ..., q - 1]] vrátit se medián (H)koncová funkce

Poslední volání medián na vektoru velikosti ${ displaystyle O (n ^ {2})}$ lze provést sám v ${ displaystyle O (n ^ {2})}$ operace, proto je celý naivní algoritmus medcouple stejné složitosti.

Rychlý algoritmus

Rychlý algoritmus překonává naivní algoritmus využíváním tříděné povahy matice medcouple ${ displaystyle H}$ . Místo výpočtu všech záznamů matice používá rychlý algoritmus K.^th párový algoritmus Johnson & Mizoguchi.^[4]

První fáze rychlého algoritmu probíhá jako naivní algoritmus. Nejprve spočítáme potřebné přísady pro matici jádra, ${ displaystyle H = (h_ {ij})}$ s seřazenými řádky a seřazenými sloupci v sestupném pořadí. Spíše než počítat všechny hodnoty ${ displaystyle h_ {ij}}$ místo toho využíváme monotónnost v řádcích a sloupcích pomocí následujících pozorování.

Porovnání hodnoty s maticí jádra

Nejprve si všimneme, že můžeme porovnat libovolné ${ displaystyle u}$ se všemi hodnotami ${ displaystyle h_ {ij}}$ z ${ displaystyle H}$ v ${ displaystyle O (n)}$ čas.^[4]^:150 Například pro určení všech ${ displaystyle i}$ a ${ displaystyle j}$ takhle ${ displaystyle h_ {ij}> u}$ , máme následující funkci:

     funkce větší_h(jádro h, int str, int q, nemovitý u):         // h je funkce jádra, h (i, j) dává i-tý, j-tý záznam H         // p a q je počet řádků a sloupců matice jádra H                  // vektor velikosti p         P := vektor(str)                  // indexování od nuly         j := 0                  // počínaje zdola vypočítat [[supremum | nejmenší horní mez]] pro každý řádek         pro i := str - 1, str - 2, ..., 1, 0:                               // prohledejte tento řádek, dokud nenajdeme hodnotu menší než u             zatímco j < q a h(i, j) > u:                 j := j + 1             nekonečně                          // položka předcházející té, kterou jsme právě našli, je větší než u             P[i] := j - 1         konec                  vrátit se P     koncová funkce

Tento větší_h funkce prochází maticí jádra zleva dole vpravo nahoře a vrací vektor ${ displaystyle P}$ indexů, které označují pro každý řádek, kde hranice leží mezi hodnotami většími než ${ displaystyle u}$ a ti menší nebo rovni ${ displaystyle u}$ . Tato metoda funguje kvůli tříděné vlastnosti řádek-sloupec ${ displaystyle H = (h_ {ij})}$ . Od té doby větší_h počítá nanejvýš ${ displaystyle p + q}$ hodnoty ${ displaystyle h_ {ij}}$ , jeho složitost je ${ displaystyle O (n)}$ .^[4]^:150

Koncepčně výsledek ${ displaystyle P}$ vektor lze vizualizovat jako stanovení hranice na matici, jak navrhuje následující diagram, kde jsou všechny červené položky větší než ${ displaystyle u}$ :

Symetrický algoritmus pro výpočet hodnot ${ displaystyle h_ {ij}}$ méně než ${ displaystyle u}$ je velmi podobný. Místo toho postupuje dál ${ displaystyle H}$ v opačném směru, zprava nahoře dole dole:

     funkce less_h(jádro h, int str, int q, nemovitý u):              // vektor velikosti p         Q := vektor(str)                  // poslední možný index řádků         j := q - 1                  // počínaje od horního rohu spočítáme [[infimum | největší dolní mez]] pro každý řádek         pro i := 0, 1, ..., str - 2, str - 1:                      // prohledejte tento řádek, dokud nenajdeme hodnotu větší než u             zatímco j >= 0 a h(i, j) < u:                 j := j - 1             nekonečně                          // položka následující po té, kterou jsme právě našli, je menší než u             Q[i] := j + 1         konec                  vrátit se Q     koncová funkce

Tuto dolní hranici lze vizualizovat tak, že modré položky jsou menší než ${ displaystyle u}$ :

Pro každého ${ displaystyle i}$ , máme to ${ displaystyle P_ {i} geq Q_ {i}}$ , přičemž k přísné nerovnosti dochází pouze u těch řádků, které mají stejné hodnoty ${ displaystyle u}$ .

Máme také ty částky

{ displaystyle sum _ {i = 0} ^ {p-1} (P_ {i} +1) ~ qquad ~ sum _ {i = 0} ^ {p-1} Q_ {i}}

uveďte počet prvků ${ displaystyle H}$ které jsou větší než ${ displaystyle u}$ a počet prvků, které jsou větší nebo rovny ${ displaystyle u}$ . Tato metoda tedy také poskytuje hodnost z ${ displaystyle u}$ uvnitř prvků ${ displaystyle h_ {ij}}$ z ${ displaystyle H}$ .^[4]^:149

Vážený medián průměrů řádků

Druhým pozorováním je, že můžeme použít seřazenou maticovou strukturu k okamžitému porovnání libovolného prvku s alespoň polovinou položek v matici. Například medián průměrů řádků napříč celou maticí je menší než červený levý horní kvadrant, ale větší než modrý pravý dolní kvadrant:

Obecněji řečeno, s využitím hranic daných ${ displaystyle P}$ a ${ displaystyle Q}$ vektory z předchozí části, můžeme předpokládat, že po několika iteracích jsme určili polohu medcouple tak, aby ležela mezi červenou levou hranicí a modrou pravou hranicí:^[4]^:149

Žluté položky označují medián každého řádku. Pokud mentálně znovu uspořádáme řádky tak, aby se mediány zarovnaly a ignorovaly vyřazené položky mimo hranice,

můžeme vybrat a vážený medián z těchto mediánů, přičemž každý záznam je vážen počtem zbývajících záznamů v tomto řádku. Tím je zajištěno, že můžeme zahodit alespoň 1/4 všech zbývajících hodnot bez ohledu na to, zda musíme zahodit větší hodnoty červeně nebo menší hodnoty modře:

Medián každého řádku lze vypočítat ${ displaystyle O (1)}$ čas, protože řádky jsou seřazeny, a vážený medián lze vypočítat v ${ displaystyle O (n)}$ času pomocí binárního vyhledávání.^[4]^:148

K.^th párový algoritmus

Vizualizace algoritmu rychlého medcouple. Začíná to maticí s seřazenými řádky a seřazenými sloupci, kde jsou tmavší čtverce menší než světlejší čtverce. Při každé iteraci je vybrán vážený medián průměrů řádků, žlutě. Poté se porovná se zbytkem matice, aby se vytvořily červené, horní a modré dolní hranice. Algoritmus poté vybere hranici, o které je známo, že vylučuje medián globální matice, tím, že vezme v úvahu počet položek vyloučených touto hranicí (což je ekvivalentní zvážení pořadí žluté položky). Algoritmus pak pokračuje, dokud žlutý vážený medián řádkových mediánů není přesně medcouple, nebo počet kandidátských záznamů není dostatečně malý, aby provedl výběr mezi zbývajícími položkami.

Spojením těchto dvou pozorování postupuje rychlý algoritmus medcouple zhruba následovně.^[4]^:148

Vypočítejte nezbytné přísady pro funkci jádra medcouple ${ displaystyle h (i, j)}$ s ${ displaystyle p}$ seřazené řádky a ${ displaystyle q}$ seřazené sloupce.
Při každé iteraci aproximujte medcouple s vážený medián mediánů řádků.^[4]^:148
Porovnejte tento předběžný odhad s celou maticí a získáte pravý a levý hraniční vektor ${ displaystyle P}$ $P$ a ${ displaystyle Q}$ $Q$ resp. Součet těchto vektorů nám také dává hodnost tohoto předběžného medcouple.
1. Pokud je hodnost předběžného medcouple přesně ${ displaystyle pq / 2}$ , pak přestaň. Našli jsme medcouple.
2. V opačném případě zahoďte položky větší nebo menší než předběžný odhad výběrem jedné z těchto možností ${ displaystyle P}$ nebo ${ displaystyle Q}$ jako nová pravá nebo levá hranice, podle toho, na které straně je prvek hodnosti ${ displaystyle pq / 2}$ je dovnitř. Tento krok vždy zahodí alespoň 1/4 všech zbývajících položek.
Jakmile je počet kandidátů na medcouples mezi pravou a levou hranicí menší nebo roven ${ displaystyle p}$ , proveďte a výběr pořadí mezi zbývajícími položkami tak, aby hodnost v této menší sadě kandidátů odpovídala ${ displaystyle pq / 2}$ hodnost medcouple v celé matici.

Počáteční třídění za účelem vytvoření ${ displaystyle h (i, j)}$ funkce trvá ${ displaystyle O (n log n)}$ čas. Při každé iteraci se použije vážený medián ${ displaystyle O (n)}$ času, stejně jako výpočty nového pokusu ${ displaystyle P}$ a ${ displaystyle Q}$ levá a pravá hranice. Jelikož každá iterace odhodí alespoň 1/4 všech zbývajících položek, bude jich nanejvýš ${ displaystyle O ( log n)}$ iterace.^[4]^:150 Celý rychlý algoritmus tedy trvá ${ displaystyle O (n log n)}$ čas.^[4]^:150

Pojďme přepracovat rychlý algoritmus podrobněji.

funkce medcouple (vektor X): // X je vektor o velikosti n        // Počítejte počáteční přísady jako pro naivní medcouple    sort_decreasing (X) xm: = medián (X) xscale: = 2 * max (abs (X)) Zplus: = [(x - xm) / xscale | X v X takhle x> = xm] Zminus: = [(x - xm) / xscale | X v X takhle x <= xm] p: = velikost (Zplus) q: = velikost (Zminus) funkce h (i, j): a: = Zplus [i] b: = Zminus [j] -li a == b: vrátit se signum (p - 1 - i - j) jiný:            vrátit se (a + b) / (a - b) endif    koncová funkce        // Zahájení algoritmu párů Kth (Johnson & Mizoguchi)        // Počáteční levé a pravé hranice, dva vektory velikosti p    L: = [0, 0, ..., 0] R: = [q - 1, q - 1, ..., q - 1] // počet záznamů nalevo od levé hranice    Celkem: = 0 // počet záznamů nalevo od pravé hranice    Rtotal: = p * q // Protože indexujeme od nuly, index medcouple je jeden    // menší než jeho hodnost.    medcouple_index: = podlaha (Rtotal / 2) // Iterujte, zatímco počet záznamů mezi hranicemi je    // větší než počet řádků v matici.    zatímco Rtotal - Ltotal> p: // Vypočítat střední řádky a jejich přidružené váhy, ale přeskočit        // všechny řádky, které jsou již prázdné.        middle_idx: = [i | i v [0, 1, ..., p - 1] takový že L [i] <= R [i]] row_medians: = [h (i, podlaha ((L [i] + R [i]) / 2) | i v middle_idx] váhy: = [R [i] - L [i] + 1 | i v middle_idx] WM: = vážený medián (row_medians, váhy) // Nové předběžné pravé a levé hranice        P: = větší_h (h, p, q, WM) Q: = less_h (h, p, q, WM) Ptotal: = součet (P) + velikost (P) Qcelkem: = součet (Q) // Určete, které položky chcete zahodit, nebo zda jsme našli medcouple        -li medcouple_index <= Ptotal - 1: R: = P Rtotal: = Ptotal jiný:            -li medcouple_index> Qtotal - 1: L: = Q Ltotal: = Qtotal jiný: // Nalezeno medcouple, pozice váženého mediánu se rovná indexu medcouple vrátit se WM endif        endif       nekonečně        // Nenašel jsem medcouple, ale zbývá jen velmi málo nezávazných záznamů: = [h (i, j) | i v [0, 1, ..., p - 1], j v [L [i], L [i] + 1, ..., R [i]] takový že L [i] <= R [i]] // Vyberte medcouple podle pořadí mezi zbývajícími položkami    medcouple: = select_nth (zbývající, medcouple_index - Ltotal) vrátit se medcouplekoncová funkce

Při použití v reálném světě musí algoritmus také počítat s chybami vyplývajícími z konečné přesnosti aritmetika s plovoucí desetinnou čárkou. Například srovnání funkce jádra medcouple by mělo být provedeno uvnitř stroj epsilon, stejně jako srovnání objednávek v the větší_h a less_h funkce.

Software / zdrojový kód

Algoritmus rychlého medcouple je implementován v R je balíček robustbase.
Algoritmus rychlého medcouple je implementován v rozšíření C pro Python v Balíček Robustats Python.
GPL C ++ provádění rychlý algoritmus, odvozené od implementace R.
A Stata provádění rychlý algoritmus.
Implementace naivní algoritmus v Matlab (a tedy GNU oktáva ).
Naivní algoritmus je implementován také pro Krajta balík statsmodels.

Viz také

Reference

^ ^A ^b ^C ^d ^E ^F ^G ^h ⁱ ^j ^k ^l Brys, G .; Hubert, M.; Struyf, A. (listopad 2004). "Robustní míra šikmosti". Journal of Computational and Graphical Statistics. 13 (4): 996–1017. doi:10.1198 / 106186004X12632. PAN 2425170.
^ Hubert, M .; Vandervieren, E. (2008). Msgstr "Upravený boxplot pro šikmé distribuce". Výpočetní statistika a analýza dat. 52 (12): 5186–5201. doi:10.1016 / j.csda.2007.11.008. PAN 2526585.
^ Pearson, Ron (6. února 2011). „Boxplots and Beyond - Part II: Asymetry“. ExploringDataBlog. Citováno 6. dubna 2015.
^ ^A ^b ^C ^d ^E ^F ^G ^h ⁱ ^j Johnson, Donald B.; Mizoguchi, Tetsuo (květen 1978). "Výběr $K.$ ^th prvek v $X + Y$ a $X 1 + X 2 +...+ X m$ ". SIAM Journal on Computing. 7 (2): 147–153. doi:10.1137/0207013. PAN 0502214.

[Brys2004-1] A ^b ^C ^d ^E ^F ^G ^h ⁱ ^j ^k ^l Brys, G .; Hubert, M.; Struyf, A. (listopad 2004). "Robustní míra šikmosti". Journal of Computational and Graphical Statistics. 13 (4): 996–1017. doi:10.1198 / 106186004X12632. PAN 2425170.

[Hubert2008-2] Hubert, M .; Vandervieren, E. (2008). Msgstr "Upravený boxplot pro šikmé distribuce". Výpočetní statistika a analýza dat. 52 (12): 5186–5201. doi:10.1016 / j.csda.2007.11.008. PAN 2526585.

[Pearson2011-3] Pearson, Ron (6. února 2011). „Boxplots and Beyond - Part II: Asymetry“. ExploringDataBlog. Citováno 6. dubna 2015.

[JohnsonMizoguchi-4] A ^b ^C ^d ^E ^F ^G ^h ⁱ ^j Johnson, Donald B.; Mizoguchi, Tetsuo (květen 1978). "Výběr $K.$ ^th prvek v $X + Y$ a $X 1 + X 2 +...+ X m$ ". SIAM Journal on Computing. 7 (2): 147–153. doi:10.1137/0207013. PAN 0502214.

[1]

[2]

[3]

[4]