Dudák - Bagplot

Příklad dudy vytvořeného v R.

A dudáknebo záblesk hvězd,[1][2] je metoda v robustní statistiky pro vizualizaci dva- nebo trojrozměrné statistické údaje, analogické s jednorozměrnými krabicový graf. Zavedeno v roce 1999 Rousseuw a kol., dudy umožňují vizualizovat polohu, šířit, šikmost, a odlehlé hodnoty souboru dat.[3]

Konstrukce

Dudy se skládají ze tří vnořených mnohoúhelníky, nazývané „taška“, „plot“ a „smyčka“.

  • Vnitřní polygon, nazývaný Taška, je postaven na základě Tukey hloubka, nejmenší počet pozorování, které může obsahovat a polorovina který také obsahuje daný bod.[4] Obsahuje maximálně 50% datových bodů
  • Nejvzdálenější ze tří polygonů, nazývaný plot není nakreslen jako součást dudy, ale slouží k jeho konstrukci. Vzniká nafouknutím vaku určitým faktorem (obvykle 3). Pozorování mimo plot jsou označena jako odlehlé hodnoty.[5]
  • Pozorování, která nejsou označena jako odlehlé hodnoty, jsou obklopena a smyčka, konvexní obal pozorování uvnitř plotu.[6]

Symbol hvězdičky (*) blízko středu grafu se používá k označení mediánu hloubky, bodu s nejvyšší možnou hloubkou Tukey. Pozorování mezi vakem a plotem jsou vyznačena úsečkami na linii do hloubky, která je spojuje s vakem.
Trojrozměrná verze se skládá z vnitřní a vnější tašky.[7] Vnější vak musí být nakreslen průhlednými barvami, aby vnitřní vak zůstal viditelný.

Vlastnosti

Dudy jsou neměnné pod afinní transformace roviny a robustní vůči odlehlým hodnotám.[8]

Reference

  1. ^ Rousseeuw, Peter J .; Ruts I .; Tukey J. W. (1999). "Bagplot: Bivariate Boxplot". Americký statistik. 53 (4): 382–387. doi:10.1080/00031305.1999.10474494.
  2. ^ Ronald K.Pearson (1. dubna 2005). Těžba nedokonalých údajů: Řešení kontaminace a neúplné záznamy. SIAM. str. 204–. ISBN  978-0-89871-582-8.
  3. ^ Dominique Haughton; Jonathan Haughton (18. září 2011). Living Standards Analytics: Development through the Lens of Household Survey Data. Springer. str. 14–. ISBN  978-1-4614-0385-2.
  4. ^ Sophie Dabo-Niang; Frédéric Ferraty (21. května 2008). Funkční a provozní statistiky. Springer. str. 204–. ISBN  978-3-7908-2062-1.
  5. ^ John C. Gower; Sugnet Gardner Lubbe; Niel J. Le Roux (23. února 2011). Pochopení biplotů. John Wiley & Sons. str. 59–. ISBN  978-1-119-97290-7.
  6. ^ Prabhanjan Narayanachar Tattar (24. července 2013). R Statistický vývoj aplikací podle příkladu Průvodce pro začátečníky. Packt Publishing Ltd. str. 203–. ISBN  978-1-84951-945-8.
  7. ^ Kruppa, Jochen J .; Jung K. (2017). „Automatizovaná identifikace odlehlých skupin s více skupinami v datech s vysokou propustností molekul pomocí bagplotů a gemplotů“. BMC bioinformatika. 18: 232. doi:10.1186 / s12859-017-1645-5. PMC  5414140.
  8. ^ Rajeev Raman; Robert Sedgewick; Matthias F. Stallmann (1. ledna 2006). Sborník z osmého workshopu o algoritmickém inženýrství a experimentech a třetího semináře o analytické algoritmice a kombinatorice. SIAM. str. 62–. ISBN  978-0-89871-610-8.