Průzkumná analýza dat - Exploratory data analysis
Část série na Statistika |
Vizualizace dat |
---|
Důležité postavy |
Informační grafické typy |
související témata |
v statistika, průzkumná analýza dat je přístup k analyzovat datové sady shrnout jejich hlavní charakteristiky, často vizuálními metodami. A statistický model lze použít nebo ne, ale primárně EDA slouží k tomu, abychom viděli, co nám data mohou říci nad rámec úlohy formálního modelování nebo testování hypotéz. Průzkumnou analýzu dat podpořil John Tukey povzbudit statistiky ke zkoumání dat a případně formulovat hypotézy, které by mohly vést k novému sběru dat a experimentům. EDA se liší od počáteční analýza dat (IDA),[1] který se užší zaměřuje na kontrolu předpokladů požadovaných pro přizpůsobení modelu a testování hypotéz a zpracování chybějících hodnot a provedení transformací proměnných podle potřeby. EDA zahrnuje IDA.
Přehled
Tukey definoval analýzu dat v roce 1961 jako: „Postupy pro analýzu dat, techniky pro interpretaci výsledků těchto postupů, způsoby plánování shromažďování dat, aby byla jejich analýza snazší, přesnější nebo přesnější, a veškeré mechanismy a výsledky ( matematické) statistiky, které se vztahují na analýzu dat. “[2]
Tukeyovo prosazování EDA podpořilo vývoj statistické výpočty balíčky, zejména S na Bell Labs. The S systém inspiroval programovací jazyk 'S'-PLUS a R. Tato rodina statistických výpočetních prostředí obsahovala výrazně vylepšené možnosti dynamické vizualizace, což statistikům umožnilo identifikovat odlehlé hodnoty, trendy a vzory v datech, která si zaslouží další studium.
EDA společnosti Tukey souvisela s dalšími dvěma vývojem v statistická teorie: robustní statistiky a neparametrické statistiky, oba se pokusili snížit citlivost statistických závěrů na chyby při formulaci statistické modely. Tukey podporoval použití shrnutí pěti čísel číselných dat - ty dva extrémy (maximum a minimální ), medián a kvartily —Protože tyto mediány a kvartily, které jsou funkcí empirické rozdělení jsou definovány pro všechny distribuce, na rozdíl od znamenat a standardní odchylka; navíc jsou kvartily a medián robustnější zkosený nebo těžkopádné distribuce než tradiční souhrny (průměr a směrodatná odchylka). Balíčky S, S-PLUS a R zahrnuté rutiny pomocí statistika převzorkování, jako jsou Quenouille a Tukey's kudla a Efronje bootstrap, které jsou neparametrické a robustní (pro mnoho problémů).
Statistická analýza dat, robustní statistika, neparametrická statistika a vývoj statistických programovacích jazyků usnadnily statistikům práci na vědeckých a technických problémech. Mezi takové problémy patřila výroba polovodičů a porozumění komunikačním sítím, které se týkaly laboratoří Bell. Tento statistický vývoj, který prosazoval Tukey, byl navržen tak, aby doplňoval analytický teorie testování statistických hypotéz, zejména Laplacian důraz na tradici exponenciální rodiny.[3]
Rozvoj

John W. Tukey napsal knihu Průzkumná analýza dat v roce 1977.[4] Tukey rozhodl, že ve statistikách byl kladen příliš velký důraz statistické testování hypotéz (potvrzující analýza dat); je třeba klást větší důraz na používání data navrhovat hypotézy k testování. Zejména se domníval, že může dojít k záměně obou typů analýz a jejich použití na stejné sadě dat systematické zkreslení vzhledem k problémům spojeným s testování hypotéz navržených údaji.
Cíle EDA jsou:
- Navrhněte hypotézy o příčiny pozorovaných jevy
- Posoudit předpoklady, na nichž statistická inference bude založen
- Podporovat výběr vhodných statistických nástrojů a technik
- Poskytněte základ pro další sběr dat prostřednictvím průzkumy nebo experimenty[5]
Bylo přijato mnoho technik EDA dolování dat. Učí je také mladým studentům jako způsob, jak je seznámit se statistickým myšlením.[6]
Techniky a nástroje
Existuje mnoho nástrojů, které jsou pro EDA užitečné, ale EDA se vyznačuje spíše zaujatým přístupem než konkrétními technikami.[7]
Typický grafické techniky používané v EDA jsou:
- Box plot
- Histogram
- Multi-vari graf
- Spustit graf
- Paretův graf
- Bodový diagram
- Kmenový list
- Paralelní souřadnice
- Poměr šancí
- Cílené sledování projekce
- Metody vizualizace založené na glyfech, jako je PhenoPlot[8] a Černoffovy tváře
- Projekční metody, jako je velká prohlídka, prohlídka s průvodcem a manuální prohlídka
- Interaktivní verze těchto grafů
- Vícerozměrné škálování
- Analýza hlavních komponent (PCA)
- Multilineární PCA
- Nelineární redukce rozměrů (NLDR)
Typický kvantitativní techniky jsou:
Dějiny
Mnoho nápadů EDA lze vysledovat až k dřívějším autorům, například:
- Francis Galton zdůrazněno statistika objednávek a kvantily.
- Arthur Lyon Bowley použité prekurzory stemplotu a shrnutí pěti čísel (Bowley ve skutečnosti použil „sedmimístné shrnutí ", včetně extrémů, decilů a kvartily, spolu s mediánem - viz jeho Základní statistický manuál (3. vyd., 1920), s. 62[9]- definuje „maximum a minimum, medián, kvartily a dvě decily“ jako „sedm pozic“).
- Andrew Ehrenberg formuloval filozofii redukce dat (viz jeho stejnojmenná kniha).
The Otevřená univerzita chod Statistika ve společnosti (MDST 242), převzal výše uvedené myšlenky a spojil je s Gottfried Noether práce, která představila statistická inference přes házení mincí a střední test.
Příklad
Nálezy z EDA jsou kolmé na úkol primární analýzy. Pro ilustraci zvažte příklad od Cooka a kol. kde úkolem analýzy je najít proměnné, které nejlépe předpovídají tip, který dá jídelní párty číšníkovi.[10] Proměnné, které jsou k dispozici v datech shromážděných pro tento úkol, jsou: částka spropitného, celková částka, pohlaví plátce, kouření / nekuřácká část, denní doba, den v týdnu a velikost strany. K úloze primární analýzy se přistupuje přizpůsobením regresního modelu, kde je rychlost tipu proměnnou odezvy. Vybavený model je
- (sazba tipu ) = 0,18 - 0,01 × (velikost party)
což říká, že s rostoucí velikostí jídelní strany o jednu osobu (což vede k vyššímu účtu) se sazba tipu sníží o 1%.
Zkoumání dat však odhalí další zajímavé funkce, které tento model nepopisuje.
Histogram částek špiček, kde přihrádky pokrývají přírůstky 1 $. Distribuce hodnot je vychýlená správně a unimodálně, jak je běžné u distribucí malých nezáporných množství.
Histogram částek špiček, kde přihrádky pokrývají přírůstky 0,10 $. Je viditelný zajímavý jev: vrcholy se vyskytují u celých a dolarových částek, což je způsobeno tím, že zákazníci vybírají jako tipy kulatá čísla. Toto chování je společné i pro jiné typy nákupů, například pro benzín.
Scatterplot tipů vs. účet. Body pod řádkem odpovídají tipům, které jsou nižší, než se očekávalo (u této částky faktury), a body nad řádkem jsou vyšší, než se očekávalo. Mohli bychom očekávat, že uvidíme pevnou, pozitivní lineární asociaci, ale místo toho uvidíme variace, která se zvyšuje s množstvím hrotu. Zejména existuje více bodů daleko od čáry vpravo dole než vlevo nahoře, což naznačuje, že více zákazníků je velmi levných než velmi štědrých.
Scatterplot tipů vs. účet odděleny podle pohlaví plátce a stavu sekce kouření. Kouření má mnohem větší variabilitu v tipech, které dávají. Muži mají tendenci platit (několika) vyšším účtům a ženy, které nekouří, bývají velmi konzistentní sklápěči (se třemi nápadnými výjimkami uvedenými ve vzorku).
To, co se naučíme z grafů, se liší od toho, co ilustruje regresní model, i když experiment nebyl navržen tak, aby vyšetřoval některý z těchto dalších trendů. Vzory zjištěné zkoumáním údajů naznačují hypotézy o tipování, které se předem nepředpokládaly, a které by mohly vést k zajímavým následným experimentům, kde jsou hypotézy formálně stanoveny a testovány sbíráním nových údajů.
Software
- JMP, balíček EDA z Institut SAS.
- KNIME, Konstanz Information Miner - platforma pro průzkum dat s otevřeným zdrojovým kódem založená na Eclipse.
- oranžový, an open-source dolování dat a strojové učení softwarová sada.
- Krajta, open-source programovací jazyk široce používaný v dolování dat a strojovém učení.
- R, open-source programovací jazyk pro statistické výpočty a grafiku. Spolu s Pythonem jedním z nejpopulárnějších jazyků pro datovou vědu.
- TinkerPlots software EDA pro studenty vyšších a středních škol.
- Weka balíček pro dolování dat s otevřeným zdrojovým kódem, který zahrnuje vizualizaci a nástroje EDA, jako je cílené sledování projekce.
Viz také
- Anscombeovo kvarteto, o důležitosti průzkumu
- Bagrování dat
- Prediktivní analytika
- Analýza strukturovaných dat (statistika)
- Konfigurační frekvenční analýza
- Deskriptivní statistika
Reference
- ^ Chatfield, C. (1995). Řešení problémů: Průvodce statistikem (2. vyd.). Chapman a Hall. ISBN 978-0412606304.
- ^ John Tukey - Budoucnost analýzy dat - červenec 1961
- ^ Morgenthaler, Stephan; Fernholz, Luisa T. (2000). „Konverzace s Johnem W. Tukeyem a Elizabeth Tukeyovou, Luisou T. Fernholzovou a Stephanem Morgenthalerem“. Statistická věda. 15 (1): 79–94. doi:10,1214 / ss / 1009212675.
- ^ Tukey, John W. (1977). Průzkumná analýza dat. Pearson. ISBN 978-0201076165.
- ^ Behrens-Principy a postupy analýzy průzkumných dat-Americká psychologická asociace-1997
- ^ Konold, C. (1999). "Statistiky chodí do školy". Současná psychologie. 44 (1): 81–82. doi:10.1037/001949.
- ^ Tukey, John W. (1980). „Potřebujeme průzkumné i potvrzující“. Americký statistik. 34 (1): 23–25. doi:10.1080/00031305.1980.10482706.
- ^ Sailem, Heba Z .; Sero, Julia E .; Bakal, Chris (01.01.2015). „Vizualizace celulárních obrazových dat pomocí PhenoPlot“. Příroda komunikace. 6 (1): 5825. doi:10.1038 / ncomms6825. ISSN 2041-1723. PMC 4354266. PMID 25569359.
- ^ Základní příručka statistik (3. vydání, 1920)https://archive.org/details/cu31924013702968/page/n5
- ^ Cook, D. a Swayne, D.F. (s A. Bujou, D. Temple Langem, H. Hofmannem, H. Wickhamem, M. Lawrencem) (2007) „Interaktivní a dynamická grafika pro analýzu dat: s R a GGobi“ Springer, 978-0387717616
Bibliografie
- Andrienko, N & Andrienko, G (2005) Průzkumná analýza prostorových a časových dat. Systematický přístup. Springer. ISBN 3-540-25994-5
- Cook, D. a Swayne, D.F. (s A. Bujou, D. Temple Langem, H. Hofmannem, H. Wickhamem, M. Lawrencem) (12. 12. 2007). Interaktivní a dynamická grafika pro analýzu dat: s R a GGobi. Springer. ISBN 9780387717616.CS1 maint: více jmen: seznam autorů (odkaz)
- Hoaglin, D C; Mosteller, F & Tukey, John Wilder (Eds) (1985). Zkoumání datových tabulek, trendů a tvarů. ISBN 978-0-471-09776-1.CS1 maint: více jmen: seznam autorů (odkaz) CS1 maint: další text: seznam autorů (odkaz)
- Hoaglin, D C; Mosteller, F & Tukey, John Wilder (Eds) (1983). Porozumění důkladné a průzkumné analýze dat. ISBN 978-0-471-09777-8.CS1 maint: více jmen: seznam autorů (odkaz) CS1 maint: další text: seznam autorů (odkaz)
- Inselberg, Alfred (2009). Parallel Coordinates: Visual Multidimensional Geometry and its Applications. London New York: Springer. ISBN 978-0-387-68628-8.
- Leinhardt, G., Leinhardt, S., Průzkumná analýza dat: Nové nástroje pro analýzu empirických dat, Review of Research in Education, Vol. 8, 1980 (1980), s. 85–157.
- Martinez, W. L.; Martinez, A. R. & Solka, J. (2010). Průzkumná analýza dat s MATLABem, druhé vydání. Chapman & Hall / CRC. ISBN 9781439812204.CS1 maint: ref = harv (odkaz)
- Theus, M., Urbanek, S. (2008), Interaktivní grafika pro analýzu dat: Principy a příklady, CRC Press, Boca Raton, FL, ISBN 978-1-58488-594-8
- Tucker, L; MacCallum, R. (1993). Analýza průzkumných faktorů. [1].
- Tukey, John Wilder (1977). Průzkumná analýza dat. Addison-Wesley. ISBN 978-0-201-07616-5.
- Velleman, P. F .; Hoaglin, D. C. (1981). Aplikace, základy a výpočet průzkumné analýzy dat. ISBN 978-0-87150-409-8.CS1 maint: ref = harv (odkaz)
- Young, F. W. Valero-Mora, P. a Friendly M. (2006) Vizuální statistika: Zobrazení dat pomocí dynamické interaktivní grafiky. Wiley ISBN 978-0-471-68160-1
- Jambu M. (1991) Průzkumná a vícerozměrná analýza dat. Akademický tisk ISBN 0123800900
- S. H. C. DuToit, A. G. W. Steyn, R. H. Stumpf (1986) Grafická průzkumná analýza dat. Springer ISBN 978-1-4612-9371-2