Anscombesovo kvarteto - Anscombes quartet - Wikipedia

Anscombeovo kvarteto zahrnuje čtyři datové sady které mají téměř identické jednoduché deskriptivní statistika, přesto se velmi liší distribuce a vypadají velmi odlišně, když graficky. Každá datová sada se skládá z jedenácti (X,y) body. Byly postaveny v roce 1973 společností statistik Francis Anscombe demonstrovat jak důležitost grafových dat před jejich analýzou, tak účinek odlehlé hodnoty a další vlivná pozorování o statistických vlastnostech. Popsal článek, jehož cílem je vyvrátit dojem mezi statistiky, že „numerické výpočty jsou přesné, ale grafy hrubé.“[1]
Data
Pro všechny čtyři datové sady:
Vlastnictví | Hodnota | Přesnost |
---|---|---|
Znamenat z X | 9 | přesný |
Vzorek rozptyl z X : sX | 11 | přesný |
Průměr z y | 7.50 | na 2 desetinná místa |
Rozptyl vzorku y : sy | 4.125 | ±0.003 |
Korelace mezi X a y | 0.816 | na 3 desetinná místa |
Lineární regrese čára | y = 3.00 + 0.500X | na 2 a 3 desetinná místa |
Koeficient stanovení lineární regrese: | 0.67 | na 2 desetinná místa |
- První bodový diagram (vlevo nahoře) se zdá být jednoduchý lineární vztah, což odpovídá dvěma proměnné korelovalo, kde y lze modelovat jako gaussian s průměrem lineárně závislým na x.
- Druhý graf (vpravo nahoře) není distribuován normálně; zatímco vztah mezi těmito dvěma proměnnými je zřejmý, není lineární a Pearsonův korelační koeficient není relevantní. Obecnější regrese a odpovídající koeficient stanovení by bylo vhodnější.
- Ve třetím grafu (vlevo dole) je rozdělení lineární, ale mělo by se lišit regresní přímka (A robustní regrese by bylo požadováno). Vypočítaná regrese je kompenzována jednou odlehlý což má dostatečný vliv na snížení korelačního koeficientu z 1 na 0,816.
- Nakonec čtvrtý graf (vpravo dole) ukazuje příklad, když jeden bod s vysokou pákou stačí k vytvoření vysokého korelačního koeficientu, i když ostatní datové body neindikují žádný vztah mezi proměnnými.
Kvarteto se stále často používá k ilustraci důležitosti grafického pohledu na soubor dat před zahájením analýzy podle konkrétního typu vztahu a nedostatečnosti základních statistických vlastností pro popis realistických datových souborů.[2][3][4][5][6]
Datové sady jsou následující. The X hodnoty jsou stejné pro první tři datové sady.[1]
Já | II | III | IV | ||||
---|---|---|---|---|---|---|---|
X | y | X | y | X | y | X | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Není známo, jak Anscombe vytvořil své datové sady.[7] Od jeho vydání bylo vyvinuto několik metod pro generování podobných datových souborů se stejnou statistikou a odlišnou grafikou.[7][8]
Viz také
Reference
- ^ A b Anscombe, F. J. (1973). "Grafy ve statistické analýze". Americký statistik. 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.
- ^ Elert, Glenn. "Lineární regrese". Fyzikální hypertextbook.
- ^ Janert, Philipp K. (2010). Analýza dat pomocí nástrojů s otevřeným zdrojovým kódem. O'Reilly Media. str.65–66. ISBN 0-596-80235-8.
- ^ Chatterjee, Samprit; Hadi, Ali S. (2006). Regresní analýza příkladem. John Wiley and Sons. str. 91. ISBN 0-471-74696-7.
- ^ Saville, David J .; Wood, Graham R. (1991). Statistické metody: Geometrický přístup. Springer. str. 418. ISBN 0-387-97517-9.
- ^ Tufte, Edward R. (2001). Vizuální zobrazení kvantitativních informací (2. vyd.). Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2.
- ^ A b Chatterjee, Sangit; Firat, Aykut (2007). „Generování dat se stejnou statistikou, ale odlišnou grafikou: pokračování datové sady Anscombe“. Americký statistik. 61 (3): 248–254. doi:10.1198 / 000313007X220057. JSTOR 27643902.
- ^ Matejka, Justin; Fitzmaurice, George (2017). "Stejné statistiky, různé grafy: Generování datových sad s různým vzhledem a identickými statistikami prostřednictvím simulovaného žíhání". Sborník příspěvků z konference CHI 2017 o lidských faktorech ve výpočetních systémech: 1290–1294. doi:10.1145/3025453.3025912.
externí odkazy
- Katedra fyziky, University of Toronto
- Dynamický applet vyrobeno v GeoGebra zobrazení dat a statistik a také umožnění přetažení bodů (sada 5).
- Animované příklady od společnosti Autodesk
- Dokumentace pro datové sady v R.