Soubor dat - Data set
A soubor dat (nebo datová sada) je sbírka data. V případě tabulkových dat odpovídá soubor dat jednomu nebo více databázové tabulky, kde každý sloupec tabulky představuje konkrétní proměnnou a každou z nich řádek odpovídá danému záznamu dané datové sady. Sada dat uvádí hodnoty pro každou z proměnných, jako je výška a hmotnost objektu, pro každého člena sady dat. Každá hodnota je známá jako vztažný bod. Sady dat mohou také sestávat ze sbírky dokumentů nebo souborů.[1]
V otevřená data disciplína, soubor dat je jednotka pro měření informací zveřejněných ve veřejném úložišti otevřených dat. Evropský portál otevřených dat agreguje více než půl milionu datových souborů.[2] V této oblasti byly navrženy další definice,[3] ale v současné době neexistuje oficiální. Některé další problémy (zdroje dat v reálném čase,[4] nerelační datové soubory atd.) zvyšuje obtížnost dosažení konsensu o tom.
Vlastnosti
Strukturu a vlastnosti datové sady definuje několik charakteristik. Patří mezi ně počet a typy atributů nebo proměnných a různé statistická opatření vztahující se na ně, jako např standardní odchylka a špičatost.[5]
Hodnotami mohou být čísla, například reálná čísla nebo celá čísla, například představující výšku osoby v centimetrech, ale může také být nominální údaje (tj. skládající se z numerické hodnoty), například představující etnickou příslušnost člověka. Obecněji platí, že hodnoty mohou být jakéhokoli druhu popsaného jako a úroveň měření. Pro každou proměnnou jsou hodnoty obvykle všechny stejného druhu. Mohou však také existovat chybějící hodnoty, což musí být nějakým způsobem uvedeno.
v statistika, soubory dat obvykle pocházejí ze skutečných pozorování získaných pomocí vzorkování A statistická populace a každý řádek odpovídá pozorování jednoho prvku této populace. Datové soubory mohou být dále generovány algoritmy za účelem testování určitých druhů software. Nějaký moderní software pro statistickou analýzu, jako je SPSS stále prezentují svá data klasickým způsobem. Pokud data chybí nebo jsou podezřelá imputace k dokončení souboru dat lze použít metodu.[6]
Klasické datové sady
Několik klasických datových souborů bylo ve Windows často používáno statistický literatura:
- Soubor údajů o květu kosatce - Vícerozměrný soubor dat zavedený Ronald Fisher (1936).[7]
- MNIST databáze - Obrázky ručně psaných číslic běžně používaných k testování algoritmů klasifikace, shlukování a zpracování obrazu
- Kategorická analýza dat - datové soubory použité v knize, Úvod do kategorické analýzy dat.
- Robustní statistiky - Sady dat používané v systému Windows Robustní regrese a detekce odlehlých hodnot (Rousseeuw a Leroy, 1986). Poskytováno online na univerzitě v Kolíně nad Rýnem.
- Časové řady - údaje použité v Chatfieldově knize, Analýza časových řad, jsou poskytuje on-line StatLib.
- Extrémní hodnoty - údaje použité v knize, Úvod do statistického modelování extrémních hodnot jsou snímek dat, jak je poskytl on-line Stuart Coles, autor knihy.
- Bayesovská analýza dat - Data použitá v knize jsou poskytované on-line podle Andrew Gelman, jeden z autorů knihy.
- The Data jater Bupa - Používá se v několika dokumentech v literatuře o strojovém učení (data mining).
- Anscombovo kvarteto - Malý soubor dat ilustrující důležitost vytváření grafů dat, aby se zabránilo statistickým omylům
Viz také
Reference
- ^ Snijders, C .; Matzat, U .; Reips, U.-D. (2012). "'Big Data ': Velké mezery v oblasti znalostí v oblasti internetu “. International Journal of Internet Science. 7: 1–5.
- ^ „Evropský portál otevřených dat“. Evropský portál otevřených dat. Evropská komise. Citováno 2016-09-23.
- ^ „Definice datové sady - MELODA“. www.meloda.org. Citováno 2016-08-17.
- ^ Atz, U (2014). „Tau dat: nová metrika pro hodnocení aktuálnosti dat v katalozích“ (PDF). Sborník CEDEM 2014. Citováno 2016-08-01.
- ^ Jan M. Żytkow, Jan Rauch (1999). Zásady dolování dat a zjišťování znalostí. ISBN 978-3-540-66490-1.
- ^ Statistická komise OSN; Evropská hospodářská komise OSN (2007). Úpravy statistických údajů: Dopad na kvalitu údajů: Svazek 3 úpravy statistických údajů, Konference evropských statistiků Statistické standardy a studie. Publikace OSN. p. 20. ISBN 978-9211169522. Citováno 19. července 2015.
- ^ Fisher, R.A. (1936). „Použití více měření v taxonomických problémech“ (PDF). Annals of Eugenics. 7 (2): 179–188. doi:10.1111 / j.1469-1809.1936.tb02137.x. hdl:2440/15227.
externí odkazy
- Datahub - komunita spravovaný domov pro otevřené datové sady
- Data.gov - otevřená data vlády USA
- data.world
- GCMD - hlavní adresář globálních změn, který obsahuje více než 20 000 popisů datových souborů a služeb vědy o Zemi a vědy o životním prostředí
- Humanitární výměna dat (HDX) - Humanitární výměna dat (HDX) je otevřený humanitární sdílení dat platforma spravovaná Úřad OSN pro koordinaci humanitárních záležitostí.
- NYC otevřená data - bezplatná veřejná data zveřejněná agenturami New Yorku a dalšími partnery.
- Úložiště relačních dat
- Výzkumný kanál - wiki / web s odkazy na soubory dat o mnoha různých tématech
- Archiv dat StatLib – JASA
- UCI - úložiště strojového učení
- Veřejná data vlády Spojeného království
- Otevřená data Světové banky - Svobodný a otevřený přístup k globálním údajům o vývoji do Světová banka
- Sbírka jednoduchých 2D datových sad