Hlučná data - Noisy data
Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
Hlučná data jsou data, která jsou poškozená, zkreslená nebo mají nízkou hladinu Poměr signálu k šumu. Nesprávné postupy (nebo nesprávně zdokumentované postupy) k odečtení šumu v datech mohou vést k falešnému pocitu přesnosti nebo falešným závěrům.
Data = skutečný signál + šum
Hlučná data jsou data s velkým množstvím dalších nesmyslných informací, která se nazývají šum.[1] To zahrnuje poškození dat a tento termín se často používá jako synonymum pro poškozená data.[1] Zahrnuje také veškerá data, kterým uživatelský systém nedokáže správně porozumět a interpretovat je. Mnoho systémů například nemůže používat unstrukturovaný text. Hlučná data mohou nepříznivě ovlivnit výsledky jakékoli analýzy dat a zkreslit závěry, pokud nebudou správně zpracována. Statistická analýza se někdy používá k odstranění hluku z hlučných dat.[1]
Zdroje hluku
Rozdíly ve skutečných měřených datech od skutečných hodnot vycházejí z více faktorů ovlivňujících měření.[2]
Náhodný hluk je často velkou složkou šumu v datech.[3] Náhodný šum v signálu se měří jako Poměr signálu k šumu. Náhodný šum obsahuje téměř stejné množství širokého rozsahu frekvencí a je také nazýván bílý šum (jako barvy světla se kombinují bílý). Náhodný hluk je nevyhnutelným problémem. Ovlivňuje procesy sběru a přípravy dat, kde se běžně vyskytují chyby. Hluk má dva hlavní zdroje: chyby způsobené měřicími nástroji a náhodné chyby způsobené zpracováním nebo odborníky při sběru dat.[4]
Nevhodný Filtrování může přidat šum, pokud se s filtrovaným signálem zachází, jako by šlo o přímo měřený signál. Jako příklad, Konvoluce -typ digitální filtry takový klouzavý průměr může mít vedlejší účinky, jako jsou zpoždění nebo zkrácení vrcholů. Rozlišování digitálních filtrů zesilovat náhodný šum v původních datech.
Odlehlá data jsou data, která zřejmě nepatří do datové sady. Může to být způsobeno lidskou chybou, jako je transponování číslic, nesprávné označení, programovací chyby atd. Pokud skutečné odlehlé hodnoty nejsou odstraněny z datové sady, poškozují výsledky v malé nebo velké míře v závislosti na okolnostech. Pokud jsou platná data identifikována jako odlehlá hodnota a jsou omylem odstraněna, dojde také k poškození výsledků.
Podvod: Jednotlivci mohou údaje záměrně zkosit, aby ovlivnili výsledky k požadovanému závěru. Data, která vypadají dobře s několika odlehlými hodnotami, dobře odrážejí jednotlivce, který je shromažďuje, a proto může existovat motivace k odstranění více dat jako odlehlých hodnot nebo k lepšímu vypadání dat.
Reference
- ^ A b C „Co jsou to hlučná data? - Definice z WhatIs.com“.
- ^ „Hlučná data při těžbě dat - soft computing a inteligentní informační systémy“. sci2s.ugr.es.
- ^ R.Y. Wang, V.C. Storey, C.P. Firth, Rámec pro analýzu výzkumu kvality dat, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10,1109 / 69,404034)
- ^ X. Zhu, X. Wu, Noise vs. Attribute Noise: A Quantitative Study, Artificial Intelligence Review 22 (2004) 177-210 doi: 10,1007 / s10462-004-0751-8