Hlučná data - Noisy data

Hlučná data jsou data, která jsou poškozená, zkreslená nebo mají nízkou hladinu Poměr signálu k šumu. Nesprávné postupy (nebo nesprávně zdokumentované postupy) k odečtení šumu v datech mohou vést k falešnému pocitu přesnosti nebo falešným závěrům.

Data = skutečný signál + šum

Hlučná data jsou data s velkým množstvím dalších nesmyslných informací, která se nazývají šum.[1] To zahrnuje poškození dat a tento termín se často používá jako synonymum pro poškozená data.[1] Zahrnuje také veškerá data, kterým uživatelský systém nedokáže správně porozumět a interpretovat je. Mnoho systémů například nemůže používat unstrukturovaný text. Hlučná data mohou nepříznivě ovlivnit výsledky jakékoli analýzy dat a zkreslit závěry, pokud nebudou správně zpracována. Statistická analýza se někdy používá k odstranění hluku z hlučných dat.[1]

Zdroje hluku

V tomto příkladu odlehlé hodnoty a filtrování je bod t2 odlehlou hodnotou. Plynulý přechod do a z odlehlé hodnoty je z filtrování a také to nejsou platná data, ale více šumu. Prezentace filtrovaných výsledků (vyhlazené přechody) jako skutečných měření může vést k nesprávným závěrům.
Tento typ filtru (a klouzavý průměr ) posune data doprava. The klouzavá průměrná cena v danou dobu se obvykle hodně liší od skutečné ceny v té době.

Rozdíly ve skutečných měřených datech od skutečných hodnot vycházejí z více faktorů ovlivňujících měření.[2]

Náhodný hluk je často velkou složkou šumu v datech.[3] Náhodný šum v signálu se měří jako Poměr signálu k šumu. Náhodný šum obsahuje téměř stejné množství širokého rozsahu frekvencí a je také nazýván bílý šum (jako barvy světla se kombinují bílý). Náhodný hluk je nevyhnutelným problémem. Ovlivňuje procesy sběru a přípravy dat, kde se běžně vyskytují chyby. Hluk má dva hlavní zdroje: chyby způsobené měřicími nástroji a náhodné chyby způsobené zpracováním nebo odborníky při sběru dat.[4]

Nevhodný Filtrování může přidat šum, pokud se s filtrovaným signálem zachází, jako by šlo o přímo měřený signál. Jako příklad, Konvoluce -typ digitální filtry takový klouzavý průměr může mít vedlejší účinky, jako jsou zpoždění nebo zkrácení vrcholů. Rozlišování digitálních filtrů zesilovat náhodný šum v původních datech.

Odlehlá data jsou data, která zřejmě nepatří do datové sady. Může to být způsobeno lidskou chybou, jako je transponování číslic, nesprávné označení, programovací chyby atd. Pokud skutečné odlehlé hodnoty nejsou odstraněny z datové sady, poškozují výsledky v malé nebo velké míře v závislosti na okolnostech. Pokud jsou platná data identifikována jako odlehlá hodnota a jsou omylem odstraněna, dojde také k poškození výsledků.

Podvod: Jednotlivci mohou údaje záměrně zkosit, aby ovlivnili výsledky k požadovanému závěru. Data, která vypadají dobře s několika odlehlými hodnotami, dobře odrážejí jednotlivce, který je shromažďuje, a proto může existovat motivace k odstranění více dat jako odlehlých hodnot nebo k lepšímu vypadání dat.

Reference

  1. ^ A b C „Co jsou to hlučná data? - Definice z WhatIs.com“.
  2. ^ „Hlučná data při těžbě dat - soft computing a inteligentní informační systémy“. sci2s.ugr.es.
  3. ^ R.Y. Wang, V.C. Storey, C.P. Firth, Rámec pro analýzu výzkumu kvality dat, IEEE Transactions on Knowledge and Data Engineering 7 (1995) 623-640 doi: 10,1109 / 69,404034)
  4. ^ X. Zhu, X. Wu, Noise vs. Attribute Noise: A Quantitative Study, Artificial Intelligence Review 22 (2004) 177-210 doi: 10,1007 / s10462-004-0751-8