Integrace webových dat - Web data integration - Wikipedia
Integrace webových dat (WDI) je proces agregace a správy dat z různých webů do jednoho homogenního pracovního toku. Tento proces zahrnuje přístup k datům, transformaci, mapování, zajištění kvality a fúzi dat. Data získávaná a strukturovaná z webových stránek se označují jako „webová data ". WDI je rozšíření a specializace integrace dat který prohlíží web jako sbírku heterogenních databází.
Techniky integrace dat v kontextu webu tvoří základ pro podniky, které využívají výhod dat dostupných na stále rostoucím počtu veřejně přístupných webových stránek.[1] Firemní výdaje v této oblasti dosáhly v roce 2017 zhruba 2,5 miliardy USD a očekává se, že do roku 2020 dosáhne trh téměř 7 miliard USD.[2]
Zdroje
Integrace dat na webu rozšiřuje a specializuje integraci dat, aby web viděl jako kolekci zobrazení databází přístupných přes webové protokoly, mimo jiné včetně:[3]
- Otevřete datové katalogy
- Vládní datové katalogy
- Webové aplikace a weby
- UI (škrábání webu )
- API
- Sémantický web (SPARQL)
- Vložená strukturovaná data HTML
- Datové tabulky HTML
- Tabulky
- Soubory PDF
- Online encyklopedie
Přístup a transformace dat
WDI má technické problémy odlišné od integrace dat kvůli přístupu k datům a transformaci požadované pro webová data zdroje jsou často nestrukturovaný nebo polostrukturovaný data bez standardního mechanismu dotazu.
Kvalita dat
Pochopení kvality a věrohodnosti dat je ve WDI ještě důležitější než v integraci dat, protože data jsou obecně méně implicitně důvěryhodná a nižší kvality než ta, která jsou shromažďována z důvěryhodného zdroje. Existují pokusy o pokus o automatizaci hodnocení důvěryhodnosti pro webová data.[4]
Ke kvalitě dat v integraci dat může obvykle dojít po přístupu k datům a transformaci, ale ve WDI kvalitě může být nutné sledovat, jak jsou data shromažďována, a to jak z důvodu času, tak nákladů na opětovné shromažďování dat.
Aplikace
WDI má uplatnění v mnoha oblastech, včetně bioinformatiky,[5] vyhledávače,[6] porovnání cen,[7] a forenzní vyhledávání[8] analýza dat, business intelligence, zdravotnictví, farmacie[9] a vývoj produktů.
Většina motorů pro porovnávání cen a systémy doporučení používají data generovaná uživateli k vytváření doporučení pro uživatele. Podobně systémy zdravotní péče využívají výsledky soutěží prováděných na webových stránkách, jako je Kaggle[10] vidět přesnost dat a vytvářet produkty zaměřené na uživatele. IBM ve skutečnosti odhaduje, že nekvalitní WDI stojí společnosti více než 3 biliony dolarů[11] v příjmech každý rok.
Reference
- ^ „Integrace webových dat IE 670“. www.uni-mannheim.de. 2019-01-24. Citováno 2019-02-11.
- ^ „Opimas: Trh s extrakcí dat z webu“. Opimas: Začínáme s porozuměním. Citováno 2019-02-12.
- ^ "Úvod :: Integrace webových dat". www.webdataintegration.io. Citováno 2019-02-14.
- ^ Giménez-García, José M .; Thakkar, drsný; Zimmermann, Antoine (2016). "Hodnocení důvěryhodnosti pomocí PageRank ve webu dat". In Sack, Harald; Rizzo, Giuseppe; Steinmetz, Nadine; Mladenić, Dunja; Auer, Sören; Lange, Christoph (eds.). Sémantický web. Přednášky z informatiky. 9989. Springer International Publishing. str. 293–307. doi:10.1007/978-3-319-47602-5_45. ISBN 9783319476025.
- ^ „Integrace webových dat“. Databázová skupina Lipsko.
- ^ „Integrace dat ve webovém měřítku - platit můžete pouze za pochodu“. www.datascienceassn.org. Citováno 2019-02-12.
- ^ Siegel, Michael D .; Madnick, Stuart E .; Zhu, Hongwei (2008). „Povolení globálního srovnání cen prostřednictvím sémantické integrace webových dat“. International Journal of Electronic Business. 6 (4): 319. doi:10.1504 / IJEB.2008.020672. hdl:1721.1/40084. S2CID 7995576. Citováno 2019-02-12.
- ^ „PwC kupuje start-up detekce podvodů v Kusiri v Londýně“. www.consultancy.uk. 2015-10-30. Citováno 2019-02-12.
- ^ „Jak integrace dat vylepšuje zdravotnictví a farmacii“. Informace o integraci dat. 2020-04-27. Citováno 2020-05-04.
- ^ „Kaggle: Vaše komunita strojového učení a datové vědy“. www.kaggle.com. Citováno 2020-05-04.
- ^ Import.io. „Integrace webových dat: revoluce ve způsobu, jakým pracujete s webovými daty“. www.import.io. Citováno 2020-05-04.