Kurátor dat - Data curation
Kurátor dat je organizace a integrace data shromážděny z různých zdrojů. Zahrnuje anotaci, publikaci a prezentaci dat tak, aby se hodnota dat v průběhu času udržovala a data zůstala k dispozici pro opětovné použití a uchování. Data curation zahrnuje „všechny procesy potřebné pro principiální a řízená data tvorba, údržba a řízení, spolu s kapacitou přidávat hodnotu údajům ".[1] Ve vědě může kurátor dat naznačovat, že proces extrakce důležitých informací z vědeckých textů, jako jsou vědecké články odborníků, má být převeden do elektronického formátu, jako je například záznam biologická databáze.[2]
V moderní době velká data, kurátor údajů se stal výraznějším, zejména pro software zpracování velkoobjemových a složitých datových systémů.[3] Termín je také používán v historických příležitostech a humanitních vědách,[4] kde se zvyšuje kulturní a vědecká data z digitální humanitní vědy projekty vyžadují odborné znalosti a analytické postupy při správě dat.[5] Stručně řečeno, kurátorství znamená řadu činností a procesů prováděných za účelem vytváření, správy, údržby a ověřit A komponent.[6] Kurátor dat je konkrétně pokusem určit, jaké informace stojí za uložení a na jak dlouho.[7]
Historie a praxe
The uživatel, spíše než samotná databáze, obvykle iniciuje správu dat a udržuje metadata.[8] Podle University of Illinois „Graduate School of Library and Information Science,„ Data curation is the active and on-running management of data through its lifecycle of interest and užitočné pro stipendium, science, and education; curation activities allow data discovery and retrieval, keep quality, add value , a zajistit opakované použití v průběhu času. “[9] Pracovní postup s kurací dat se liší od kvalita dat řízení, ochrana dat, správa životního cyklu a pohyb dat.[8]
Údaje o sčítání lidu jsou k dispozici ve formě děrných štítků v tabulkách od počátku 20. století a od 60. let jsou elektronické.[10] The Mezuniverzitní konsorcium pro politický a sociální výzkum (ICPSR) webové stránky označují rok 1962 jako datum jejich prvního archivu údajů o průzkumu.[11]
Hluboké pozadí v datových knihovnách se objevilo v čísle časopisu Illinois z roku 1982, Trendy knihovny.[12] Historické pozadí pohybu datového archivu najdete v dokumentu „Společenské vědecké informace pro numerická data: Vývoj mezinárodní infrastruktury datových archivů“.[13] Přesný kurátorský proces prováděný v rámci jakékoli organizace závisí na objemu dat, množství šumu, který data obsahují, a co pro jejich šíření znamená očekávané budoucí využití dat.[3]
Krize v kosmických datech vedla k vytvoření Otevřený archivační informační systém (OAIS) Modelka,[14] správcem Poradní výbor pro vesmírné datové systémy (CCSDS), která byla založena v roce 1982.[15]
Termín data curation se někdy používá v kontextu biologické databáze, kde jsou konkrétní biologické informace nejprve získány z řady výzkumných článků a poté uloženy v konkrétní kategorii databáze. Například informace o antidepresivech lze získat z různých zdrojů a po ověření, zda jsou k dispozici jako databáze nebo ne, jsou uloženy v antidepresivní kategorii databáze léků. Podniky také využívají v rámci svých provozních a strategických procesů kuraci dat k zajištění kvality a přesnosti dat.[16][17]
Projekty a studie
Projekt Disperze informačních balíčků (DIPS) pro opětovné použití informací (DIPIR) studuje výzkumná data vytvářená a používaná kvantitativními sociálními vědci, archeology a zoology. Zamýšleným publikem jsou výzkumní pracovníci, kteří používají sekundární data a digitální kurátoři, manažeři digitálních úložišť, pracovníci datových center a další, kteří shromažďují, spravují a ukládají digitální informace.[18]
The Proteinová datová banka byla založena v roce 1971 v Brookhaven National Laboratory, a rozrostla se do globálního projektu.[19] Databáze trojrozměrných strukturálních dat proteinů a dalších velkých biologických molekul obsahuje PDB přes 120 000 struktur, všechny standardizované, validované oproti experimentálním datům a anotované.
FlyBase, primární úložiště genetických a molekulárních údajů o rodině hmyzu Drosophilidae, sahá až do roku 1992. FlyBase anotuje celek Drosophila melanogaster genom.[20]
The Konsorcium jazykových dat je datové úložiště pro lingvistická data sahající až do roku 1992.[21]
The Průzkum digitálního nebe Sloan začal mapovat noční oblohu v roce 2000.[22] Počítačový vědec Jim Gray, při práci na datové architektuře SDSS, prosazoval myšlenku datové kurace ve vědách.[23]
DataNet byl výzkumný program Úřadu národní vědecké nadace pro kyberinfrastrukturu USA, který financoval projekty správy dat ve vědách.[24] DataONE (Data Observation Network for Earth) je jedním z projektů financovaných prostřednictvím DataNet, pomáhá komunitě pro vědu o životním prostředí uchovávat a sdílet data.[25]
Viz také
- Biokurátor
- Datová archeologie
- Degradace dat
- Správa datových formátů
- Uchovávání údajů
- Správa dat
- Hádka dat
- Digitální kurátorství - kurátor publikovaných dokumentů, spíše než surová data[7]
- Digitální uchování
- Informátor - jednotlivec s rozsáhlými zkušenostmi v oblasti správy dat
Reference
- ^ Renée J. Miller, „Big Data Curation“ na 20. mezinárodní konferenci o správě dat (COMAD) 2014, Hyderabad, Indie, 17. – 19. prosince 2014
- ^ Bio kreativní glosář. Citováno dne 3. října 2016.
- ^ A b Furht, Borko; Armando Escalante (2011). Příručka intenzivního výpočtu dat. Springer Science & Business Media. p. 32. ISBN 9781461414155. Citováno 2. října 2016.
- ^ Sabharwal, Arjun (2015). Digitální kurátor v digitálních humanitních vědách: Zachování a podpora archivních a zvláštních sbírek. Chandos Publishing. p. 60. ISBN 9780081001783. Citováno 2. října 2016.
- ^ „An Introduction to Humanities Data Curation“ od Julie Flandersové a Trevora Muñoza http://guide.dhcuration.org/intro/. Již není k dispozici: archive.org
- ^ Glosář Pilin. Již není k dispozici: archive.org
- ^ A b Borgman, C (2015). Velká data, málo dat, žádná data: Stipendium v propojeném světě. Cambridge, Massachusetts: MIT Press. str.13. ISBN 978-0-262-02856-1.
- ^ A b Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin Shank (2015). Návrh a provoz datové nádrže. Redbooky IBM. 111–113. ISBN 9780837440668. Citováno 2. října 2016.
- ^ Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L .; Smith, Linda C. (2007). „Vzdělávací program o správě dat“. Konference sekce vědy a techniky ALA. Citováno 7. října 2013.
- ^ „Zpráva o uchování digitálních informací (PDI)“ (PDF). 1996. Citováno 2018-03-13.
- ^ „ICPSR: History“. www.icpsr.umich.edu. Citováno 2018-03-15.
- ^ Heim, Kathleen M. (redaktorka), Library Trends 30 (3) Winter 1982: Data Libraries for the Social Sciences. Postgraduální škola knihovnické a informační vědy. University of Illinois v Urbana-Champaign.
- ^ Kathleen M. Heim, „Společensko-vědecké informační potřeby pro numerická data: vývoj mezinárodní infrastruktury datových archivů“. v Správa sbírek 9 (jaro 1987): 1-53.
- ^ „Referenční model OAIS“. 2015-12-09. Citováno 2018-03-15.
- ^ „CCSDS.org - Poradní výbor pro vesmírné datové systémy (CCSDS)“. public.ccsds.org. Citováno 2018-03-14.
- ^ E. Curry, A. Freitas a S. O’Riáin, „Role komunitního zpracování dat pro podniky,“ Archivováno 2012-01-23 na Wayback Machine v Linking Enterprise Data, D. Wood, vyd. Boston, MA: Springer USA, 2010, s. 25-47. ISBN 978-1-4419-7664-2
- ^ A. Freitas, E. Curry, „Big Data Curation,“ Archivováno 2016-09-13 na Wayback Machine in New Horizons for a Data-Driven Economy, Springer (Open Access), 2015.
- ^ Informační balíčky šíření informací pro projekt Opakované použití informací (DIPIR) http://www.oclc.org/research/themes/user-studies/dipir.html
- ^ „RCSB PDB: O archivu PDB a RCSB PDB“. O archivu PDB a RCSB PDB. Citováno 15. března 2018.
- ^ Gramates, LS; Marygold, SJ; dos Santos, G; Urbano, J-M; Antonazzo, G; Matthews, BB; Rey, AJ; Tabone, CJ; Crosby, MA; Emmert, DB; Falls, K; Goodman, JL; Hu, Y; Ponting, L; Schroeder, AJ; Strelets, VB; Thurmond, J; Zhou, P; Konsorcium FlyBase (2017). „lyBase ve 25 letech: pohled do budoucnosti“. Nucleic Acids Res. 45 (D1): D663 – D671. doi:10.1093 / nar / gkw1016. PMC 5210523. PMID 27799470.
- ^ „About LDC“. Konsorcium jazykových dat. Citováno 15. března 2018.
- ^ „Průzkum digitálního nebe Sloan“. SDSS. Citováno 15. března 2018.
- ^ Palmer, Carol L .; Weber, Nicholas M .; Muñoz, Trevor; Renear, Allen H. (červen 2013). „Základy kurace dat: Pedagogika a praxe„ účelné práce “s výzkumnými daty“. Archivní deník. 3. hdl:2142/78099.
- ^ „Shrnutí programu Sustainable Digital Data Preservation and Access Network Partners (DataNet) Program“. Národní vědecká nadace. 28. září 2007. Citováno 15. března 2018.
- ^ „Co je DataONE?“. Co je DataONE?. Citováno 15. března 2018.
externí odkazy
- Kurz ekologických a environmentálních údajů: DataONE
- Nástroje a služby pro správu dat zahrnující více vědních oborů: DataConservancy