Objev metadat - Metadata discovery
v metadata, objev metadat (taky sběr metadat) je proces používání automatizovaných nástrojů k objevování sémantika a datový prvek v souborech dat. Tento proces obvykle končí sadou mapování mezi prvky zdroje dat a centralizovaným registr metadat. Zjišťování metadat se také nazývá skenování metadat.
Formáty zdrojů dat pro zjišťování metadat
Soubory dat mohou mít různé formy, včetně:
- Relační databáze
- NoSQL databáze
- Tabulky
- XML soubory
- webové služby
- Software zdrojový kód jako jsou Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, Java, C # nebo C ++ třídy a tisíce dalších softwarových jazyků
- Nestrukturované textové dokumenty, jako jsou Microsoft Word nebo PDF soubory
Taxonomie algoritmů shody metadat
Existují odlišné kategorie automatického zjišťování metadat:
Lexikální shoda
- Přesná shoda - kde jsou propojení datových prvků prováděna na základě přesného názvu sloupce v databázi, názvu prvku XML nebo štítku na obrazovce. Například pokud má sloupec databáze název „PersonBirthDate“ a datový prvek v registru metadat má také název „PersonBirthDate“, mohou automatické nástroje odvodit, že sloupec databáze má stejnou sémantiku (význam) jako datový prvek. v registru metadat.
- Synonymní shoda - kde nástroj pro zjišťování nedostává jen jedno jméno, ale sadu synonym.
- Shoda vzoru - v tomto případě je nástrojům dána sada lexikálních vzorů, které mohou odpovídat. Nástroje mohou například vyhledávat „* pohlaví *“ nebo „* pohlaví *“
Sémantická shoda
Sémantická shoda pokusy o použití sémantika přidružit cílová data k registrovaným datové prvky.
- Sémantická podobnost - V tomto algoritmu, který se opírá o databázi konceptuální blízkosti slova, se používá. Například WordNet systém může vyhodnotit, jak blízko jsou si slova koncepčně blízká. Například výrazy „Osoba“, „Jednotlivec“ a „Člověk“ mohou být velmi podobné pojmy.
Statistické párování
Statistická shoda využívá statistiky o samotných datech datových zdrojů k odvození podobností se zaregistrovanými datovými prvky.
- Zřetelná analýza hodnoty - Analýzou všech odlišných hodnot ve sloupci lze dosáhnout podobnosti s registrovaným datovým prvkem. Například pokud má sloupec pouze dvě odlišné hodnoty „male“ a „female“, mohlo by to být namapováno na „PersonGenderCode“.
- Analýza distribuce dat - Analýzou distribuce hodnot v jednom sloupci a porovnáním této distribuce se známými datovými prvky lze odvodit sémantickou vazbu.
Prodejci
Následující dodavatelé (uvedení v abecedním pořadí) poskytují software a řešení pro zjišťování a mapování metadat
- Inovace BigHand / Esquire (vidět [1] )
- IBM
- Talend
- InfoLibrarian Corporation (vidět [2] )
- Aplikace MindHARBOR Metadata Database (vidět [3] )
- Octopai - automatizace zjišťování a správy metadat napříč platformami (vidět [4] )
- Revelytix (vidět [5] )
- Silver Creek Systems (vidět [6] )
- Stratio (vidět Spolehlivost dat je základem úspěšných společností )
- Sypherlink: Harvester (vidět [7] )
- Unicorn Systems (vidět [8] )
Výzkum
- Projekt INDUS na Iowská státní univerzita (vidět [9] )
- Rtuť - Distribuovaná správa metadat a Zjištění dat Systém vyvinutý v Oak Ridge National Laboratory DAAC (vidět [10] ) [1]
Viz také
- metadata
- mapování dat
- datový sklad
- Inteligentní systém porozumění dat
- sémantický web
- Specifikace metadat obrany Discovery
Reference
Citace
- ^ Devarakonda, R., Palanisamy, G., Wilson, B. a Green, J. (2010), „Merkur: opakovaně použitelná správa metadat, systém zjišťování a přístupu k datům“, Informatika o ZemiSpringer Berlin / Heidelberg, 3 (1): 87–94, Bibcode:2010ES V .... 3 ... 87D, doi:10.1007 / s12145-010-0050-7CS1 maint: více jmen: seznam autorů (odkaz)
Zdroje
- Masivní systémy pro analýzu dat San Diego Supercomputer Center, červen 1997
- Whitepaper IBM o zjišťování podnikových metadat
- Bílá kniha o správě metadat - od Esquire Innovations