Sémantická heterogenita - Semantic heterogeneity
Sémantická heterogenita je Když databázové schéma nebo datové sady pro stejnou doménu vyvíjejí nezávislé strany, což vede k rozdílům ve smyslu a interpretaci hodnot údajů.[1] Mimo strukturovaná data, problém sémantické heterogenity se kvůli flexibilitě polostrukturovaná data a různé označování metody aplikované na dokumenty nebo nestrukturovaná data. Sémantická heterogenita je jedním z důležitějších zdrojů rozdílů v heterogenní datové sady.
Pro vzájemnou spolupráci více zdrojů dat je však zásadní sladit je sémantický rozdíly. Rozklad různých zdrojů sémantických heterogenit poskytuje základ pro pochopení toho, jak mapovat a transformovat data, aby se tyto rozdíly překonaly.
Klasifikace
Jedno z prvních známých klasifikačních schémat, na které se vztahuje datová sémantika pochází od Williama Kenta před více než dvěma desetiletími.[2] Kentův přístup se více zabýval strukturálními mapování problémy než rozdíly ve smyslu, na které poukázal datové slovníky jako potenciálně řešící.
Jednou z nejkomplexnějších klasifikací je Pluempitiwiriyawej a Hammer, „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“.[3] Klasifikují heterogenity do tří širokých tříd:
- Strukturální ke konfliktům dochází, když schéma zdrojů představujících související nebo překrývající se data vykazuje nesrovnalosti. Při porovnávání podkladového schématu lze zjistit strukturální konflikty. Třída strukturálních konfliktů zahrnuje konflikty generalizace, konflikty agregace, nesrovnalosti vnitřní cesty, chybějící položky, řazení prvků, nesoulad omezení a typů a konflikty názvů mezi typy prvků a názvy atributů.
- Doména konflikty vznikají, když sémantika zdrojů dat, které budou integrovány, vykazuje nesrovnalosti. Konflikty domén lze zjistit prohlížením informací obsažených ve schématu a využitím znalostí o podkladových doménách dat. Třída konfliktů domén zahrnuje schematické nesrovnalosti, měřítko nebo jednotku, přesnost a konflikty reprezentace dat.
- Data konflikty označují nesrovnalosti mezi podobnými nebo souvisejícími hodnotami dat napříč více zdroji. Konflikty dat lze zjistit pouze porovnáním podkladových zdrojů. Třída konfliktů dat zahrnuje ID-hodnotu, chybějící data, nesprávný pravopis a konflikty pojmenování mezi obsahem prvku a hodnotami atributů.
Kromě toho může dojít k neshodám nebo konfliktům mezi množinami prvků (neshoda „populace“) nebo atributy (neshoda „popisu“).
Michael Bergman rozšířil toto schéma přidáním čtvrté hlavní explicitní kategorie jazyka a také přidal několik příkladů každého druhu sémantické heterogenity, což vedlo k přibližně 40 odlišným potenciálním kategoriím [4].[5] Tato tabulka ukazuje kombinovaných 40 možných zdrojů sémantické heterogenity napříč zdroji:
Třída | Kategorie | Podkategorie | Příklady |
Neshoda kódování ingestu | |||
Chybí kódování příjmu | Chybné rozpoznání tokenů, protože nebyly analyzovány správným kódováním | ||
Neshoda kódování dotazu | Například ASCII proti UTF-8 ve vyhledávání | ||
Chybí kódování dotazu | Chybné rozpoznání vyhledávacích tokenů, protože nebyly analyzovány správným kódováním | ||
Jazyky | Neshoda skriptů | Variace ve způsobu, jakým analyzátory zacházejí, řekněme, s mezerami, mezerami nebo pomlčkami | |
Chyby analýzy / morfologické analýzy (mnoho) | Arabské jazyky (zprava doleva) proti Románské jazyky (zleva doprava) | ||
Syntaktické chyby (mnoho) | Nejednoznačné odkazy na věty, jako např Jsem rád, že jsem muž, a také Lola (Lola podle Ray Davies a Kinks ) | ||
Chyby sémantiky (mnoho) | Řeka banka proti peníze banka proti kulečník banka výstřel | ||
Pojmový | Pojmenování | Citlivost písmen | Velká písmena proti malá písmena proti Velbloudí pouzdro |
Spojené státy proti USA proti Amerika proti Strýček Sam proti Velký satan | |||
Spojené státy proti USA proti NÁS | |||
Například když stejné jméno odkazuje na více než jeden koncept, například Jméno odkazující na osobu proti Název odkazující na knihu | |||
Překlepy | Jak je uvedeno | ||
Zobecnění / specializace | Když jednotlivé položky v jednom schématu souvisí s více položkami v jiném schématu, nebo naopak. Například jedno schéma může odkazovat na „telefon“, ale druhé schéma obsahuje více prvků, například „domácí telefon“, „pracovní telefon“ a „mobilní telefon“ | ||
Agregace | Intraagregace | Když je stejná populace rozdělena odlišně (například sčítání lidu) proti Federální regiony pro státy, Anglie proti Velká Británie proti Velká Británie nebo celá jména osob proti první-střední-poslední) | |
Interagregace | Může nastat, když jsou součty nebo počty zahrnuty jako členové sady | ||
Nesrovnalost vnitřní cesty | Může vzniknout z různých cest pro získání zdroje a cíle ve dvou různých schématech (například hierarchické struktury, kde jsou prvky na různých úrovních remove) | ||
Chybějící položka | Nesrovnalosti v obsahu | Rozdíly v nastavení výčtu nebo zahrnutí položek či nikoli (řekněme na území USA) v seznamu států USA | |
Chybějící obsah | Rozdíly v rozsahu pokrytí mezi dvěma nebo více datovými sadami pro stejný koncept | ||
Nesrovnalost seznamu atributů | Rozdíly v úplnosti atributů mezi dvěma nebo více datovými sadami | ||
Chybějící atribut | Rozdíly v rozsahu pokrytí mezi dvěma nebo více datovými sadami pro stejný atribut | ||
Ekvivalence položek | Když se tvrdí, že dva typy (třídy nebo sady) jsou stejné, když rozsah a reference nejsou (například Berlín město proti Berlín oficiální městský stát) | ||
Když se tvrdí, že jsou dva jedinci stejní, když jsou ve skutečnosti odlišní (například John F. Kennedy prezident proti John F. Kennedy letadlová loď) | |||
Neshoda typu | Když je stejná položka charakterizována různými typy, například osobou, která je napsána jako zvíře proti lidská bytost proti osoba | ||
Neshoda omezení | Když mají atributy odkazující na stejnou věc různá kardinalita nebo nesouladnost | ||
Schematická nesrovnalost | Mapování hodnoty prvku na popisek prvku | Jedna ze čtyř chyb, ke kterým může dojít při pojmenování atributů (řekněme Hair proti Fur) může odkazovat na stejný atribut nebo na stejné názvy atributů (například Hair proti Hair) může odkazovat na různé obory atributů (řekněme Hair proti Fur) nebo kde hodnoty pro tyto atributy mohou být stejné, ale odkazují na různé skutečné atributy, nebo kde se hodnoty mohou lišit, ale mohou být pro stejný atribut a domnělou hodnotu. Mnoho dalších sémantických heterogenit zde přispívá také k nesrovnalostem ve schématu | |
Atribut-hodnota mapování štítku prvku | |||
Hodnota prvku k mapování štítku atributu | |||
Hodnota atributu k mapování štítku atributu | |||
Měřítko nebo jednotky | Typ měření | Rozdíly, řekněme, v metrice proti Anglické měřící systémy nebo měny | |
Jednotky | Rozdíly, řekněme, v metrech proti centimetrů proti milimetry | ||
Přesnost | Například hodnota 4,1 palce v jedné datové sadě proti 4.106 v jiné datové sadě | ||
Primitivní datový typ | Při používání literálů často dochází k nejasnostem proti URI proti typy objektů | ||
Datový formát | Oddělování desetinných míst podle období proti čárky; různé formáty data; pomocí exponentů nebo agregovaných jednotek (například tisíce nebo miliony) | ||
Pojmenování | Citlivost písmen | Velká písmena proti malá písmena proti Velbloudí pouzdro | |
Synonyma | Například centimetry proti cm | ||
Zkratky | Například symboly měny proti názvy měn | ||
Homonyma | Například když stejné jméno odkazuje na více než jeden atribut, například Jméno odkazující na osobu proti Název odkazující na knihu | ||
Překlepy | Jak je uvedeno | ||
Neshoda ID nebo chybějící ID | URI zde mohou představovat zvláštní problém, kvůli skutečným nesouladům, ale také použití jmenných prostorů nebo ne a zkrácených URI | ||
Chybějící data | Běžný problém, akutnější s přístupy uzavřeného světa než s ty v otevřeném světě | ||
Objednávání prvků | Členy sady lze objednat nebo neuspořádat, a pokud jsou objednány, pořadí jednotlivých členů nebo hodnot se může lišit |
Odlišný přístup ke klasifikaci sémantiky a integračních přístupů je používán Sheth et al.[6] Podle svého konceptu rozdělili sémantiku do tří forem: implicitní, formální a mocná. Implicitní sémantika je to, co je buď z velké části přítomné, nebo jej lze snadno extrahovat; formální jazyky, i když relativně vzácné, se vyskytují ve formě ontologie nebo jiný logiky popisu; a silná (měkká) sémantika je nejasná a neomezuje se pouze na přísná přiřazení na základě množin. Hlavním bodem Sheth et al. Je to logika prvního řádu (FOL) nebo logika popisu je sama o sobě nedostatečná, aby správně zachytila potřebnou sémantiku.
Relevantní aplikace
Kromě interoperability dat jsou relevantní oblasti v informační technologie které závisí na sladění sémantických heterogenit zahrnují mapování dat, sémantická integrace, a integrace podnikových informací, mezi mnoha jinými. Od koncepčních po skutečná data existují rozdíly v perspektivě, slovnících, opatřeních a konvencích, jakmile se spojí dva zdroje dat. Výslovná pozornost těmto sémantickým heterogenitám je jedním z prostředků k získání informací k integraci nebo vzájemné spolupráci.
Před pouhými dvaceti lety systémy informačních technologií vyjadřovaly a ukládaly data v mnoha formátech a systémech. Internetové a webové protokoly přispěly k překonání těchto zdrojů rozdílů. I když existuje velké množství kategorií sémantické heterogenity, jsou tyto kategorie také vzorované a lze je předvídat a korigovat. Tyto vzorované zdroje informují, jaký druh práce je třeba udělat, aby se překonaly sémantické rozdíly tam, kde se stále nacházejí.
Viz také
- Integrace dat
- Mapování dat
- Integrace podnikových informací
- Heterogenní databázový systém
- Interoperabilita
- Ontologická integrace dat
- Shoda schématu
- Sémantická integrace
- Sémantická shoda
- Sémantika
Reference
- ^ Alon Halevy (2005). „Proč se vaše data nebudou mísit“. Fronta. 3 (8).
- ^ William Kent (27. února - 3. března 1989). Mnoho podob jediné skutečnosti. Sborník IEEE COMPCON. San Francisco. 13 stran
- ^ Charnyote Pluempitiwiriyawej a Joachim Hammer (září 2000). „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“ (PDF). Gainesville, Florida: University of Florida. Technická zpráva TR00-004.
- ^ M.K. Bergman (6. června 2006). „Zdroje a klasifikace sémantických heterogenit“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.
- ^ M.K. Bergman (12. srpna 2014). „Velká struktura a interoperabilita dat“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.
- ^ Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). „Sémantika pro sémantický web: implicitní, formální a mocný“. International Journal on Semantic Web and Information Systems. 1 (1): 1–18. doi:10.4018 / jswis.2005010101.