Sémantická heterogenita - Semantic heterogeneity

Sémantická heterogenita je Když databázové schéma nebo datové sady pro stejnou doménu vyvíjejí nezávislé strany, což vede k rozdílům ve smyslu a interpretaci hodnot údajů.[1] Mimo strukturovaná data, problém sémantické heterogenity se kvůli flexibilitě polostrukturovaná data a různé označování metody aplikované na dokumenty nebo nestrukturovaná data. Sémantická heterogenita je jedním z důležitějších zdrojů rozdílů v heterogenní datové sady.

Pro vzájemnou spolupráci více zdrojů dat je však zásadní sladit je sémantický rozdíly. Rozklad různých zdrojů sémantických heterogenit poskytuje základ pro pochopení toho, jak mapovat a transformovat data, aby se tyto rozdíly překonaly.

Klasifikace

Jedno z prvních známých klasifikačních schémat, na které se vztahuje datová sémantika pochází od Williama Kenta před více než dvěma desetiletími.[2] Kentův přístup se více zabýval strukturálními mapování problémy než rozdíly ve smyslu, na které poukázal datové slovníky jako potenciálně řešící.

Jednou z nejkomplexnějších klasifikací je Pluempitiwiriyawej a Hammer, „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“.[3] Klasifikují heterogenity do tří širokých tříd:

  • Strukturální ke konfliktům dochází, když schéma zdrojů představujících související nebo překrývající se data vykazuje nesrovnalosti. Při porovnávání podkladového schématu lze zjistit strukturální konflikty. Třída strukturálních konfliktů zahrnuje konflikty generalizace, konflikty agregace, nesrovnalosti vnitřní cesty, chybějící položky, řazení prvků, nesoulad omezení a typů a konflikty názvů mezi typy prvků a názvy atributů.
  • Doména konflikty vznikají, když sémantika zdrojů dat, které budou integrovány, vykazuje nesrovnalosti. Konflikty domén lze zjistit prohlížením informací obsažených ve schématu a využitím znalostí o podkladových doménách dat. Třída konfliktů domén zahrnuje schematické nesrovnalosti, měřítko nebo jednotku, přesnost a konflikty reprezentace dat.
  • Data konflikty označují nesrovnalosti mezi podobnými nebo souvisejícími hodnotami dat napříč více zdroji. Konflikty dat lze zjistit pouze porovnáním podkladových zdrojů. Třída konfliktů dat zahrnuje ID-hodnotu, chybějící data, nesprávný pravopis a konflikty pojmenování mezi obsahem prvku a hodnotami atributů.

Kromě toho může dojít k neshodám nebo konfliktům mezi množinami prvků (neshoda „populace“) nebo atributy (neshoda „popisu“).

Michael Bergman rozšířil toto schéma přidáním čtvrté hlavní explicitní kategorie jazyka a také přidal několik příkladů každého druhu sémantické heterogenity, což vedlo k přibližně 40 odlišným potenciálním kategoriím [4].[5] Tato tabulka ukazuje kombinovaných 40 možných zdrojů sémantické heterogenity napříč zdroji:

TřídaKategoriePodkategoriePříklady

Jazyk

Kódování

Neshoda kódování ingestu

Například, ASCII proti UTF-8

Chybí kódování příjmuChybné rozpoznání tokenů, protože nebyly analyzovány správným kódováním
Neshoda kódování dotazuNapříklad ASCII proti UTF-8 ve vyhledávání
Chybí kódování dotazuChybné rozpoznání vyhledávacích tokenů, protože nebyly analyzovány správným kódováním
JazykyNeshoda skriptůVariace ve způsobu, jakým analyzátory zacházejí, řekněme, s mezerami, mezerami nebo pomlčkami
Chyby analýzy / morfologické analýzy (mnoho)Arabské jazyky (zprava doleva) proti Románské jazyky (zleva doprava)
Syntaktické chyby (mnoho)

Nejednoznačné odkazy na věty, jako např Jsem rád, že jsem muž, a také Lola (Lola podle Ray Davies a Kinks )

Chyby sémantiky (mnoho)Řeka banka proti peníze banka proti kulečník banka výstřel
PojmovýPojmenováníCitlivost písmenVelká písmena proti malá písmena proti Velbloudí pouzdro

Synonyma

Spojené státy proti USA proti Amerika proti Strýček Sam proti Velký satan

Zkratky

Spojené státy proti USA proti NÁS

Homonyma

Například když stejné jméno odkazuje na více než jeden koncept, například Jméno odkazující na osobu proti Název odkazující na knihu
PřeklepyJak je uvedeno
Zobecnění / specializaceKdyž jednotlivé položky v jednom schématu souvisí s více položkami v jiném schématu, nebo naopak. Například jedno schéma může odkazovat na „telefon“, ale druhé schéma obsahuje více prvků, například „domácí telefon“, „pracovní telefon“ a „mobilní telefon“
AgregaceIntraagregaceKdyž je stejná populace rozdělena odlišně (například sčítání lidu) proti Federální regiony pro státy, Anglie proti Velká Británie proti Velká Británie nebo celá jména osob proti první-střední-poslední)
InteragregaceMůže nastat, když jsou součty nebo počty zahrnuty jako členové sady
Nesrovnalost vnitřní cestyMůže vzniknout z různých cest pro získání zdroje a cíle ve dvou různých schématech (například hierarchické struktury, kde jsou prvky na různých úrovních remove)
Chybějící položkaNesrovnalosti v obsahuRozdíly v nastavení výčtu nebo zahrnutí položek či nikoli (řekněme na území USA) v seznamu států USA
Chybějící obsahRozdíly v rozsahu pokrytí mezi dvěma nebo více datovými sadami pro stejný koncept
Nesrovnalost seznamu atributůRozdíly v úplnosti atributů mezi dvěma nebo více datovými sadami
Chybějící atributRozdíly v rozsahu pokrytí mezi dvěma nebo více datovými sadami pro stejný atribut
Ekvivalence položek

Když se tvrdí, že dva typy (třídy nebo sady) jsou stejné, když rozsah a reference nejsou (například Berlín město proti Berlín oficiální městský stát)

Když se tvrdí, že jsou dva jedinci stejní, když jsou ve skutečnosti odlišní (například John F. Kennedy prezident proti John F. Kennedy letadlová loď)

Neshoda typuKdyž je stejná položka charakterizována různými typy, například osobou, která je napsána jako zvíře proti lidská bytost proti osoba
Neshoda omezeníKdyž mají atributy odkazující na stejnou věc různá kardinalita nebo nesouladnost

Doména

Schematická nesrovnalostMapování hodnoty prvku na popisek prvkuJedna ze čtyř chyb, ke kterým může dojít při pojmenování atributů (řekněme Hair proti Fur) může odkazovat na stejný atribut nebo na stejné názvy atributů (například Hair proti Hair) může odkazovat na různé obory atributů (řekněme Hair proti Fur) nebo kde hodnoty pro tyto atributy mohou být stejné, ale odkazují na různé skutečné atributy, nebo kde se hodnoty mohou lišit, ale mohou být pro stejný atribut a domnělou hodnotu.

Mnoho dalších sémantických heterogenit zde přispívá také k nesrovnalostem ve schématu
Atribut-hodnota mapování štítku prvku
Hodnota prvku k mapování štítku atributu
Hodnota atributu k mapování štítku atributu
Měřítko nebo jednotkyTyp měřeníRozdíly, řekněme, v metrice proti Anglické měřící systémy nebo měny
JednotkyRozdíly, řekněme, v metrech proti centimetrů proti milimetry
PřesnostNapříklad hodnota 4,1 palce v jedné datové sadě proti 4.106 v jiné datové sadě

Reprezentace dat

Primitivní datový typ

Při používání literálů často dochází k nejasnostem proti URI proti typy objektů

Datový formátOddělování desetinných míst podle období proti čárky; různé formáty data; pomocí exponentů nebo agregovaných jednotek (například tisíce nebo miliony)

Data

PojmenováníCitlivost písmenVelká písmena proti malá písmena proti Velbloudí pouzdro
SynonymaNapříklad centimetry proti cm
ZkratkyNapříklad symboly měny proti názvy měn
HomonymaNapříklad když stejné jméno odkazuje na více než jeden atribut, například Jméno odkazující na osobu proti Název odkazující na knihu
PřeklepyJak je uvedeno
Neshoda ID nebo chybějící IDURI zde mohou představovat zvláštní problém, kvůli skutečným nesouladům, ale také použití jmenných prostorů nebo ne a zkrácených URI
Chybějící data

Běžný problém, akutnější s přístupy uzavřeného světa než s ty v otevřeném světě

Objednávání prvkůČleny sady lze objednat nebo neuspořádat, a pokud jsou objednány, pořadí jednotlivých členů nebo hodnot se může lišit

Odlišný přístup ke klasifikaci sémantiky a integračních přístupů je používán Sheth et al.[6] Podle svého konceptu rozdělili sémantiku do tří forem: implicitní, formální a mocná. Implicitní sémantika je to, co je buď z velké části přítomné, nebo jej lze snadno extrahovat; formální jazyky, i když relativně vzácné, se vyskytují ve formě ontologie nebo jiný logiky popisu; a silná (měkká) sémantika je nejasná a neomezuje se pouze na přísná přiřazení na základě množin. Hlavním bodem Sheth et al. Je to logika prvního řádu (FOL) nebo logika popisu je sama o sobě nedostatečná, aby správně zachytila ​​potřebnou sémantiku.

Relevantní aplikace

Kromě interoperability dat jsou relevantní oblasti v informační technologie které závisí na sladění sémantických heterogenit zahrnují mapování dat, sémantická integrace, a integrace podnikových informací, mezi mnoha jinými. Od koncepčních po skutečná data existují rozdíly v perspektivě, slovnících, opatřeních a konvencích, jakmile se spojí dva zdroje dat. Výslovná pozornost těmto sémantickým heterogenitám je jedním z prostředků k získání informací k integraci nebo vzájemné spolupráci.

Před pouhými dvaceti lety systémy informačních technologií vyjadřovaly a ukládaly data v mnoha formátech a systémech. Internetové a webové protokoly přispěly k překonání těchto zdrojů rozdílů. I když existuje velké množství kategorií sémantické heterogenity, jsou tyto kategorie také vzorované a lze je předvídat a korigovat. Tyto vzorované zdroje informují, jaký druh práce je třeba udělat, aby se překonaly sémantické rozdíly tam, kde se stále nacházejí.

Viz také

Reference

  1. ^ Alon Halevy (2005). „Proč se vaše data nebudou mísit“. Fronta. 3 (8).
  2. ^ William Kent (27. února - 3. března 1989). Mnoho podob jediné skutečnosti. Sborník IEEE COMPCON. San Francisco. 13 stran
  3. ^ Charnyote Pluempitiwiriyawej a Joachim Hammer (září 2000). „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“ (PDF). Gainesville, Florida: University of Florida. Technická zpráva TR00-004.
  4. ^ M.K. Bergman (6. června 2006). „Zdroje a klasifikace sémantických heterogenit“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.
  5. ^ M.K. Bergman (12. srpna 2014). „Velká struktura a interoperabilita dat“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.
  6. ^ Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). „Sémantika pro sémantický web: implicitní, formální a mocný“. International Journal on Semantic Web and Information Systems. 1 (1): 1–18. doi:10.4018 / jswis.2005010101.

Další čtení