Sémantická heterogenita - Semantic heterogeneity

Sémantická heterogenita je Když databázové schéma nebo datové sady pro stejnou doménu vyvíjejí nezávislé strany, což vede k rozdílům ve smyslu a interpretaci hodnot údajů.^[1] Mimo strukturovaná data, problém sémantické heterogenity se kvůli flexibilitě polostrukturovaná data a různé označování metody aplikované na dokumenty nebo nestrukturovaná data. Sémantická heterogenita je jedním z důležitějších zdrojů rozdílů v heterogenní datové sady.

Pro vzájemnou spolupráci více zdrojů dat je však zásadní sladit je sémantický rozdíly. Rozklad různých zdrojů sémantických heterogenit poskytuje základ pro pochopení toho, jak mapovat a transformovat data, aby se tyto rozdíly překonaly.

Klasifikace

Jedno z prvních známých klasifikačních schémat, na které se vztahuje datová sémantika pochází od Williama Kenta před více než dvěma desetiletími.^[2] Kentův přístup se více zabýval strukturálními mapování problémy než rozdíly ve smyslu, na které poukázal datové slovníky jako potenciálně řešící.

Jednou z nejkomplexnějších klasifikací je Pluempitiwiriyawej a Hammer, „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“.^[3] Klasifikují heterogenity do tří širokých tříd:

Strukturální ke konfliktům dochází, když schéma zdrojů představujících související nebo překrývající se data vykazuje nesrovnalosti. Při porovnávání podkladového schématu lze zjistit strukturální konflikty. Třída strukturálních konfliktů zahrnuje konflikty generalizace, konflikty agregace, nesrovnalosti vnitřní cesty, chybějící položky, řazení prvků, nesoulad omezení a typů a konflikty názvů mezi typy prvků a názvy atributů.
Doména konflikty vznikají, když sémantika zdrojů dat, které budou integrovány, vykazuje nesrovnalosti. Konflikty domén lze zjistit prohlížením informací obsažených ve schématu a využitím znalostí o podkladových doménách dat. Třída konfliktů domén zahrnuje schematické nesrovnalosti, měřítko nebo jednotku, přesnost a konflikty reprezentace dat.
Data konflikty označují nesrovnalosti mezi podobnými nebo souvisejícími hodnotami dat napříč více zdroji. Konflikty dat lze zjistit pouze porovnáním podkladových zdrojů. Třída konfliktů dat zahrnuje ID-hodnotu, chybějící data, nesprávný pravopis a konflikty pojmenování mezi obsahem prvku a hodnotami atributů.

Kromě toho může dojít k neshodám nebo konfliktům mezi množinami prvků (neshoda „populace“) nebo atributy (neshoda „popisu“).

Michael Bergman rozšířil toto schéma přidáním čtvrté hlavní explicitní kategorie jazyka a také přidal několik příkladů každého druhu sémantické heterogenity, což vedlo k přibližně 40 odlišným potenciálním kategoriím ^[4].^[5] Tato tabulka ukazuje kombinovaných 40 možných zdrojů sémantické heterogenity napříč zdroji:

Třída	Kategorie	Podkategorie	Příklady
Jazyk	Kódování	Neshoda kódování ingestu	Například, ASCII proti UTF-8
		Chybí kódování příjmu	Chybné rozpoznání tokenů, protože nebyly analyzovány správným kódováním
		Neshoda kódování dotazu	Například ASCII proti UTF-8 ve vyhledávání
		Chybí kódování dotazu	Chybné rozpoznání vyhledávacích tokenů, protože nebyly analyzovány správným kódováním
	Jazyky	Neshoda skriptů	Variace ve způsobu, jakým analyzátory zacházejí, řekněme, s mezerami, mezerami nebo pomlčkami
		Chyby analýzy / morfologické analýzy (mnoho)	Arabské jazyky (zprava doleva) proti Románské jazyky (zleva doprava)
		Syntaktické chyby (mnoho)	Nejednoznačné odkazy na věty, jako např Jsem rád, že jsem muž, a také Lola (Lola podle Ray Davies a Kinks )
		Chyby sémantiky (mnoho)	Řeka banka proti peníze banka proti kulečník banka výstřel
Pojmový	Pojmenování	Citlivost písmen	Velká písmena proti malá písmena proti Velbloudí pouzdro
		Synonyma	Spojené státy proti USA proti Amerika proti Strýček Sam proti Velký satan
		Zkratky	Spojené státy proti USA proti NÁS
		Homonyma	Například když stejné jméno odkazuje na více než jeden koncept, například Jméno odkazující na osobu proti Název odkazující na knihu
		Překlepy	Jak je uvedeno
	Zobecnění / specializace		Když jednotlivé položky v jednom schématu souvisí s více položkami v jiném schématu, nebo naopak. Například jedno schéma může odkazovat na „telefon“, ale druhé schéma obsahuje více prvků, například „domácí telefon“, „pracovní telefon“ a „mobilní telefon“
	Agregace	Intraagregace	Když je stejná populace rozdělena odlišně (například sčítání lidu) proti Federální regiony pro státy, Anglie proti Velká Británie proti Velká Británie nebo celá jména osob proti první-střední-poslední)
	Agregace	Interagregace	Může nastat, když jsou součty nebo počty zahrnuty jako členové sady
	Nesrovnalost vnitřní cesty		Může vzniknout z různých cest pro získání zdroje a cíle ve dvou různých schématech (například hierarchické struktury, kde jsou prvky na různých úrovních remove)
	Chybějící položka	Nesrovnalosti v obsahu	Rozdíly v nastavení výčtu nebo zahrnutí položek či nikoli (řekněme na území USA) v seznamu států USA
		Chybějící obsah	Rozdíly v rozsahu pokrytí mezi dvěma nebo více datovými sadami pro stejný koncept
		Nesrovnalost seznamu atributů	Rozdíly v úplnosti atributů mezi dvěma nebo více datovými sadami
		Chybějící atribut	Rozdíly v rozsahu pokrytí mezi dvěma nebo více datovými sadami pro stejný atribut
	Ekvivalence položek		Když se tvrdí, že dva typy (třídy nebo sady) jsou stejné, když rozsah a reference nejsou (například Berlín město proti Berlín oficiální městský stát)
	Ekvivalence položek		Když se tvrdí, že jsou dva jedinci stejní, když jsou ve skutečnosti odlišní (například John F. Kennedy prezident proti John F. Kennedy letadlová loď)
	Neshoda typu		Když je stejná položka charakterizována různými typy, například osobou, která je napsána jako zvíře proti lidská bytost proti osoba
	Neshoda omezení		Když mají atributy odkazující na stejnou věc různá kardinalita nebo nesouladnost
Doména	Schematická nesrovnalost	Mapování hodnoty prvku na popisek prvku	Jedna ze čtyř chyb, ke kterým může dojít při pojmenování atributů (řekněme Hair proti Fur) může odkazovat na stejný atribut nebo na stejné názvy atributů (například Hair proti Hair) může odkazovat na různé obory atributů (řekněme Hair proti Fur) nebo kde hodnoty pro tyto atributy mohou být stejné, ale odkazují na různé skutečné atributy, nebo kde se hodnoty mohou lišit, ale mohou být pro stejný atribut a domnělou hodnotu. Mnoho dalších sémantických heterogenit zde přispívá také k nesrovnalostem ve schématu
		Atribut-hodnota mapování štítku prvku
		Hodnota prvku k mapování štítku atributu
		Hodnota atributu k mapování štítku atributu
	Měřítko nebo jednotky	Typ měření	Rozdíly, řekněme, v metrice proti Anglické měřící systémy nebo měny
	Měřítko nebo jednotky	Jednotky	Rozdíly, řekněme, v metrech proti centimetrů proti milimetry
	Přesnost		Například hodnota 4,1 palce v jedné datové sadě proti 4.106 v jiné datové sadě
	Reprezentace dat	Primitivní datový typ	Při používání literálů často dochází k nejasnostem proti URI proti typy objektů
	Reprezentace dat	Datový formát	Oddělování desetinných míst podle období proti čárky; různé formáty data; pomocí exponentů nebo agregovaných jednotek (například tisíce nebo miliony)
Data	Pojmenování	Citlivost písmen	Velká písmena proti malá písmena proti Velbloudí pouzdro
		Synonyma	Například centimetry proti cm
		Zkratky	Například symboly měny proti názvy měn
		Homonyma	Například když stejné jméno odkazuje na více než jeden atribut, například Jméno odkazující na osobu proti Název odkazující na knihu
		Překlepy	Jak je uvedeno
	Neshoda ID nebo chybějící ID		URI zde mohou představovat zvláštní problém, kvůli skutečným nesouladům, ale také použití jmenných prostorů nebo ne a zkrácených URI
	Chybějící data		Běžný problém, akutnější s přístupy uzavřeného světa než s ty v otevřeném světě
	Objednávání prvků		Členy sady lze objednat nebo neuspořádat, a pokud jsou objednány, pořadí jednotlivých členů nebo hodnot se může lišit

Odlišný přístup ke klasifikaci sémantiky a integračních přístupů je používán Sheth et al.^[6] Podle svého konceptu rozdělili sémantiku do tří forem: implicitní, formální a mocná. Implicitní sémantika je to, co je buď z velké části přítomné, nebo jej lze snadno extrahovat; formální jazyky, i když relativně vzácné, se vyskytují ve formě ontologie nebo jiný logiky popisu; a silná (měkká) sémantika je nejasná a neomezuje se pouze na přísná přiřazení na základě množin. Hlavním bodem Sheth et al. Je to logika prvního řádu (FOL) nebo logika popisu je sama o sobě nedostatečná, aby správně zachytila potřebnou sémantiku.

Relevantní aplikace

Kromě interoperability dat jsou relevantní oblasti v informační technologie které závisí na sladění sémantických heterogenit zahrnují mapování dat, sémantická integrace, a integrace podnikových informací, mezi mnoha jinými. Od koncepčních po skutečná data existují rozdíly v perspektivě, slovnících, opatřeních a konvencích, jakmile se spojí dva zdroje dat. Výslovná pozornost těmto sémantickým heterogenitám je jedním z prostředků k získání informací k integraci nebo vzájemné spolupráci.

Před pouhými dvaceti lety systémy informačních technologií vyjadřovaly a ukládaly data v mnoha formátech a systémech. Internetové a webové protokoly přispěly k překonání těchto zdrojů rozdílů. I když existuje velké množství kategorií sémantické heterogenity, jsou tyto kategorie také vzorované a lze je předvídat a korigovat. Tyto vzorované zdroje informují, jaký druh práce je třeba udělat, aby se překonaly sémantické rozdíly tam, kde se stále nacházejí.

Viz také

Reference

^ Alon Halevy (2005). „Proč se vaše data nebudou mísit“. Fronta. 3 (8).
^ William Kent (27. února - 3. března 1989). Mnoho podob jediné skutečnosti. Sborník IEEE COMPCON. San Francisco. 13 stran
^ Charnyote Pluempitiwiriyawej a Joachim Hammer (září 2000). „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“ (PDF). Gainesville, Florida: University of Florida. Technická zpráva TR00-004.
^ M.K. Bergman (6. června 2006). „Zdroje a klasifikace sémantických heterogenit“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.
^ M.K. Bergman (12. srpna 2014). „Velká struktura a interoperabilita dat“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.
^ Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). „Sémantika pro sémantický web: implicitní, formální a mocný“. International Journal on Semantic Web and Information Systems. 1 (1): 1–18. doi:10.4018 / jswis.2005010101.

Další čtení

Klasifikace sémantické heterogenity

[1] Alon Halevy (2005). „Proč se vaše data nebudou mísit“. Fronta. 3 (8).

[2] William Kent (27. února - 3. března 1989). Mnoho podob jediné skutečnosti. Sborník IEEE COMPCON. San Francisco. 13 stran

[3] Charnyote Pluempitiwiriyawej a Joachim Hammer (září 2000). „Klasifikační schéma pro sémantické a schematické heterogenity ve zdrojích dat XML“ (PDF). Gainesville, Florida: University of Florida. Technická zpráva TR00-004.

[4] M.K. Bergman (6. června 2006). „Zdroje a klasifikace sémantických heterogenit“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.

[5] M.K. Bergman (12. srpna 2014). „Velká struktura a interoperabilita dat“. AI3 ::: Adaptivní informace. Citováno 28. září 2014.

[6] Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). „Sémantika pro sémantický web: implicitní, formální a mocný“. International Journal on Semantic Web and Information Systems. 1 (1): 1–18. doi:10.4018 / jswis.2005010101.

[1]

[2]

[3]

[4]

[5]

[6]