Polostrukturovaná data - Semi-structured data
Polostrukturovaná data[1] je forma strukturovaná data který se neřídí tabulkovou strukturou datových modelů asociovaných s relační databáze nebo jiné formy datové tabulky, ale přesto obsahuje značky nebo jiné značky k oddělení sémantických prvků a vynucení hierarchií záznamů a polí v datech. Proto je také známý jako popisující sebe struktura.
V polostrukturovaných datech mohou mít entity patřící do stejné třídy různé atributy i když jsou seskupeny dohromady a pořadí atributů není důležité.
Polostrukturovaná data se od nástupu EU stále častěji vyskytují Internet kde celý text dokumenty a databáze již nejsou jedinými formami dat a pro různé aplikace je třeba médium výměna informací. v objektově orientované databáze, jeden často najde polostrukturovaná data.
Druhy polostrukturovaných dat
XML
XML,[2] další značkovací jazyky, e-mailem, a EDI jsou všechny formy polostrukturovaných dat. OEM (Model výměny objektů)[3] byl vytvořen před XML jako prostředek vlastního popisu datové struktury. XML byl propagován webovými službami, které jsou vyvíjeny s využitím MÝDLO zásady.
Některé typy dat zde popsané jako „polostrukturované“, zejména XML, trpí dojmem, že nejsou schopné strukturní důslednosti na stejné funkční úrovni jako relační tabulky a řádky. Pohled na XML jako inherentně polostrukturovaný (dříve byl označován jako „nestrukturovaný“) jeho použití pro širší škálu datově orientovaných aplikací znevýhodnil. Dokonce i dokumenty, které jsou běžně považovány za ztělesnění polostruktury, mohou být navrženy s téměř stejnou přísností jako databázové schéma, vynuceno schématem XML a zpracovány komerčními i zakázkovými softwarovými programy, aniž by se snížila jejich použitelnost pro lidské čtenáře.
S ohledem na tuto skutečnost lze XML označit jako „flexibilní strukturu“ schopnou toku a hierarchie zaměřenou na člověka, stejně jako vysoce přísnou strukturu prvků a typizaci dat.
Koncept XML jako „čitelného pro člověka“ však lze přijmout pouze doposud. Některé implementace / dialekty XML, například XML reprezentace obsahu dokumentu Microsoft Word, implementované v Office 2007 a novějších verzích, využívají desítky nebo dokonce stovky různých druhů značek, které odrážejí konkrétní problémovou doménu - v případě Wordu , formátování na úrovni znaků a odstavců a dokumentů, definice stylů, zahrnutí citací atd. - které jsou do sebe vnořeny složitými způsoby. Pochopení dokonce i části takového dokumentu XML jeho přečtením, natož chytání chyb v jeho struktuře, je nemožné bez velmi hlubokého předchozího porozumění konkrétní implementaci XML spolu s pomocí softwaru, který rozumí použitému schématu XML. Takový text není „člověkem srozumitelný“ o nic víc, než by kniha napsaná ve svahilštině (používající latinku) byla pro Američana nebo Západoevropana, který nezná ani slovo v tomto jazyce: značky jsou symboly, které nemají smysl osoba, která doménu nezná.
JSON
JSON nebo JavaScript Object Notation, je otevřený standardní formát, který k přenosu datových objektů sestávajících z dvojic atribut – hodnota používá text čitelný člověkem. Používá se především k přenosu dat mezi serverem a webovou aplikací, jako alternativa k XML. JSON byl propagován webovými službami vyvinutými s využitím ZBYTEK zásady.
Existuje nový druh databází, jako je MongoDB a Couchbase které nativně ukládají data ve formátu JSON a využívají výhody polostrukturované datové architektury.
Výhody a nevýhody používání polostrukturovaného datového formátu
Výhody
- Programátoři přetrvávající objekty ze své aplikace do databáze se nemusí obávat nesoulad objektově-relační impedance, ale může často serializovat objekty pomocí odlehčené knihovny.
- Podpora vnořených nebo hierarchických dat často zjednodušuje datové modely představující složité vztahy mezi entitami.
- Podpora seznamů objektů zjednodušuje datové modely tím, že se vyhýbá chaotickým překladům seznamů do relačního datového modelu.
Nevýhody
- Tradiční relační datový model má populární a připravený dotazovací jazyk, SQL.
- Náchylný k „smetí dovnitř, smetí ven“; odstraněním omezení z datového modelu existuje méně předpokladů, které jsou nezbytné pro provoz datové aplikace.
Viz také
Reference
- ^ Peter Buneman (1997). „Polostrukturovaná data“ (PDF). Symposium on Principles of Database Systems.
- ^ Databázová skupina Penn má polostrukturovaný a datový projekt XML
- ^ Stanfordské univerzity mají více DBMS
externí odkazy
- UPenn Database Group - polostrukturovaná data a XML
- Semi-strukturovaná analýza dat: relační nebo Hadoop platforma? IBM