NoSQL - NoSQL

A NoSQL (původně odkazující na „ne-SQL „nebo„ nerelační “)[1] databáze poskytuje mechanismus pro úložný prostor a vyhledávání dat, která jsou modelována jinými prostředky než tabulkovými vztahy použitými v relační databáze. Takové databáze existují od konce 60. let, ale název „NoSQL“ byl vytvořen až na počátku 21. století,[2] vyvolané potřebami Web 2.0 společnosti.[3][4] Databáze NoSQL se stále více používají v velká data a web v reálném čase aplikace.[5] Systémy NoSQL se také někdy nazývají „nejen SQL“, aby se zdůraznilo, že mohou podporovat SQL jako dotazovací jazyky nebo sedět vedle SQL databází v polyglot-persistent architektury.[6][7]

Motivace pro tento přístup zahrnují: jednoduchost design jednodušší „horizontální“ škálování na shluky strojů (což je problém pro relační databáze),[2] jemnější kontrolu nad dostupnost a omezení nesoulad objektově-relační impedance.[8] Datové struktury používané databázemi NoSQL (např. pár klíč – hodnota, široký sloup, graf nebo dokument ) se liší od těch, které se ve výchozím nastavení používají v relačních databázích, takže v NoSQL jsou některé operace rychlejší. Konkrétní vhodnost dané databáze NoSQL závisí na problému, který musí vyřešit. Někdy jsou datové struktury používané databázemi NoSQL také považovány za „pružnější“ než tabulky relačních databází.[9]

Mnoho obchodů NoSQL ukládá kompromisní konzistenci (ve smyslu Věta CAP ) ve prospěch dostupnosti, tolerance oddílů a rychlosti. Mezi překážky většího přijetí obchodů NoSQL patří použití dotazovacích jazyků na nízké úrovni (například místo SQL), nedostatečná schopnost provádět ad hoc připojí se napříč tabulkami, nedostatek standardizovaných rozhraní a obrovské předchozí investice do stávajících relačních databází.[10] Většina obchodů NoSQL chybí KYSELINA transakcí, ačkoli několik databází je učinilo ústředními pro jejich návrhy.

Místo toho většina databází NoSQL nabízí koncept „případná konzistence ", ve kterém jsou změny databáze" nakonec "(obvykle během milisekund) přeneseny na všechny uzly, takže dotazy na data nemusí okamžitě vracet aktualizovaná data nebo mohou mít za následek nesprávné čtení dat, což je problém známý jako zastaralé čtení.[11] Některé systémy NoSQL mohou navíc vykazovat ztracené zápisy a jiné formy ztráta dat.[12] Některé systémy NoSQL poskytují pojmy jako protokolování dopředu aby nedošlo ke ztrátě dat.[13] Pro distribuované zpracování transakcí napříč více databázemi je konzistence dat ještě větší výzvou, která je pro NoSQL i relační databáze obtížná. Relační databáze „neumožňují omezení referenční integrity v rozsahu databází“.[14] Jen málo systémů udržuje obojí KYSELINA transakce a X / Otevřít XA standardy pro distribuované zpracování transakcí.[15] Interaktivní relační databáze sdílejí techniky konformační reléové analýzy jako společný rys.[16] Omezení v prostředí rozhraní jsou překonána pomocí sémantických virtualizačních protokolů, takže služby NoSQL jsou přístupné většině operačních systémů.[17]

Dějiny

Termín NoSQL byl používán Carlo Strozzi v roce 1998 pojmenovat jeho lehký Strozzi NoSQL open-source relační databáze který neodhalil standard strukturovaný dotazovací jazyk (SQL) rozhraní, ale stále bylo relační.[18] Jeho NoSQL RDBMS se liší od obecného konceptu databází NoSQL kolem roku 2009. Strozzi navrhuje, že jelikož se současné hnutí NoSQL „odchyluje od relačního modelu úplně, mělo se proto vhodněji nazývat„ NoREL ““,[19] s odkazem na „není relační“.

Johan Oskarsson, poté vývojář v Last.fm, znovu zavedl termín NoSQL počátkem roku 2009, kdy uspořádal akci k projednání „open-source distribuované, nerelační databáze ".[20] Název se pokusil označit vznik rostoucího počtu nerelačních distribuovaných úložišť dat, včetně otevřených zdrojových klonů Google Bigtable /MapReduce a Amazon DynamoDB.

Typy a příklady

Existují různé způsoby klasifikace databází NoSQL s různými kategoriemi a podkategoriemi, z nichž některé se překrývají. Následuje základní klasifikace podle datového modelu s příklady:

Podrobnější klasifikace je následující, založená na jedné od Stephena Yena:[21][22]

TypPozoruhodné příklady tohoto typu
Mezipaměť klíč – hodnotaApache Ignite, Couchbase, Soudržnost, eXtreme Scale, Hazelcast, Infinispan, Memcached, Redis, Rychlost
Úložiště klíč – hodnotaArangoDB, Aerospike, Couchbase, Redis
Úložiště klíč – hodnota (případně konzistentní)Databáze Oracle NoSQL, Dynamo, Riak, Voldemort
Úložiště klíč – hodnota (objednané)FoundationDB, InfinityDB, LMDB, MemcacheDB
Tuple storeŘeka Apache, GigaSpaces
Objektová databázeObjektivita / DB, Perst, ZopeDB
Obchod s dokumentyArangoDB, BaseX, Clusterpoint, Couchbase, CouchDB, DocumentDB, eXist-db, IBM Domino, MarkLogic, MongoDB, Qizx, Přehodnotit DB, Elasticsearch
Široký sloupový obchodAmazon DynamoDB, Bigtable, Cassandra, Scylla, HBase, Hypertabulka
Nativní databáze pro více modelůArangoDB, Kosmos DB, OrientDB, MarkLogic

Korelační databáze jsou nezávislé na modelu a místo úložiště založeného na řádcích nebo sloupcích použijte úložiště založené na hodnotách.

Úložiště klíč – hodnota

Obchody klíč – hodnota (KV) používají asociativní pole (nazývané také mapa nebo slovník) jako jejich základní datový model. V tomto modelu jsou data reprezentována jako kolekce párů klíč – hodnota, takže se každý možný klíč v kolekci objeví maximálně jednou.[23][24]

Model klíč – hodnota je jedním z nejjednodušších netriviálních datových modelů a bohatší datové modely jsou často implementovány jako jeho rozšíření. Model klíč – hodnota lze rozšířit na diskrétně uspořádaný model, který udržuje klíče lexikografický řád. Toto rozšíření je výpočetně výkonné v tom, že může efektivně načíst selektivní klíč rozsahy.[25]

Obchody s páry klíč – hodnota lze použít modely konzistence od případná konzistence na serializovatelnost. Některé databáze podporují řazení klíčů. Existují různé hardwarové implementace a někteří uživatelé ukládají data do paměti (RAM), zatímco jiní disky SSD (SSD) nebo rotující disky (aka jednotka pevného disku (HDD)).

Obchod s dokumenty

Ústředním konceptem úložiště dokumentů je koncept „dokumentu“. I když se podrobnosti této definice u databází orientovaných na dokumenty liší, všechny předpokládají, že dokumenty zapouzdřují a kódují data (nebo informace) v některých standardních formátech nebo kódováních. Používaná kódování zahrnují XML, YAML, a JSON a binární formy jako BSON. Dokumenty jsou v databázi adresovány prostřednictvím jedinečného klíč který představuje daný dokument. Další definující charakteristikou databáze orientované na dokumenty je API nebo dotazovací jazyk pro načítání dokumentů na základě jejich obsahu.

Různé implementace nabízejí různé způsoby organizace a / nebo seskupení dokumentů:

  • Sbírky
  • Značky
  • Neviditelná metadata
  • Hierarchie adresářů

Ve srovnání s relačními databázemi lze sbírky považovat za analogické s tabulkami a dokumenty analogickými k záznamům. Ale liší se: každý záznam v tabulce má stejnou posloupnost polí, zatímco dokumenty v kolekci mohou mít pole, která jsou zcela odlišná.

Graf

Databáze grafů jsou určeny pro data, jejichž vztahy jsou dobře reprezentovány jako a graf skládající se z prvků spojených konečným počtem vztahů. Mezi příklady údajů patří sociální vztahy, odkazy veřejné dopravy, silniční mapy, topologie sítí atd.

Grafové databáze a jejich dotazovací jazyk
názevJazyk (y)Poznámky
AllegroGraphSPARQLRDF trojitý obchod
Amazonský NeptunSkřítek, SPARQLDatabáze grafů
ArangoDBAQL, JavaScript, GraphQLMulti-model DBMS Dokument, Databáze grafů a Úložiště klíč – hodnota
DEX / SparkseeC ++, Jáva, C#, KrajtaDatabáze grafů
FlockDBScalaDatabáze grafů
IBM DB2SPARQLRDF v produktu DB2 10 přidán trojitý obchod
InfiniteGraphJávaDatabáze grafů
MarkLogicJáva, JavaScript, SPARQL, XQueryMulti-model databáze dokumentů a RDF trojitý obchod
Neo4jNickaDatabáze grafů
OpenLink VirtuosoC ++, C#, Jáva, SPARQLMiddleware a databázový stroj hybridní
VěštecSPARQL 1.1RDF trojitý obchod přidán v 11 g
OrientDBJáva, SQLMulti-model dokument a grafová databáze
SOVAJáva, SPARQL 1.1RDF trojitý obchod
Profium SenseJáva, SPARQLRDF trojitý obchod
Sqrrl EnterpriseJávaDatabáze grafů

Objektová databáze

Tabelární

Tuple store

Databáze Triple / Quad Store (RDF)

Hostováno

Vícehodnotové databáze

Multimodel databáze

Výkon

Ben Scofield hodnotil různé kategorie databází NoSQL následovně:[28]

Datový modelVýkonŠkálovatelnostFlexibilitaSložitostFunkčnost
Úložiště klíč – hodnotavysokývysokývysokýžádnýproměnná (žádná)
Sloupově orientovaný obchodvysokývysokýmírnýnízkýminimální
Dokumentově orientovaný obchodvysokývariabilní (vysoká)vysokýnízkývariabilní (nízká)
Databáze grafůproměnnáproměnnávysokývysokýteorie grafů
Relační databázeproměnnáproměnnánízkýmírnýrelační algebra

Porovnání výkonu a škálovatelnosti se někdy provádí pomocí YCSB měřítko.

Zpracování relačních dat

Vzhledem k tomu, že většina databází NoSQL nemá schopnost připojení v dotazech, databázové schéma obecně musí být navrženo jinak. Existují tři hlavní techniky pro zpracování relačních dat v databázi NoSQL. (Viz tabulka Připojit se a Podpora ACID pro databáze NoSQL, které podporují spojení.)

Více dotazů

Namísto načtení všech dat pomocí jednoho dotazu je běžné provést několik dotazů k získání požadovaných dat. NoSQL dotazy jsou často rychlejší než tradiční dotazy SQL, takže náklady na další dotazy mohou být přijatelné. Pokud by byl nutný nadměrný počet dotazů, je vhodnější jeden z dalších dvou přístupů.

Ukládání do mezipaměti, replikace a nenormalizovaná data

Místo ukládání pouze cizích klíčů je běžné ukládat skutečné cizí hodnoty spolu s daty modelu. Například každý komentář blogu může kromě uživatelského jména obsahovat také uživatelské jméno, což poskytuje snadný přístup k uživatelskému jménu bez nutnosti dalšího vyhledávání. Když se však uživatelské jméno změní, bude to nyní třeba změnit na mnoha místech v databázi. Tento přístup tedy funguje lépe, když jsou čtení mnohem častější než zápisy.[29]

Vnoření dat

U databází dokumentů, jako je MongoDB, je běžné vkládat více dat do menšího počtu sbírek. Například v aplikaci pro blogování se člověk může rozhodnout ukládat komentáře do dokumentu příspěvku na blogu, takže při jednom načtení získá všechny komentáře. V tomto přístupu tedy jediný dokument obsahuje všechna data, která potřebujete pro konkrétní úkol.

KYSELINA a připojte se k podpoře

Databáze je označena jako podpůrná KYSELINA vlastnosti (atomičnost, konzistence, izolace, trvanlivost) nebo připojit se operace, pokud je to v dokumentaci k databázi. Míra, do jaké je schopnost plně podporována podobným způsobem jako většina databází SQL, je dostatečně charakterizována jednoduchým dialogem.

DatabázeKYSELINAPřipojí
AerospikeAnoNe
Apache IgniteAnoAno
ArangoDBAnoAno
CouchbaseAnoAno
CouchDBAnoAno
Db2AnoAno
InfinityDBAnoNe
LMDBAnoNe
MarkLogicAnoAno[poznámka 1]
MongoDBAnoAno[pozn. 2]
OrientDBAnoAno[pozn. 3]
  1. ^ Spojení se nemusí nutně vztahovat na databáze dokumentů, ale MarkLogic může provádět spojení pomocí sémantiky.[30]
  2. ^ MongoDB nepodporuje připojení ze shardované kolekce.[31]
  3. ^ OrientDB může vyřešit spojení 1: 1 pomocí odkazů uložením přímých odkazů na zahraniční záznamy.[32]

Viz také

Reference

  1. ^ http://nosql-database.org/ "DEFINICE NoSQL: Databáze nové generace, které se většinou zabývají některými body: jsou nerelační, distribuované, open-source a horizontálně škálovatelné".
  2. ^ A b Leavitt, Neal (2010). „Splní NoSQL databáze svůj slib?“ (PDF). Počítač IEEE. 43 (2): 12–14. doi:10.1109 / MC.2010.58. S2CID  26876882.
  3. ^ Mohan, C. (2013). Historie se opakuje: Rozumné a nesmyslné aspekty NoSQL Hoopla (PDF). Proc. 16. mezinárodní konf. o rozšiřování databázové technologie.
  4. ^ „Amazon se vrací do budoucnosti s databází„ NoSQL “. WIRED. 19. ledna 2012. Citováno 6. března 2017.
  5. ^ „RDBMS dominuje na trhu s databázemi, ale systémy NoSQL se dohánějí“. DB-Engines.com. 21. listopadu 2013. Citováno 24. listopadu 2013.
  6. ^ „NoSQL (nejen SQL)“. Databáze NoSQL, nazývaná také nejen SQL
  7. ^ Fowler, Martin. „NosqlDefinition“. mnoho zastánců NoSQL říká, že to neznamená „ne“ pro SQL, ale znamená to nejen SQL
  8. ^ NoSQL Distilled: Stručný průvodce vznikajícím světem polyglotové perzistence. Addison-Wesley Educational Publishers Inc, 2009, ISBN  978-0321826626.
  9. ^ Vogels, Werner (18. ledna 2012). „Amazon DynamoDB - rychlá a škálovatelná databázová služba NoSQL určená pro aplikace v internetovém měřítku“. Všechny věci distribuovány. Citováno 6. března 2017.
  10. ^ Grolinger, K .; Higashino, W. A .; Tiwari, A .; Capretz, M. A. M. (2013). „Správa dat v cloudových prostředích: datová úložiště NoSQL a NewSQL“ (PDF). Aira, Springer. Citováno 8. ledna 2014.
  11. ^ „Jepsen: MongoDB stale reads“. Aphyr.com. 20. dubna 2015. Citováno 6. března 2017.
  12. ^ „Analýza velkých objemů dat na reaktivní platformě Typesafe“. Slideshare.net. Citováno 6. března 2017.
  13. ^ Fowler, Adam. „10 mylných představ o NoSQL“. Dummies.com. Citováno 6. března 2017.
  14. ^ „Ne! Na SQL a Ne! Na NoSQL | Tolik příruček Oracle, tak málo času“. Iggyfernandez.wordpress.com. Citováno 6. března 2017.
  15. ^ Chapple, Mike. „Model ACID“. about.com.
  16. ^ Fiore, S. (2011). Grid a cloudová správa databáze. Springer Science & Business Media. p. 210.
  17. ^ Lawrence, integrace a virtualizace relačních systémů SQL a NoSQL včetně MySQL a MongoDB (2014). "Integrace a virtualizace relačních systémů SQL a NoSQL včetně MySQL a MongoDB". Mezinárodní konference o výpočetní vědě a výpočetní inteligenci 1.
  18. ^ Lith, Adam; Mattson, Jakob (2010). „Investigating storage solutions for large data: a comparison of well efficient and scalable data storage solutions for real time mining and batch insertion of data“ (PDF). Göteborg: Katedra informatiky a výpočetní techniky, Chalmers University of Technology. p. 70. Citováno 12. května 2011. Carlo Strozzi poprvé použil výraz NoSQL v roce 1998 jako název své relační databáze s otevřeným zdrojovým kódem, která nenabízela rozhraní SQL [...]
  19. ^ „Systém správy relačních databází NoSQL: domovská stránka“. Strozzi.it. 2. října 2007. Citováno 29. března 2010.
  20. ^ „NoSQL 2009“. Blog.sym-link.com. 12. května 2009. Archivovány od originál dne 16. července 2011. Citováno 29. března 2010.
  21. ^ Yen, Stephene. „NoSQL je kočár bez koní“ (PDF). NorthScale. Citováno 26. června 2014.[mrtvý odkaz ]
  22. ^ Strauch, Christof. "NoSQL databáze" (PDF). str. 23–24. Citováno 27. srpna 2017.
  23. ^ Sandy (14. ledna 2011). „Úložiště klíčových hodnot a pohyb NoSQL“. http://dba.stackexchange.com/questions/607/what-is-a-key-value-store-database: Stackexchange. Citováno 1. ledna 2012. Úložiště klíč – hodnota umožňují vývojáři aplikací ukládat data bez schémat. Tato data se obvykle skládají z řetězce, který představuje klíč, a skutečných dat, která jsou považována za hodnotu ve vztahu „klíč – hodnota“. Samotná data jsou obvykle nějaký druh primitivu programovacího jazyka (řetězec, celé číslo nebo pole) nebo objekt, který je zařazen vazbami programovacího jazyka do úložiště klíč-hodnota. Tato struktura nahrazuje potřebu pevného datového modelu a umožňuje správné formátování.CS1 maint: umístění (odkaz)
  24. ^ Seeger, Marc (21. září 2009). „Obchody klíč – hodnota: praktický přehled“ (PDF). http://blog.marc-seeger.de/2009/09/21/key-value-stores-a-practical-overview/: Marc Seeger. Citováno 1. ledna 2012. Úložiště klíč – hodnota poskytují vysoce výkonnou alternativu k systémům relačních databází, pokud jde o ukládání a přístup k datům. Tento článek poskytuje krátký přehled některých aktuálně dostupných úložišť klíč – hodnota a jejich rozhraní k programovacímu jazyku Ruby.CS1 maint: umístění (odkaz)
  25. ^ Katsov, Ilya (1. března 2012). „Techniky modelování dat NoSQL“. Ilya Katsov. Citováno 8. května 2014.
  26. ^ https://apacheignite.readme.io/docs Zapálit dokumentaci
  27. ^ https://www.infoworld.com/article/3135070/data-center/fire-up-big-data-processing-with-apache-ignite.html zapálit-velké-zpracování dat-s-apache-zapálit
  28. ^ Scofield, Ben (14. ledna 2010). „NoSQL - smrt relačním databázím (?)“. Citováno 26. června 2014.
  29. ^ „Přechod od relačního k NoSQL: Jak začít“. Couchbase.com. Citováno 11. listopadu 2019.
  30. ^ „Nemohu se připojit k MarkLogic? Je to jen otázka sémantiky! - Obecné sítě“. Gennet.com. Citováno 6. března 2017.
  31. ^ „Sharded Collection Restrictions“. docs.mongodb.com. Citováno 24. ledna 2020.
  32. ^ „Referenční příručka k SQL · příručka OrientDB“. OrientDB.com. Citováno 24. ledna 2020.

Další čtení

externí odkazy