Apache Ignite - Apache Ignite

Apache Ignite
Apache Ignite logo.svg
Původní autořiGridGain systémy
VývojářiSoftwarová nadace Apache
První vydání24. března 2015; před 5 lety (2015-03-24)
Stabilní uvolnění
2.9.0 / 27 května 2020; před 6 měsíci (2020-05-27)
ÚložištěZapálit úložiště
NapsánoJáva, C#, C ++, SQL
Operační systémCross-platform
PlošinaIA-32, x86-64, PowerPC, SPARC, Java platforma, .NET Framework
TypDatabáze, výpočetní platforma
LicenceLicence Apache 2.0
webová stránkazapálit.apache.org

Apache Ignite je distribuovaná databáze s otevřeným zdrojovým kódem (bez postupného upgradu), platforma pro ukládání do mezipaměti a zpracování určená k ukládání a výpočtu na velkých objemech dat v klastru uzlů.[1]

Ignite byl otevřeným zdrojem GridGain systémy na konci roku 2014 a přijato v EU Inkubátor Apache téhož roku.[2][3] Projekt Ignite absolvoval 18. září 2015.[3]

Databáze Apache Ignite využívá RAM jako výchozí úroveň úložiště a zpracování, tedy patřící do třídy výpočet v paměti platformy.[4] Úroveň disku je volitelná, ale po povolení bude obsahovat celou sadu dat, zatímco úroveň paměti[5] uloží do mezipaměti úplnou nebo částečnou sadu dat v závislosti na její kapacitě.

Bez ohledu na použité API jsou data v Ignite ukládána ve formě párů klíč – hodnota. Komponenta databáze se horizontálně mění a distribuuje páry klíč-hodnota napříč klastrem takovým způsobem, že každý uzel vlastní část celkové datové sady. Data jsou znovu vyvážena automaticky, kdykoli je uzel přidán nebo odebrán z clusteru.

Kromě svého distribuovaného základu podporuje Apache Ignite celou řadu API, včetně API klíč-hodnota vyhovujících JCache, ANSI-99 SQL s připojením, KYSELINA transakce, stejně jako MapReduce jako výpočty.

Cluster Apache Ignite lze nasadit na místě na komoditním hardwaru v cloudu (např. Microsoft Azure, AWS, Google Compute Engine ) nebo v kontejnerovém a zajišťovacím prostředí, jako je Kubernetes, Přístavní dělník, Apache Mesos, VMWare.[6][7]

Shlukování

Klastrová komponenta Apache Ignite je založena na nesdílela nic architektury. Uzly jsou rozděleny do dvou hlavních kategorií - server a klient. Uzly serveru jsou úložné a výpočetní jednotky klastru, které obsahují data i indexy a zpracovávají příchozí požadavky spolu s výpočty. Uzly serveru jsou také známé jako datové uzly.[8]

Klientské uzly jsou body připojení z aplikací a služeb k distribuované databázi představované jako shluk serverových uzlů. Klientské uzly jsou obvykle vloženy do kódu aplikace zapsaného v Jáva, C# nebo C ++ které mají vyvinuté speciální knihovny.

Apache Ignite dále poskytuje ODBC,[9] JDBC[10] a ZBYTEK ovladače jako způsob práce s databází z jiných programovacích jazyků nebo nástrojů. Ovladače interně využívají klientské uzly nebo nízkoúrovňová připojení soketů ke komunikaci s clusterem.

Rozdělení a replikace

Databáze Ignite organizuje data ve formě párů klíč – hodnota v distribuovaných „mezipaměti“ (pojem mezipaměti se používá z historických důvodů, protože databáze zpočátku podporovala paměťovou vrstvu). Obecně každá mezipaměť představuje jeden typ entity, jako je zaměstnanec nebo organizace.

Každá mezipaměť je rozdělena na pevnou sadu "oddílů", které jsou rovnoměrně rozděleny mezi uzly clusteru pomocí setkání hash algoritmus. Vždy existuje jedna primární a nula nebo více záložních kopií oddílu. Počet kopií je konfigurován pomocí parametru faktoru replikace.[11] Pokud je nakonfigurován režim úplné replikace, pak každý uzel clusteru uloží kopii oddílu. Oddíly jsou znovu vyváženy[12] automaticky, pokud je do clusteru přidán nebo odebrán uzel, aby se dosáhlo rovnoměrné distribuce dat a rozložilo se pracovní vytížení.

Páry klíč – hodnota se uchovávají v oddílech. Apache Ignite mapuje pár na oddíl tak, že vezme hodnotu klíče a předá ji speciálnímu hashovací funkce.

Architektura paměti

Paměťová architektura v Apache Ignite se skládá ze dvou úložných úrovní a nazývá se „odolná paměť“. Interně to používá stránkování pro správu paměťového prostoru a odkaz na data,[13] podobně jako virtuální paměť systémů jako Unix. Jedním z významných rozdílů mezi architekturou trvalé a virtuální paměti je, že první vždy uchovává celou datovou sadu s indexy na disku (za předpokladu, že je povolena disková úroveň), zatímco virtuální paměť používá disk, když mu dojde RAM, pouze pro účely výměny.

První vrstva paměťové architektury, paměťová vrstva, uchovává data a indexy RAM z haldy Java v takzvaných „regionech mimo haldu“. Regiony jsou předem přiděleny a spravovány samotnou databází, což ve výsledku brání využití haldy Java pro potřeby úložiště, což pomáhá vyhnout se dlouhým pauzám na uvolňování paměti. Regiony jsou rozděleny na stránky pevné velikosti, která ukládá data, indexy a metadata systému.[14]

Apache Ignite je plně funkční z paměťové úrovně, ale vždy je možné použít druhou vrstvu, diskovou vrstvu, kvůli trvanlivost. Databáze přichází s vlastní nativní perzistencí a navíc ji lze použít RDBMS, NoSQL nebo Hadoop databáze jako disková úroveň.

Nativní vytrvalost

Apache Ignite native persistence je distribuované a silně konzistentní úložiště disku, které vždy obsahuje nadmnožinu dat a indexů na disku. Úroveň paměti [5] uloží do mezipaměti pouze tolik dat, kolik dokáže, v závislosti na jeho kapacitě. Například pokud existuje 1000 položek a na paměťovou vrstvu se vejde pouze 300 z nich, pak všech 1000 bude uloženo na disk a pouze 300 bude uloženo do mezipaměti v paměti RAM.

Vytrvalost používá protokolování dopředu (WAL) technika pro uchování okamžitých úprav dat na disku.[15] Na pozadí spustí úložiště "proces kontrolního bodu", jehož účelem je zkopírovat špinavé stránky z úrovně paměti do souborů oddílů. Špinavá stránka je stránka, která je upravena v paměti s úpravou zaznamenanou ve formátu WAL, ale není zapsána do příslušného souboru oddílu. Kontrolní bod umožňuje v průběhu času odebrat zastaralé segmenty WAL a zkracuje dobu restartu klastru a přehrává pouze tu část WAL, která nebyla použita na soubory oddílu.[16]

Vytrvalost třetích stran

Nativní vytrvalost byla k dispozici od verze 2.1.[17] Předtím Apache Ignite podporoval jako diskovou vrstvu pouze databáze třetích stran.

Apache Ignite lze nakonfigurovat jako vrstvu v paměti RDBMS, NoSQL nebo Hadoop zrychlení databází.[18] Ve srovnání s nativní perzistencí však existují určitá omezení. Například dotazy SQL budou provedeny pouze na datech, která jsou v paměti RAM, což vyžaduje předem načíst veškerou datovou sadu z disku do paměti předem.

Vyměňte prostor

Při použití úložiště čisté paměti je možné, že velikost dat překročí velikost fyzické paměti RAM, což povede k OOME. Aby se tomu zabránilo, ideálním přístupem by bylo povolení Ignite native persistence nebo použití persistence třetích stran. Pokud však nechcete používat perzistenci nativního nebo jiného výrobce, můžete povolit odkládání, v takovém případě budou data Ignite v paměti přesunuta do odkládacího prostoru umístěného na disku. Všimněte si, že Ignite neposkytuje vlastní implementaci odkládacího prostoru. Místo toho využívá výhody funkce výměny poskytované operačním systémem (OS). Když je povolený odkládací prostor, Ignites ukládá data do souborů mapovaných do paměti (MMF), jejichž obsah bude operačním systémem vyměněn na disk v závislosti na aktuální spotřebě RAM

Konzistence

Apache Ignite je silně konzistentní platforma, která se implementuje dvoufázový protokol potvrzení.[19] Záruky konzistence jsou splněny pro paměťové i diskové úrovně. Transakce v Apache Ignite jsou V souladu s ACID a může zahrnovat více uzlů clusteru a mezipaměti. Databáze podporuje pesimistické a optimistické režimy souběžnosti, zablokování -bezplatné transakce a techniky detekce zablokování.

Ve scénářích, kde jsou transakční záruky volitelné, umožňuje Apache Ignite provádění dotazů v atomovém režimu, který poskytuje lepší výkon.

Distribuovaný SQL

Apache Ignite lze přistupovat pomocí rozhraní SQL API vystavených prostřednictvím ovladačů JDBC a ODBC a nativních knihoven vyvinutých pro Jáva, C#, C ++ programovací jazyky. Oba manipulování s daty a definice dat syntaxe jazyků vyhovuje ANSI-99 Specifikace.

Jako distribuovaná databáze podporuje Apache Ignite jak distribuované, tak i nelokované připojí se.[20] Když jsou data umístěna společně, spojení se provádějí na lokálních datech uzlů clusteru, aby se zabránilo pohybu dat v síti. Nezařazená spojení mohou přesouvat datové sady po síti za účelem přípravy konzistentní sady výsledků.

Strojové učení

Apache Ignite poskytuje školení strojového učení a odvození, stejně jako předzpracování dat a odhad kvality modelu.[21] Nativně podporuje klasické tréninkové algoritmy jako např Lineární regrese, Rozhodovací stromy, Náhodný les, Posílení přechodu, SVM, K-prostředky a další. Kromě toho má Apache Ignite hlubokou integraci s TensorFlow.[22] Tato integrace umožňuje trénovat neuronové sítě na datech uložených v Apache Ignite jedním uzlem nebo distribuovaným způsobem.

Klíčovou myšlenkou sady nástrojů Apache Ignite Machine Learning je schopnost provádět distribuované školení a odvozovat okamžitě bez rozsáhlých datových přenosů. Je to založeno na MapReduce přístup, odolný vůči poruchám uzlů a vyvážení dat, umožňuje vyhnout se datovým přenosům a urychlit tak předzpracování a trénink modelu.[23]

Reference

  1. ^ „Co je Apache Ignite? - DZone Big Data“. dzone.com. Citováno 2017-11-02.
  2. ^ „Nikita Ivanov na platformě Apache Ignite In-Memory Computing“. InfoQ. Citováno 2017-11-02.
  3. ^ A b „Ignite Status - Apache Incubator“. incubator.apache.org. Citováno 2017-11-02.
  4. ^ „Nikita Ivanov na platformě Apache Ignite In-Memory Computing“. InfoQ. Citováno 2017-10-11.
  5. ^ A b „Apache Ignite Native Persistence, Stručný přehled - DZone Big Data“. dzone.com. Citováno 2017-10-11.
  6. ^ „Nasazení Apache Ignite v Kubernetes v Microsoft Azure - cloud DZone“. dzone.com. Citováno 2017-10-11.
  7. ^ "OLTP v paměti v reálném čase a analytika s Apache Ignite na AWS | Amazon Web Services". Webové služby Amazon. 2016-05-14. Citováno 2017-10-11.
  8. ^ „Klienti a servery“. apacheignite.readme.io. Citováno 2017-10-11.
  9. ^ „Ovladač ODBC“. apacheignite.readme.io. Citováno 2017-10-11.
  10. ^ „Ovladač JDBC“. apacheignite.readme.io. Citováno 2017-10-11.
  11. ^ „Primární a záložní kopie“. apacheignite.readme.io. Citováno 2017-10-11.
  12. ^ „Vyvažování dat“. apacheignite.readme.io. Citováno 2017-10-11.
  13. ^ „Apache Ignite 2.0: Přepracovaná off-heap paměť, DDL a strojové učení: Apache Ignite“. blogs.apache.org. Citováno 2017-10-11.
  14. ^ "Paměťová architektura". apacheignite.readme.io. Citováno 2017-10-11.
  15. ^ „Ignite Persistence“. apacheignite.readme.io. Citováno 2017-10-11.
  16. ^ „Ignite Persistence“. apacheignite.readme.io. Citováno 2017-10-11.
  17. ^ „Apache Ignite 2.1 - skok od architektury v paměti k architektuře zaměřené na paměť: Apache Ignite“. blogs.apache.org. Citováno 2017-10-11.
  18. ^ "Apache Ignite pro ukládání do mezipaměti databáze - databáze DZone". dzone.com. Citováno 2017-10-11.
  19. ^ „Distribuované myšlenky“. Citováno 2017-10-11.
  20. ^ „Apache Ignite 1.7: Vítejte nelokovaných distribuovaných připojení! - databáze DZone“. dzone.com. Citováno 2017-10-11.
  21. ^ "Strojové učení". apacheignite.readme.io. Citováno 2018-12-27.
  22. ^ "TensorFlow: Apache Ignite Integration". github.com. Citováno 2018-12-27.
  23. ^ „Datová sada založená na oddílech“. apacheignite.readme.io. Citováno 2018-12-27.