Zařízení datového skladu - Data warehouse appliance
v výpočetní, termín zařízení datového skladu (DWA) vytvořil Foster Hinshaw[1][2] pro počítačovou architekturu pro datové sklady (DW) speciálně prodávaný pro velká data analýza a objev, který se snadno používá (nikoli předkonfigurace) a vysoký výkon pro pracovní zátěž. DWA zahrnuje integrovanou sadu serverů, úložiště, operační systémy, a databáze.
V marketingu se tento pojem vyvinul tak, aby zahrnoval předinstalovaný a předoptimalizovaný hardware a software i podobné systémy pouze pro software[3] propagována jako snadná instalace na konkrétní doporučené hardwarové konfigurace nebo předkonfigurovaná jako kompletní systém.[4][5] Jedná se o marketingové použití termínu a neodráží technickou definici.
DWA je navržen speciálně pro vysoce výkonnou analýzu velkých dat a je dodáván jako snadno použitelný zabalený systém. DW zařízení jsou prodávána pro objemy dat v terabajt na petabajt rozsah.
Technologie
Zařízení datového skladu (DWA) má několik charakteristik, které odlišují tuto architekturu od podobných strojů v datové centrum, například podnikový datový sklad (EDW).
- DWA má velmi těsnou integraci svých vnitřních komponent, které jsou optimalizovány pro operace „zaměřené na data“ na rozdíl od operací „zaměřených na výpočet“. Posledně jmenované mají tendenci zdůrazňovat počet CPU, jader a šířku pásma sítě.
- Použití a instalace DWA je triviální. Na rozdíl od „předkonfigurace“ komponent má DWA velmi málo konfiguračních přepínačů nebo možností. Eliminace těchto možností výrazně snižuje chyby v konfiguraci - příčina selhání číslo jedna ve velkých systémech.
- DWA je optimalizován pro analytiku na velká data. Naproti tomu předchozí architektury (včetně paralelních) se zaměřily na to, že „podnikový datový sklad“ je úložištěm pro všeobecné účely pro data a podporuje analytiku jako pomocný úkol.
Většina spotřebičů DW používá masivně paralelní architektury zpracování (MPP), které poskytují vysoký výkon dotazů a platformu škálovatelnost. Architektury MPP se skládají z nezávislých procesorů nebo serverů provádějících paralelně. Většina architektur MPP implementuje „architektura nic sdíleného "kde každý server pracuje soběstačně a řídí svou vlastní paměť a disk. Zařízení DW distribuují data na vyhrazené diskové úložné jednotky připojené ke každému serveru v zařízení. Tato distribuce umožňuje zařízením DW vyřešit relační dotaz paralelním skenováním dat na každém serveru. Přístup rozděl a panuj přináší vysoký výkon a lineární škálování při přidávání nových serverů do architektury.
Dějiny
„Zařízení datového skladu“ je termín vytvořený Fosterem Hinshawem,[1][2] zakladatel Netezza. Při vytváření prvního zařízení datového skladu použili Hinshaw a Netezza základy vyvinuté společností Model 204, Teradata a další průkopníkem v nové kategorii pro efektivní řešení spotřebitelské analýzy poskytnutím modulárního, škálovatelného a snadno spravovatelného databázového systému, který je nákladově efektivní.
Architektury databáze MPP mají dlouhý rodokmen. Někteří zvažují Teradata Počáteční produkt jako první DW zařízení - nebo Britton-Lee je[6][7]Teradata získala Britton Lee - přejmenovanou na ShareBase - v červnu 1990.[8]Jiní nesouhlasí a považují zařízení za „rušivou technologii“ pro Teradata[9]
Další prodejci, včetně Tandemové počítače, a Postupné počítačové systémy také nabízel architektury MPP v 80. letech. Otevřený zdroj a komoditní výpočet komponenty napomohly opětovnému vzniku datových skladových zařízení MPP. Pokrok v technologii snížil náklady a zlepšil výkon úložných zařízení, vícejádrový CPU a síťové komponenty. Otevřený zdroj RDBMS výrobky, jako např Ingres a PostgreSQL, snížit náklady na softwarovou licenci a umožnit prodejcům zařízení DW soustředit se spíše na optimalizaci než na poskytování základních funkcí databáze. Otevřený zdroj Linux se stal běžným operačním systémem pro zařízení DW.
Jiní prodejci zařízení DW používají místo architektur MPP specializovaný hardware a pokročilý software.[10] Netezza oznámila „datové zařízení“ v roce 2003 a použila specializované pole programovatelné brány Hardware.[11]Kickfire následoval v roce 2008 tím, čemu říkali a datový tok "sql chip".[12][Citace je zapotřebí ]
V roce 2009 se objevilo více DW zařízení. IBM integrovala své InfoSphere sklad (dříve DB2 Warehouse) s vlastními servery a úložištěm pro vytvoření IBM InfoSphere Balanced Warehouse. Netezza představila platformu TwinFin založenou na komoditním hardwaru IBM. Ostatní dodavatelé zařízení DW také uzavírali partnerství s významnými dodavateli hardwaru. DATAllegro, před akvizicí společností Microsoft, spolupracuje s EMC Corporation a Dell a implementoval open-source Ingres na Linuxu. Greenplum měl partnerství s Sun Microsystems a implementuje databázi Greenplum (založenou na PostgreSQL) na Solaris za použití ZFS souborový systém. HP Neoview používá HP NonStop SQL.
Na trhu také došlo ke vzniku svazků datových skladů, kde prodejci kombinují svůj hardware a databázový software společně jako platformu datových skladů. The Věštec Iniciativa Optimized Warehouse Initiative kombinuje databázi Oracle s hardwarem od různých výrobců počítačů (Dell, EMC, HP, IBM, SGI a Sun Microsystems ). Optimalizované sklady společnosti Oracle nabízejí předem ověřené konfigurace a databázový software je předinstalován. V září 2008 společnost Oracle začala nabízet klasičtější nabídku zařízení, HP Oracle Database Machine, společně vyvinutou a společně označenou platformu, kterou společnost Oracle prodávala a podporovala, a společnost HP vytvořila konfigurace speciálně pro Oracle.[13][14]V září 2009 společnost Oracle vydala druhou generaci Exadata na základě jejich získaných Sun Microsystems Hardware.[15]
Viz také
Reference
- ^ A b Infostor »Představujeme„ zařízení datového skladu “
- ^ A b TDWI »Další zařízení pro datové sklady se blíží!
- ^ Dotazy z blogu Hell »Kdy zařízení není zařízením?
- ^ DBMS2 - Služby systému správy databází »Archiv blogů» Zařízení datového skladu - fakta a fikce
- ^ Omer Trajman, Alain Crolotte David Steinhoff, Raghunath Nambiar, Meikel Poess: Databáze nejsou toustovače: Rámec pro porovnání zařízení Data Warehouse
- ^ Kobielus, James (22. dubna 2008). „Teradata Goes Appliance, Officially“. Archivovány od originál 29. září 2011. Citováno 2011-01-14.
Teradata účinně založila trh DW zařízení před čtvrtstoletím, když uvedla na trh první z dlouhé řady předkonfigurovaných a předoptimalizovaných řešení, která kombinují CPU, úložiště, software a databázi tak, aby splňovaly nejnáročnější požadavky na analytiku a podporu rozhodování
- ^ „Databázové stroje a zařízení datových skladů - počátky“. Monash Research. 15. září 2008. Citováno 2011-01-15.
Ale z praktických důvodů byli prvními dvěma významnými prodejci „databázových strojů“ Britton-Lee a Teradata. A protože Britton-Lee se nakonec vyprodala Teradata (po krátké změně názvu na ShareBase), má Teradata nárok na jakoukoli historickou slávu z inovace kategorie zařízení pro správu databáze.
- ^ All, Ann (6. dubna 2007). „Bude pro vás zařízení Data Warehouse pracovat?“. Citováno 2011-01-14.
DATAllegro má web v Sears. Sears používá [zařízení] jako front-end do svého skladu Teradata k výpočtu agregátů. Takže když chtějí dělat kousek a kostky, kolik jsme prodali, ve kterých obchodech a v jaké barvě, používají zařízení ... Myslím, že [zařízení] by mohla být pro Teradata rušivou technologií
- ^ [1]
- ^ „Server Netezza Performance Server (NPS ™) 8000“. Webová stránka produktu. Netezza. Archivovány od originál 3. února 2004. Citováno 16. srpna 2013.
- ^ „Archivovaná kopie“. Archivovány od originál dne 2009-05-24. Citováno 2009-07-18.CS1 maint: archivovaná kopie jako titul (odkaz)
- ^ Architekt Oracle Performance Kevin Clossen - server úložiště Oracle Exadata
- ^ „Oracle Exadata - Jaká je výhoda?“. Archivovány od originál dne 2008-11-20. Citováno 2008-11-19.
- ^ Alex Gorbačov (15. září 2009). „Odhalení OLTP Oracle Database Machine & Exadata v2“. Blog. Pythian. Citováno 16. srpna 2013.