Zpracování na místě - In-situ processing
Zpracování na místě také známý jako zpracování ve skladu (ISP) je pojem počítačové vědy, který označuje zpracování dat tam, kde se nacházejí. In situ znamená „nachází se na původním, přirozeném nebo stávajícím místě či pozici.“ Proces in-situ zpracovává data tam, kde jsou uložena, například v disky SSD (SSD) nebo paměťová zařízení jako NVDIMM namísto odesílání dat do počítače centrální procesorová jednotka (PROCESOR).
Tato technologie využívá vestavěné procesory uvnitř úložných zařízení, aby byla schopna spouštět uživatelské aplikace na místě, takže data nemusí opustit zařízení ke zpracování. Tato technologie není nová, ale moderní architektura SSD a dostupnost výkonných vestavěných procesorů zvyšují atraktivitu spouštění uživatelských aplikací na místě.[1] SSD disky poskytují vyšší datovou propustnost ve srovnání s pevné disky (HDD). Na rozdíl od pevných disků navíc mohou disky SSD zpracovávat více příkazů I / O současně.
Disky SSD obsahují značné množství zpracovatelského výkonu pro správu flash paměť pole a poskytování vysokorychlostního rozhraní hostitelským strojům. Tyto možnosti zpracování mohou poskytnout prostředí pro spouštění uživatelských aplikací na místě. The výpočetní paměťové zařízení (CSD) termín označuje SSD, který je schopen spouštět uživatelské aplikace na místě. V efektivní architektuře CSD má vestavěný subsystém pro zpracování v úložišti přístup k datům uloženým v poli paměti flash prostřednictvím nízkoenergetického a vysokorychlostního spojení. Nasazení takových CSD v klastrech může zvýšit celkový výkon a efektivitu velká data a vysoce výkonné výpočty (HPC) aplikace.[1]
Snižování překážek přenosu dat
Webová škála návrháři datových center se pokoušejí vyvinout architektury úložišť, které upřednostňují vysokokapacitní hostitele. Na následujícím obrázku (z [1]), je zobrazen takový úložný systém, kde je k hostiteli připojeno 64 SSD. Z důvodu jednoduchosti jsou ukázány pouze podrobnosti jednoho SSD. Moderní disky SSD obvykle obsahují 16 nebo více kanálů paměti flash, které lze současně využívat pro operace I / O pole paměti flash. Vzhledem k šířce pásma 512 MB / s na kanál je vnitřní šířka pásma SSD se 16 kanály paměti Flash přibližně 8 GB / s. Tato obrovská šířka pásma klesá na přibližně 1 GB / s kvůli složitosti softwarové a hardwarové architektury hostitelského rozhraní. Jinými slovy, akumulovaná šířka pásma všech interních kanálů 64 SSD dosahuje násobení počtu SSD, počtu kanálů na SSD a 512 MB / s (šířka pásma každého kanálu), která se rovná 512 GB / s . Zatímco akumulovaná šířka pásma externích rozhraní SSD se rovná 64, vynásobte 1 GB / s (šířka pásma hostitelského rozhraní každého SSD), což je 64 GB / s. Aby však bylo možné mluvit s hostitelem, musí být všechny disky SSD připojeny k přepínači PCIe. Dostupná šířka pásma hostitele je proto omezena na 32 GB / s.

Celkově existuje 16násobná mezera mezi akumulovanou vnitřní šířkou pásma všech SSD a šířkou pásma dostupnou hostiteli. Jinými slovy, pro čtení 32 TB dat potřebuje hostitel 16 minut, zatímco vnitřní komponenty SSD mohou číst stejné množství dat přibližně za 1 minutu. Navíc v takových úložných systémech se data musí neustále pohybovat přes složitý hardware a software mezi hostiteli a úložnými jednotkami, což ukládá značné množství spotřeby energie a dramaticky snižuje energetickou účinnost velkých datových center. Architekti úložišť proto musí vyvinout techniky ke snížení pohybu dat a byla zavedena technologie ISP k překonání výše uvedených výzev přesunem procesu k datům.
Účinnost a využití
Technologie výpočetního úložiště minimalizuje pohyby dat v klastru a také zvyšuje výkon zpracování klastru rozšířením energeticky efektivních procesorů na celý systém. Tuto technologii lze potenciálně použít na pevné disky i disky SSD; moderní architektura SSD však poskytuje lepší nástroje pro vývoj těchto technologií. Jednotky SSD, které mohou spouštět uživatelské aplikace na místě, se nazývají výpočetní úložná zařízení (CSD). Tyto úložné jednotky jsou rozšiřitelné zdroje zpracování, což znamená, že nejsou určeny k nahrazení špičkových procesorů moderních serverů. Místo toho mohou spolupracovat s CPU hostitele a rozšířit svůj efektivní výpočetní výkon do systému. Vědecký článek „Výpočetní úložiště: efektivní a škálovatelná platforma pro velká data a aplikace HPC“[1] který vydává Springer Publishing v rámci politiky otevřeného přístupu (pro veřejnost přístup zdarma) ukazuje výhody využití CSD v klastrech.
Příklady zpracování v úložišti lze vidět v oblastech, jako je vizualizace,[2] biologie[3] a chemie. To ukazuje, jak tato technologie umožňuje, aby akce a výsledky byly viděny efektivněji než prostřednictvím pohybu dat, bez ohledu na data, která jsou přesunuta. Následující obrázky (z [1]) ukazují, jak lze CSD využít v Apache Hadoop shluk a na a Rozhraní pro předávání zpráv -založené distribuované prostředí.


Průmysl
V odvětví úložišť jsou nyní k dispozici implementace od několika společností, mimo jiné od NGD Systems,[4] ScaleFlux[5] a Eideticom.[6] O podobné práce se v minulosti pokoušely i jiné společnosti, včetně Technologie Micron[7] a Samsung. Přístup ze všech je stejný směr, správa nebo zpracování dat tam, kde sídlil.
NGD Systems byla první společností, která vytvořila úložiště pro zpracování in-situ, a od roku 2017 vyrobila dvě verze zařízení. Catalina-1 byl samostatný SSD, který spolu se zpracováním nabídl 24 TB flash.[4] V roce 2018 byl vydán druhý produkt s názvem Newport, který nabízel až 32 TB flash paměť.[8][9]
ScaleFlux používá CSS-1000 NVMe zařízení, které využívá prostředky hostitele a změny jádra k adresování zařízení a pomocí prostředků hostitele spravuje až 6,4 TB flash na zařízení nebo základní SSD.[10] Eideticom využívá zařízení zvané No-Load DOUŠEK - pouze zařízení NVMe jako akcelerátor bez skutečného úložiště flash pro trvalá data.[11] Micron nazval jejich verzi „Scale In“ na akci Flash Memory Summit (FMS) v roce 2013, ale nikdy ji nedokázal vyrobit a vycházel z SATA SSD ve výrobě.[7] Samsung pracoval na různých verzích zařízení z KV Store a dalších.[12]
Reference
- ^ A b C d E Torabzadehkashi, Mahdi; Rezaei, Siavash; HeydariGorji, Ali; Bobarshad, Hosein; Alves, Vladimir; Bagherzadeh, Nader (15. listopadu 2019). „Výpočetní úložiště: efektivní a škálovatelná platforma pro velká data a aplikace HPC“. Journal of Big Data Springer OpenAccess. 6 (100). doi:10.1186 / s40537-019-0265-5.
- ^ Raffin, Bruno (prosinec 2014). „In-Situ_2014“ (PDF).
- ^ „Strukturální biologie in situ“. Utrechtská univerzita. 2016-03-17. Citováno 2018-06-04.
- ^ A b „Výpočetní úložiště se zaměřuje na nové SSD NGD Systems“. Tech Target. 2020-02-13. Citováno 2019-03-07.
- ^ „Co kdybych ti řekl, že flash disky mohou zpracovávat své vlastní údaje?“. Registrace. 2020-02-13. Citováno 2018-02-13.
- ^ „IDC Innovators: Computational Storage, 2019“. IDC. 2020-02-13. Citováno 2019-08-01.
- ^ A b Doller, Ed (14. srpna 2013). „Micron Scale In Keynote - 2013 FMS“ (PDF). www.FlashMemorySummit.com.
- ^ „NGD Systems uvádí první 16TB NVMe Computational U.2 SSD“. Recenze úložiště. 2020-02-13. Citováno 2018-10-31.
- ^ „20 mil. USD za společnost Upstart Storage Device Firm NGD“. Orange County Business Journal. 2020-02-13. Citováno 2020-02-10.
- ^ „Data-Driven Computational Storage Server Solution (Compute and Storage Acceleration Solution): Inspur“. xeonscalable.inspursystems.com. Citováno 2018-06-04.
- ^ „Modern Storage Technologies in 2020: What you need to know“. Bigstep. 2020-02-13. Citováno 2020-01-10.
- ^ Do, Jaeyoung; Kee, Yang-Suk; Patel, Jignesh M .; Park, Chanik; Park, Kwanghyun; DeWitt, David J. (2013-06-22). "Zpracování dotazů na inteligentních SSD". Zpracování dotazů na inteligentních SSD: příležitosti a výzvy. ACM. s. 1221–1230. doi:10.1145/2463676.2465295. ISBN 9781450320375.