Vysoce výkonné integrované virtuální prostředí - High-performance Integrated Virtual Environment - Wikipedia

The Vysoce výkonné integrované virtuální prostředí (ÚL) je a distribuované výpočetní prostředí používá se pro zdravotnictví-IT a biologický výzkum, včetně analýzy Sekvenování další generace (NGS) údaje, preklinické, klinické údaje a údaje po uvedení na trh, nežádoucí účinky, metagenomické údaje atd.[1] V současné době je podporován a neustále vyvíjen americkým Úřadem pro kontrolu potravin a léčiv (vládní doména), Univerzitou George Washingtona (akademická doména) a DNA-HIVE, WHISE-Global a Embleema (komerční doména). HIVE v současné době plně funkčně funguje v rámci amerického úřadu FDA a podporuje širokou škálu (+60) regulačních výzkumných a regulačních revizních projektů, jakož i podporu registrů zdravotnických prostředků MDEpiNet po uvedení na trh. Akademické nasazení HIVE se používá pro výzkumné aktivity a publikace v analytice NGS, výzkumu rakoviny, výzkumu mikrobiomů a ve vzdělávacích programech pro studenty na GWU. Komerční podniky používají HIVE pro onkologii, mikrobiologii, výrobu vakcín, úpravy genů, zdravotnictví-IT, harmonizaci údajů z reálného světa, v předklinických výzkumech a klinických studiích.
Infrastruktura
Úl je masivně paralelní distribuované výpočetní prostředí kde jsou distribuovaná knihovna úložiště a distribuovaný výpočetní zdroj propojeny bez problémů.[2] Systém je robustní a flexibilní díky zachování jak úložiště, tak systému Windows metadata databáze ve stejné síti.[3] Distribuovaná úložná vrstva softwaru je klíčovou komponentou pro správu souborů a archivů a je páteří depozičního potrubí. Back-end pro ukládání dat umožňuje automatické nahrávání a stahování externích datových sad do úložišť dat HIVE. Databázi metadat lze použít k udržování konkrétních informací o extrémně velkých souborech přijatých do systému (velká data), jakož i metadat souvisejících s výpočty spuštěnými v systému. Tato metadata pak umožňují snadné získání podrobností výpočetního kanálu v budoucnu za účelem ověření nebo replikace experimentů. Vzhledem k tomu, že metadata jsou přidružena k výpočtu, ukládá parametry jakéhokoli výpočtu v systému a vylučuje ruční vedení záznamů.[Citace je zapotřebí ]
Rozlišování HIVE od jiných objektově orientovaných databází spočívá v tom, že HIVE implementuje sadu unifikovaných API vyhledávat, prohlížet a manipulovat s daty všech typů. Systém také umožňuje vysoce zabezpečený hierarchický systém kontroly a oprávnění přístupu, který umožňuje jemně granulovaným způsobem určit oprávnění k přístupu k datům, aniž by v subsystému zabezpečení vzniklo mnoho pravidel. Model zabezpečení určený pro citlivá data poskytuje komplexní funkce kontroly a auditu v souladu s označením HIVE jako a FISMA Mírný systém.[4]
ÚLOVÉ technologické možnosti
- Načítání dat: HIVE je schopen načítat data z různých zdrojů, jako jsou místní, cloudová nebo síťová úložiště, nástroje pro sekvenování, a z repozitářů http, ftp a sftp. HIVE navíc implementuje sofistikované protokoly handshake s existujícími rozsáhlými datovými platformami, jako je NIH / NCBI, a umožňuje tak snadno a přesně stahovat velké množství referenčních genomických nebo sekvenčně čtených dat jménem uživatelů.
- Skladování dat: Datový model HIVE honeycomb byl speciálně vytvořen pro přijetí složité hierarchie vědeckých datových typů a poskytuje platformu pro standardizaci a původ dat v rámci objektově orientovaných datových modelů. Použitím integrovaného datového enginu, plástev, HIVE přispívá k věrohodnosti biomedicínských výpočtů a pomáhá zajistit reprodukovatelnost a harmonizaci bio-výpočetních procesů.
- Bezpečnostní: HIVE-honeycomb využívá hierarchický systém řízení bezpečnosti, který umožňuje stanovení přístupových práv akutně granulárním způsobem, aniž by byl bezpečnostní subsystém zahlcen mnoha pravidly. Poskytuje průběžné šifrování / dešifrování PII a je v souladu s nejvyššími bezpečnostními protokoly požadovanými pro systémy autorizované pro provoz v regulačních prostředích FISMA.

- Integrace: HIVE poskytuje jednotné aplikační programové rozhraní (API) pro vyhledávání, úpravy, prohlížení, zabezpečení, sdílení a manipulaci s daty a výpočty všech typů. Jako platforma Integrator poskytuje HIVE vývojářům prostředky k vývoji (C / C ++, Python, Perl, JavaScript, R) a integraci stávajících téměř jakýchkoli otevřených zdrojů nebo komerčních nástrojů pomocí generického adaptačního rámce pro integraci nástrojů příkazového řádku. Webové API řízené relací navíc poskytuje prostředky k řízení HIVE, aby jménem vzdálených uživatelů prováděla kontrolu kvality dat a komplexní výpočty. V současné době jsou ve produkčním HIVE desítky nástrojů pro analýzu velkých dat a vyvíjeny desítky dalších; mezi ně patří mimo jiné DNA-, RNA-, Transposon-, Chip-, Immune-sekvenování), sestava de novo, metagenomické sekvenování populační genomiky, diferenciální profilování, statistické, klasifikační a klastrové nástroje pro studium bakterií, virů, lidské zárodečné linie a somatické profily, kvazidruhy, infekce, patogeny.
- Výpočty: Na rozdíl od mnoha virtuálních výpočetních prostředí HIVE virtualizuje služby, nikoli procesy: poskytuje výpočty jako službu zavedením agnostické abstrakční vrstvy mezi hardware, software a výpočetní úlohy požadované uživateli. Nové paradigma přemístění výpočtů blíže k datům, namísto přesunu dat do výpočetních jader, se ukázalo jako klíč pro optimální tok úkolů a dat prostřednictvím síťové infrastruktury.
- Vizualizace: HIVE poskytuje řadu vědeckých vizualizačních komponent využívajících technologie jako HTML5, SVG, D3JS v kontextu dokumentu Data Driven. Nativní data a metadata a výpočetní výsledky poskytované v JSON, komunikačních protokolech založených na CSV, které se používají ke generování interaktivních, uživatelsky přizpůsobitelných nástrojů, umožňují bioinformatikům manipulovat s terabajty extra velkých dat pouze pomocí internetového prohlížeče.
Úl open source
FDA spustila HIVE Open Source jako platformu pro podporu komplexních potřeb pro analýzu NGS. https://github.com/FDA/fda-hive
Harmonizační platforma HIVE biocompute je jádrem projektu HTS-CSRS (High-throughput Sequencing Computational Standards for Regulatory Sciences). Jejím posláním je poskytnout vědecké komunitě rámec pro harmonizaci biopočítání, podporu interoperability a ověřování bioinformatických protokolů (https://hive.biochemistry.gwu.edu/htscsrs ). Další informace najdete v popisu projektu na stránce FDA Extramural Research (https://www.fda.gov/ScienceResearch/SpecialTopics/RegulatoryScience/ucm491893.htm
Architektura HIVE

- Hardwarová architektura: V jádru HIVE existuje solidní páteřní hardware vyrobený z několika redundantních kritických komponent a škálovatelných výpočetních a úložných jednotek. Diagram vpravo ukazuje připojení a přiřazení komponent pro takový cluster HIVE. Mezi klíčové komponenty poskytující důležité funkce pro HIVE cloud patří
- webové servery směřující ven přes špičkovou zabezpečenou bránu firewall pro podporu funkčnosti webového portálu;
- cloudové servery jsou klíčové funkční jednotky zajišťující distribuované úložiště a pracovní postupy výpočtů prostřednictvím složitých schémat řazení front a priorit;
- hardware dron s vysokou dostupností slouží jako výpočetní jednotka pro vědecké vizualizace a funkce podpory uživatelského rozhraní;
- ultrarychlé meziprocesové komunikační paměťové jednotky organizují distribuční výpočty aréna pro výměnu dat.
- přepínače a hardware brány firewall organizují zabezpečené vysoce výkonné síťové prostředí pro cloud HIVE.
- trvalé paměťové jednotky jsou určeny k ukládání stovek terabajtů dat NGS a referenčních genomů, jakož i úložiště pro výpočetní výsledky a osobní soubory uživatelů.
Podskupiny škálovatelných vysoce výkonných výpočetních jader s vysokou hustotou slouží jako zdroj energie pro extra velké distribuované paralelní výpočty algoritmů NGS. Systém je extrémně škálovatelný a má instance nasazení od jednoho zařízení HIVE in a box až po rozsáhlé podnikové systémy tisíců výpočetních jednotek.
- Softwarová architektura: Softwarová infrastruktura HIVE se skládá z vrstev, které postupně poskytují více funkcí.

- Páteřní vrstva jádra poskytuje integraci s heterogenními platformami hardwaru a operačního systému.
- Cloudová páteř HIVE podporuje distribuované úložiště, zabezpečení a výpočetní prostředí.
- Vědecká páteř představuje soubor nízkoúrovňových vědeckých knihoven pro provádění různých vědeckých výpočtů, matematických aparátů pro chemické, biologické, statistické a jiné čistě vědecké koncepty
- Vrstvy CGI a skriptů Java poskytují vrstvy kompatibility webových portálů a webových aplikací.
- Nízkoúrovňové knihovny poskytují aplikační programovací rozhraní (API) pro vývoj nástrojů a obslužných programů.
- Integrované aplikace poskytují hlavní arzenál nástrojů NGS
- Webové aplikace a HIVE - portál poskytují funkčnost webového portálu
Veřejné prezentace
- Dr. Vahan Simonyan a Dr. Raja Mazumder se představili na NIH Frontiers in Data Science[5] o HIVE, který funguje jako most mezi výzkumem a regulační analytikou.[6][7] Simonyan také představil toto téma na světové výstavě Bio-IT v roce 2014.[8]
- Úl byl dále diskutován ve FedScoopu.[9]
- Uvnitř ÚLU je výpočetní architektura FDA Multi-Omics, BioIT World.[10]
Reference
- ^ Simonyan, Vahan; Mazumder, Raja (2014). „Vysoce výkonné integrované virtuální prostředí (HIVE) nástroje a aplikace pro analýzu velkých dat“. Geny. 5 (4): 957–81. doi:10,3390 / geny5040957. PMC 4276921. PMID 25271953.
- ^ https://hive.biochemistry.gwu.edu/help/HIVEWhitePaper_12_16_2014.pdf[úplná citace nutná ]
- ^ https://hive.biochemistry.gwu.edu/help/HIVEInfrastructuresUK.pdf[úplná citace nutná ]
- ^ Wilson, C. A .; Simonyan, V. (2014). „Činnosti FDA podporující regulační použití sekvenčních technologií„ nové generace “. PDA Journal of Pharmaceutical Science and Technology. 68 (6): 626–30. doi:10.5731 / pdajpst.2014.01024. PMID 25475637.
- ^ „Přihlašovací jméno a heslo NIH nebo ověření PIV karty“.
- ^ „NIH VideoCast - vysoce výkonné integrované virtuální prostředí (HIVE): regulační platforma pro analýzu dat NGS“.
- ^ „Přihlašovací jméno a heslo NIH nebo ověření PIV karty“.
- ^ Zaměstnanci (2014). „Brožura 2014-BIT“ (PDF). Světová výstava Bio-IT 2014. Cambridge Healthtech Institute. str. 6 (sloupec 2). Citováno 15. června 2016.
(title) High-Performance Integrated Virtual Environment (HIVE) Infrastructure for Big-Data Analysis: Applications to Next-Gen Sequencing Informatics
- ^ http://fedscoop.com/fdas-examines-nextgen-sequencing-too[úplná citace nutná ]l
- ^ „Svět bio-IT“.
externí odkazy
- Veřejná verze HIVE je na https://hive.biochemistry.gwu.edu/dna.cgi?cmd=about