Pilot potrubí - Pipeline Pilot

Pilot potrubí
VývojářiAccelrys
První vydání1999 (1999)
Stabilní uvolnění
18.1 / květen 2018 (2018-05)
NapsánoC ++
Operační systémOkna a Linux
TypVizuální a datový tok programovací jazyk
LicenceProprietární
webová stránkaaccelrys.com/produkty/ kolaborativní věda/ biovia-pipeline-pilot/

Pilot potrubí je desktopový softwarový program prodávaný společností Dassault Systèmes pro zpracování a analýzu dat. Původně používaný v přírodních vědách, základní ETL produktu (Extrahovat, transformovat, načíst ) a byly rozšířeny analytické funkce. Produkt se nyní používá pro datová věda, ETL, reporting, predikce a analytika v řadě sektorů. Hlavním rysem produktu je schopnost navrhovat datové pracovní toky pomocí grafického uživatelského rozhraní. Tento program je příkladem vizuální a datový tok programování. Používá se v různých prostředích, jako je cheminformatika a QSAR,[1][2][3] Sekvenování příští generace,[4] analýza obrazu,[5][6] a textová analytika.[7]

Dějiny

Produkt vytvořil SciTegic. BIOVIA následně v roce 2004 získala společnosti SciTegic a Pipeline Pilot. Samotnou společnost BIOVIA koupila Dassault Systèmes v roce 2014. Produkt se od počátečního zaměření na chemii rozšířil o funkce obecného extrakce, transformace a načítání (ETL). Kromě základního produktu přidal Dassault analytické a datové sbírky pro generování zpráv, vizualizaci dat a řadu vědeckých a technických odvětví. V současné době se produkt používá pro ETL, analytiku a strojové učení v chemickém, energetickém, spotřebním balení, leteckém a kosmickém průmyslu, automobilovém a elektronickém průmyslu.

Přehled

Pipeline Pilot je součástí třídy softwarových produktů, které poskytují uživatelská rozhraní pro manipulaci a analýzu dat. Pipeline Pilot a podobné produkty umožňují uživatelům s omezenými nebo žádnými schopnostmi kódování transformovat a manipulovat s datovými sadami. Obvykle se jedná o předchůdce provádění analýzy dat. Stejně jako ostatní grafické produkty ETL umožňuje uživatelům získávat data z různých zdrojů dat, jako jsou soubory CSV, textové soubory a databáze.

Komponenty, potrubí, protokoly a datové záznamy

The grafické uživatelské prostředí, nazvaný Pipeline Pilot Professional Client, umožňuje uživatelům přetahovat diskrétní jednotky pro zpracování dat zvané „komponenty“. Komponenty mohou načítat, filtrovat, spojovat nebo manipulovat s daty. Komponenty mohou také provádět mnohem pokročilejší manipulace s daty, jako je vytváření regresních modelů, trénování neuronových sítí nebo zpracování datových sad do sestav PDF.

Pipeline Pilot implementuje a Součásti paradigma. Komponenty jsou v pracovním toku reprezentovány jako uzly. V matematickém smyslu jsou komponenty modelovány jako uzly v a řízený graf: „potrubí“ (hrany grafu) spojují komponenty a přesouvají data z uzlu do uzlu, kde se s daty provádějí operace. Uživatelé mají možnost použít předdefinované komponenty nebo vyvinout své vlastní. Pomáhat v aplikacích specifických pro dané odvětví, jako je sekvenování nové generace (viz Metody vysoce výkonného sekvenování (HTS) ), BIOVIA vyvinula komponenty, které výrazně snižují čas, který uživatelé potřebují k provedení běžných úkolů specifických pro dané odvětví.

Uživatelé si mohou vybrat z předinstalovaných komponent nebo si mohou vytvořit vlastní komponenty v pracovních postupech nazývaných „protokoly“. Protokoly jsou sady propojených komponent. Protokoly lze ukládat, opakovaně používat a sdílet. Uživatelé mohou kombinovat komponenty, které jsou dodávány se softwarem od společnosti BIOVIA, s vlastními komponentami. Spojení mezi dvěma komponentami se nazývají „potrubí“ a jsou v softwaru vizualizována jako dvě komponenty spojené potrubím. Koncoví uživatelé navrhují své pracovní postupy / protokoly a poté je spouští spuštěním protokolu. Data procházejí zleva doprava podél kanálů.

Moderní analýza a zpracování dat může zahrnovat velké množství manipulací a transformací. Jedním z hlavních rysů Pipeline Pilot je schopnost vizuálně kondenzovat zdlouhavou řadu manipulací s daty, které zahrnují mnoho komponent. Pracovní postup libovolné délky lze vizuálně kondenzovat na komponentu, která se používá ve vysokém pracovním toku. To znamená, že protokol lze uložit a použít jako součást v jiném protokolu. V terminologii používané v Pipeline Pilot se protokoly, které se používají jako součásti v jiných protokolech, nazývají „subprotokoly“. To umožňuje uživatelům přidat do jejich pracovních toků zpracování a manipulace vrstvy složitosti a poté tuto složitost skrýt, aby mohli navrhnout pracovní postup na vyšší úrovni abstrakce.

Kolekce komponent

Pipeline Pilot obsahuje řadu doplňků zvaných „sbírky“. Kolekce jsou skupiny specializovaných funkcí, jako je zpracování genetických informací nebo analýza polymerů nabízené koncovým uživatelům za další licenční poplatek. V současné době existuje řada těchto sbírek.[8]

SkupinaDoménaSběr komponent
Vědecké specifickéChemieChemie
ADMET
Cheminformatika
BiologieGenový výraz
Sekvenční analýza
Hmotnostní spektrometrie pro proteomiku
Sekvenování další generace
Modelování a simulace materiálůMateriálové studio
Vlastnosti polymeru (Synthia)
ObecnýVytváření přehledů a vizualizaceHlášení
Integrace databáze a aplikacíIntegrace
ZobrazováníZobrazování
Analýza a statistikaModelování dat
Pokročilé modelování dat
R Statistiky
Hledání a analýza dokumentůChemická těžba textu
Analýza textu
LaboratořAnalýza dat z desek
Analytické vybavení

Vzhledem k počtu různých doplňků, které nyní BIOVIA nabízí, jsou případy použití Pipeline Pilot velmi široké a je možné je stručně shrnout. Produkt byl použit v:

PilotScript a vlastní skripty

Stejně jako u jiných ETL a analytických řešení se Pipeline Pilot často používá při zpracování jednoho nebo více velkých (1 TB +) a / nebo komplexních datových sad. V těchto situacích mohou koncoví uživatelé chtít využít programovací skripty, které napsali. Na začátku svého vývoje vytvořil Pipeline Pilot zjednodušený skriptovací jazyk PilotScript, který koncovým uživatelům umožnil snadno psát základní programovací skripty, které mohly být začleněny do protokolu Pipeline Pilot. Pozdější vydání rozšířila podporu pro řadu programovacích jazyků, včetně Krajta, .SÍŤ, Matlab, Perl, SQL, Jáva, VBScript a R.[9]

Syntaxe pro PilotScript je založena na PLSQL. Může být použit v součástech, jako je Vlastní manipulátor (PilotScript) nebo Vlastní filtr (PilotScript). Jako příklad lze použít následující skript k přidání vlastnosti s názvem „Hello“ ke každému záznamu procházejícímu vlastní skriptovací komponentou v protokolu Pipeline Pilot. Hodnota vlastnosti je řetězec „Hello World!“.

Ahoj := "Ahoj světe!";

V současné době produkt podporuje řadu API pro různé programovací jazyky, které lze spustit bez grafického uživatelského rozhraní programu.

Reference

  1. ^ Hassan, Moises; Brown, Robert D .; Varma-O'Brien, Shikha; Rogers, David (2007). "Cheminformatická analýza a učení v prostředí datových zřetězení". ChemInform. 38 (12). doi:10.1002 / brada.200712278. ISSN  0931-7597.
  2. ^ Hu, Ye; Lounkine, Eugen; Bajorath, Jürgen (2009). „Zlepšení výkonu vyhledávání u otisků prstů rozšířené konektivity prostřednictvím filtrování funkcí podle aktivity a použití funkce podobnosti závislé na hustotě bitů“. ChemMedChem. 4 (4): 540–548. doi:10,1002 / cmdc. 200800408. ISSN  1860-7179. PMID  19263458.
  3. ^ Warr, Wendy A. (2012). „Vědecké systémy pracovního toku: Pipeline Pilot a KNIME“. Journal of Computer-Aided Molecular Design. 26 (7): 801–804. Bibcode:2012JCAMD..26..801W. doi:10.1007 / s10822-012-9577-7. ISSN  0920-654X. PMC  3414708. PMID  22644661.
  4. ^ „Accelrys vstupuje na trh sekvenování nové generace se sbírkou NGS pro Pipeline Pilot“. Obchodní drát. 23. 2. 2011. Citováno 15. února 2013.
  5. ^ Rabal, Obdulia; Link, Wolfgang; G. Serelde, Beatriz; Bischoff, James R .; Oyarzabal, Julen (2010). „Integrovaný jednokrokový systém pro extrakci, analýzu a anotaci všech relevantních informací z buněčného screeningu chemických knihoven založených na obrazech“. Molekulární biosystémy. 6 (4): 711–20. doi:10.1039 / b919830j. ISSN  1742-206X. PMID  20237649.
  6. ^ Paveley, Ross A .; Mansour, Nuha R .; Hallyburton, Irene; Bleicher, Leo S .; Benn, Alex E .; Mikic, Ivana; Guidi, Alessandra; Gilbert, Ian H .; Hopkins, Andrew L .; Bickle, Quentin D. (2012). „Screening celého organismu s vysokým obsahem podle Bayesovské klasifikace podle parazitů bez štítků a podle obrazu“. PLoS zanedbávané tropické nemoci. 6 (7): e1762. doi:10.1371 / journal.pntd.0001762. ISSN  1935-2735. PMC  3409125. PMID  22860151.
  7. ^ Vellay, SG; Latimer, NE; Paillard, G (2009). "Interaktivní dolování textu pomocí Pipeline Pilot: bibliografický webový nástroj pro PubMed". Cíle na infekční poruchy. 9 (3): 366–74. doi:10.2174/1871526510909030366. PMID  19519489.
  8. ^ „Kolekce pilotních komponent potrubí“. Accelrys. Archivovány od originál dne 15. ledna 2013. Citováno 26. ledna 2013.
  9. ^ „Datový list kolekce komponent integrace potrubí Pilot“ (PDF). Accelrys. Citováno 8. února 2013.