Pilot potrubí - Pipeline Pilot
Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
Vývojáři | Accelrys |
---|---|
První vydání | 1999 |
Stabilní uvolnění | 18.1 / květen 2018 |
Napsáno | C ++ |
Operační systém | Okna a Linux |
Typ | Vizuální a datový tok programovací jazyk |
Licence | Proprietární |
webová stránka | accelrys |
Pilot potrubí je desktopový softwarový program prodávaný společností Dassault Systèmes pro zpracování a analýzu dat. Původně používaný v přírodních vědách, základní ETL produktu (Extrahovat, transformovat, načíst ) a byly rozšířeny analytické funkce. Produkt se nyní používá pro datová věda, ETL, reporting, predikce a analytika v řadě sektorů. Hlavním rysem produktu je schopnost navrhovat datové pracovní toky pomocí grafického uživatelského rozhraní. Tento program je příkladem vizuální a datový tok programování. Používá se v různých prostředích, jako je cheminformatika a QSAR,[1][2][3] Sekvenování příští generace,[4] analýza obrazu,[5][6] a textová analytika.[7]
Dějiny
Produkt vytvořil SciTegic. BIOVIA následně v roce 2004 získala společnosti SciTegic a Pipeline Pilot. Samotnou společnost BIOVIA koupila Dassault Systèmes v roce 2014. Produkt se od počátečního zaměření na chemii rozšířil o funkce obecného extrakce, transformace a načítání (ETL). Kromě základního produktu přidal Dassault analytické a datové sbírky pro generování zpráv, vizualizaci dat a řadu vědeckých a technických odvětví. V současné době se produkt používá pro ETL, analytiku a strojové učení v chemickém, energetickém, spotřebním balení, leteckém a kosmickém průmyslu, automobilovém a elektronickém průmyslu.
Přehled
Pipeline Pilot je součástí třídy softwarových produktů, které poskytují uživatelská rozhraní pro manipulaci a analýzu dat. Pipeline Pilot a podobné produkty umožňují uživatelům s omezenými nebo žádnými schopnostmi kódování transformovat a manipulovat s datovými sadami. Obvykle se jedná o předchůdce provádění analýzy dat. Stejně jako ostatní grafické produkty ETL umožňuje uživatelům získávat data z různých zdrojů dat, jako jsou soubory CSV, textové soubory a databáze.
Komponenty, potrubí, protokoly a datové záznamy
The grafické uživatelské prostředí, nazvaný Pipeline Pilot Professional Client, umožňuje uživatelům přetahovat diskrétní jednotky pro zpracování dat zvané „komponenty“. Komponenty mohou načítat, filtrovat, spojovat nebo manipulovat s daty. Komponenty mohou také provádět mnohem pokročilejší manipulace s daty, jako je vytváření regresních modelů, trénování neuronových sítí nebo zpracování datových sad do sestav PDF.
Pipeline Pilot implementuje a Součásti paradigma. Komponenty jsou v pracovním toku reprezentovány jako uzly. V matematickém smyslu jsou komponenty modelovány jako uzly v a řízený graf: „potrubí“ (hrany grafu) spojují komponenty a přesouvají data z uzlu do uzlu, kde se s daty provádějí operace. Uživatelé mají možnost použít předdefinované komponenty nebo vyvinout své vlastní. Pomáhat v aplikacích specifických pro dané odvětví, jako je sekvenování nové generace (viz Metody vysoce výkonného sekvenování (HTS) ), BIOVIA vyvinula komponenty, které výrazně snižují čas, který uživatelé potřebují k provedení běžných úkolů specifických pro dané odvětví.
Uživatelé si mohou vybrat z předinstalovaných komponent nebo si mohou vytvořit vlastní komponenty v pracovních postupech nazývaných „protokoly“. Protokoly jsou sady propojených komponent. Protokoly lze ukládat, opakovaně používat a sdílet. Uživatelé mohou kombinovat komponenty, které jsou dodávány se softwarem od společnosti BIOVIA, s vlastními komponentami. Spojení mezi dvěma komponentami se nazývají „potrubí“ a jsou v softwaru vizualizována jako dvě komponenty spojené potrubím. Koncoví uživatelé navrhují své pracovní postupy / protokoly a poté je spouští spuštěním protokolu. Data procházejí zleva doprava podél kanálů.
Moderní analýza a zpracování dat může zahrnovat velké množství manipulací a transformací. Jedním z hlavních rysů Pipeline Pilot je schopnost vizuálně kondenzovat zdlouhavou řadu manipulací s daty, které zahrnují mnoho komponent. Pracovní postup libovolné délky lze vizuálně kondenzovat na komponentu, která se používá ve vysokém pracovním toku. To znamená, že protokol lze uložit a použít jako součást v jiném protokolu. V terminologii používané v Pipeline Pilot se protokoly, které se používají jako součásti v jiných protokolech, nazývají „subprotokoly“. To umožňuje uživatelům přidat do jejich pracovních toků zpracování a manipulace vrstvy složitosti a poté tuto složitost skrýt, aby mohli navrhnout pracovní postup na vyšší úrovni abstrakce.
Kolekce komponent
Pipeline Pilot obsahuje řadu doplňků zvaných „sbírky“. Kolekce jsou skupiny specializovaných funkcí, jako je zpracování genetických informací nebo analýza polymerů nabízené koncovým uživatelům za další licenční poplatek. V současné době existuje řada těchto sbírek.[8]
Skupina | Doména | Sběr komponent |
---|---|---|
Vědecké specifické | Chemie | Chemie |
ADMET | ||
Cheminformatika | ||
Biologie | Genový výraz | |
Sekvenční analýza | ||
Hmotnostní spektrometrie pro proteomiku | ||
Sekvenování další generace | ||
Modelování a simulace materiálů | Materiálové studio | |
Vlastnosti polymeru (Synthia) | ||
Obecný | Vytváření přehledů a vizualizace | Hlášení |
Integrace databáze a aplikací | Integrace | |
Zobrazování | Zobrazování | |
Analýza a statistika | Modelování dat | |
Pokročilé modelování dat | ||
R Statistiky | ||
Hledání a analýza dokumentů | Chemická těžba textu | |
Analýza textu | ||
Laboratoř | Analýza dat z desek | |
Analytické vybavení |
Vzhledem k počtu různých doplňků, které nyní BIOVIA nabízí, jsou případy použití Pipeline Pilot velmi široké a je možné je stručně shrnout. Produkt byl použit v:
- Prediktivní údržba
- Obrazová analýza, například stanovení inhibičního účinku látky na biologické procesy (IC50 ) výpočtem vztah dávka-odpověď přímo z informací získaných z vysoce obsahový screening obrázky testu, spojené s ředěním v talíř informace o rozložení a chemii testovaných sloučenin (Imaging, Chemistry, Plate Data Analytics)
- A doporučující systém pro vědeckou literaturu založenou na bayesovském modelu vytvořeném pomocí otisk prstu a seznam čtenářů nebo hodnocení článků
- Přístup k experimentálním metodám a výsledkům z elektronický laboratorní notebook nebo laboratorní informační systém řízení, s výslednými zprávami o zdroji plánovaní kapacity
PilotScript a vlastní skripty
Stejně jako u jiných ETL a analytických řešení se Pipeline Pilot často používá při zpracování jednoho nebo více velkých (1 TB +) a / nebo komplexních datových sad. V těchto situacích mohou koncoví uživatelé chtít využít programovací skripty, které napsali. Na začátku svého vývoje vytvořil Pipeline Pilot zjednodušený skriptovací jazyk PilotScript, který koncovým uživatelům umožnil snadno psát základní programovací skripty, které mohly být začleněny do protokolu Pipeline Pilot. Pozdější vydání rozšířila podporu pro řadu programovacích jazyků, včetně Krajta, .SÍŤ, Matlab, Perl, SQL, Jáva, VBScript a R.[9]
Syntaxe pro PilotScript je založena na PLSQL. Může být použit v součástech, jako je Vlastní manipulátor (PilotScript) nebo Vlastní filtr (PilotScript). Jako příklad lze použít následující skript k přidání vlastnosti s názvem „Hello“ ke každému záznamu procházejícímu vlastní skriptovací komponentou v protokolu Pipeline Pilot. Hodnota vlastnosti je řetězec „Hello World!“.
Ahoj := "Ahoj světe!";
V současné době produkt podporuje řadu API pro různé programovací jazyky, které lze spustit bez grafického uživatelského rozhraní programu.
Reference
- ^ Hassan, Moises; Brown, Robert D .; Varma-O'Brien, Shikha; Rogers, David (2007). "Cheminformatická analýza a učení v prostředí datových zřetězení". ChemInform. 38 (12). doi:10.1002 / brada.200712278. ISSN 0931-7597.
- ^ Hu, Ye; Lounkine, Eugen; Bajorath, Jürgen (2009). „Zlepšení výkonu vyhledávání u otisků prstů rozšířené konektivity prostřednictvím filtrování funkcí podle aktivity a použití funkce podobnosti závislé na hustotě bitů“. ChemMedChem. 4 (4): 540–548. doi:10,1002 / cmdc. 200800408. ISSN 1860-7179. PMID 19263458.
- ^ Warr, Wendy A. (2012). „Vědecké systémy pracovního toku: Pipeline Pilot a KNIME“. Journal of Computer-Aided Molecular Design. 26 (7): 801–804. Bibcode:2012JCAMD..26..801W. doi:10.1007 / s10822-012-9577-7. ISSN 0920-654X. PMC 3414708. PMID 22644661.
- ^ „Accelrys vstupuje na trh sekvenování nové generace se sbírkou NGS pro Pipeline Pilot“. Obchodní drát. 23. 2. 2011. Citováno 15. února 2013.
- ^ Rabal, Obdulia; Link, Wolfgang; G. Serelde, Beatriz; Bischoff, James R .; Oyarzabal, Julen (2010). „Integrovaný jednokrokový systém pro extrakci, analýzu a anotaci všech relevantních informací z buněčného screeningu chemických knihoven založených na obrazech“. Molekulární biosystémy. 6 (4): 711–20. doi:10.1039 / b919830j. ISSN 1742-206X. PMID 20237649.
- ^ Paveley, Ross A .; Mansour, Nuha R .; Hallyburton, Irene; Bleicher, Leo S .; Benn, Alex E .; Mikic, Ivana; Guidi, Alessandra; Gilbert, Ian H .; Hopkins, Andrew L .; Bickle, Quentin D. (2012). „Screening celého organismu s vysokým obsahem podle Bayesovské klasifikace podle parazitů bez štítků a podle obrazu“. PLoS zanedbávané tropické nemoci. 6 (7): e1762. doi:10.1371 / journal.pntd.0001762. ISSN 1935-2735. PMC 3409125. PMID 22860151.
- ^ Vellay, SG; Latimer, NE; Paillard, G (2009). "Interaktivní dolování textu pomocí Pipeline Pilot: bibliografický webový nástroj pro PubMed". Cíle na infekční poruchy. 9 (3): 366–74. doi:10.2174/1871526510909030366. PMID 19519489.
- ^ „Kolekce pilotních komponent potrubí“. Accelrys. Archivovány od originál dne 15. ledna 2013. Citováno 26. ledna 2013.
- ^ „Datový list kolekce komponent integrace potrubí Pilot“ (PDF). Accelrys. Citováno 8. února 2013.