Bioinformatika - Bioinformatics

Časná bioinformatika - výpočetní srovnání experimentálně určených sekvencí třídy příbuzných proteinů; vidět § Sekvenční analýza pro další informace.
Mapa lidského chromozomu X (z Národní centrum pro biotechnologické informace webová stránka).

Bioinformatika /ˌb.ˌɪnF.rˈmtɪks/ (O tomto zvukuposlouchat) je mezioborové obor, který vyvíjí metody a softwarové nástroje pro pochopení biologický data, zejména jsou-li datové soubory velké a složité. Jako interdisciplinární vědní obor se bioinformatika kombinuje biologie, počítačová věda, informační inženýrství, matematika a statistika analyzovat a interpretovat biologická data. Byla použita bioinformatika in silico analýzy biologických dotazů pomocí matematických a statistických technik.[je zapotřebí objasnění ]

Bioinformatika zahrnuje biologické studie, které využívají programování jako součást své metodiky i specifické analytické "potrubí", které se opakovaně používají, zejména v oblasti genomika. Mezi běžná použití bioinformatiky patří identifikace kandidátů geny a svobodný nukleotid polymorfismy (SNP ). Často se taková identifikace provádí s cílem lepšího pochopení genetického základu nemoci, jedinečných adaptací, žádoucích vlastností (zejména u zemědělských druhů) nebo rozdílů mezi populacemi. Méně formálním způsobem se bioinformatika také snaží pochopit organizační principy uvnitř nukleová kyselina a protein sekvence, tzv proteomika.[1]

Úvod

Bioinformatika se stala důležitou součástí mnoha biologických oblastí. V experimentální molekulární biologie, bioinformatické techniky, jako je obraz a zpracování signálu umožňuje extrakci užitečných výsledků z velkého množství nezpracovaných dat. V oblasti genetiky pomáhá při sekvenování a anotaci genomů a jejich pozorování mutace. Hraje roli v dolování textu biologické literatury a vývoj biologické a genové ontologie organizovat a dotazovat se na biologická data. Hraje také roli v analýze genové a proteinové exprese a regulace. Nástroje bioinformatiky pomáhají srovnávat, analyzovat a interpretovat genetická a genomická data a obecněji porozumět evolučním aspektům molekulární biologie. Na integrační úrovni pomáhá analyzovat a katalogizovat biologické cesty a sítě, které jsou důležitou součástí biologie systémů. v strukturní biologie, pomáhá při simulaci a modelování DNA,[2] RNA,[2][3] bílkoviny[4] stejně jako biomolekulární interakce.[5][6][7][8]

Dějiny

Historicky termín bioinformatika neznamenalo to, co to znamená dnes. Paulien Hogeweg a Ben Hesper vytvořil v roce 1970 odkaz na studium informačních procesů v biotických systémech.[9][10][11] Tato definice postavila bioinformatiku jako pole paralelní s biochemie (studium chemických procesů v biologických systémech).[9]

Sekvence

Sekvence genetického materiálu se často používají v bioinformatice a lze je snadněji spravovat pomocí počítačů než ručně.

Když se počítače staly nezbytnými v molekulární biologii proteinové sekvence byly k dispozici po Frederick Sanger určil posloupnost inzulín na počátku 50. let. Ruční porovnání více sekvencí se ukázalo jako nepraktické. Průkopníkem v oboru byl Margaret Oakley Dayhoff.[12] Sestavila jednu z prvních databází proteinových sekvencí, původně publikovaných jako knihy[13] a průkopnické metody sekvenčního zarovnání a molekulární evoluce.[14] Dalším časným přispěvatelem do bioinformatiky byl Elvin A. Kabat, který byl průkopníkem biologické sekvenční analýzy v roce 1970 svými komplexními objemy sekvencí protilátek uvolněných s Tai Te Wu v letech 1980 až 1991.[15]V 70. letech byly na bakteriofág MS2 a ř174 aplikovány nové techniky sekvenování DNA a rozšířené nukleotidové sekvence byly poté analyzovány informačními a statistickými algoritmy. Tyto studie ukázaly, že dobře známé funkce, jako jsou kódovací segmenty a tripletový kód, jsou odhaleny v přímých statistických analýzách, a byly tak důkazem konceptu, že bioinformatika by měla být vhledná.[16][17]

Cíle

Abychom mohli studovat, jak se normální buněčné aktivity mění v různých chorobných stavech, musí být kombinována biologická data, aby se vytvořil komplexní obraz těchto aktivit. Proto se oblast bioinformatiky vyvinula tak, že nejnaléhavější úkol nyní zahrnuje analýzu a interpretaci různých typů dat. To zahrnuje nukleotid a aminokyselinové sekvence, proteinové domény, a proteinové struktury.[18] Samotný proces analýzy a interpretace dat je označován jako výpočetní biologie. Mezi důležité dílčí disciplíny v bioinformatice a výpočetní biologii patří:

  • Vývoj a implementace počítačových programů, které umožňují efektivní přístup k různým typům informací, jejich správu a používání.
  • Vývoj nových algoritmů (matematické vzorce) a statistických opatření, která hodnotí vztahy mezi členy velkých souborů dat. Například existují metody k vyhledání a gen v sekvenci, k předpovědi struktury a / nebo funkce proteinu a k shluk proteinové sekvence do rodin příbuzných sekvencí.

Primárním cílem bioinformatiky je zvýšit porozumění biologickým procesům. Co ho však odlišuje od ostatních přístupů, je jeho zaměření na vývoj a aplikaci výpočetně náročných technik k dosažení tohoto cíle. Mezi příklady patří: rozpoznávání vzorů, dolování dat, strojové učení algoritmy a vizualizace. Mezi hlavní výzkumné snahy v této oblasti patří zarovnání sekvence, nález genů, shromáždění genomu, design léku, objev drog, zarovnání proteinové struktury, predikce proteinové struktury, predikce genová exprese a interakce protein-protein, genomové asociační studie, modelování vývoj a buněčné dělení / mitóza.

Bioinformatika nyní zahrnuje vytváření a zdokonalování databází, algoritmů, výpočetních a statistických technik a teorie k řešení formálních a praktických problémů vyplývajících ze správy a analýzy biologických dat.

Během několika posledních desetiletí došlo k rychlému vývoji genomových a dalších technologií molekulárního výzkumu a vývoji v roce 2006 informační technologie spojili dohromady a vytvořili obrovské množství informací souvisejících s molekulární biologií. Bioinformatika je název pro tyto matematické a výpočetní přístupy, které se používají k získání porozumění biologickým procesům.

Mezi běžné činnosti v bioinformatice patří mapování a analýza DNA a proteinové sekvence, sladění DNA a proteinových sekvencí k jejich porovnání a vytváření a prohlížení 3-D modelů proteinových struktur.

Vztah k jiným polím

Bioinformatika je vědní obor, který je podobný, ale odlišný od biologický výpočet, i když se často považuje za synonymum výpočetní biologie. Využití biologických výpočtů bioinženýrství a biologie budovat biologické počítače vzhledem k tomu, že bioinformatika využívá výpočty k lepšímu porozumění biologii. Bioinformatika a výpočetní biologie zahrnují analýzu biologických dat, zejména sekvencí DNA, RNA a proteinů. Od poloviny 90. let 20. století došlo v oblasti bioinformatiky k prudkému růstu, který byl způsoben zejména Projekt lidského genomu a rychlým pokrokem v technologii sekvenování DNA.

Analýza biologických dat za účelem získání smysluplných informací zahrnuje psaní a spouštění softwarových programů, které používají algoritmy z teorie grafů, umělá inteligence, soft computing, dolování dat, zpracování obrazu, a počítačová simulace. Algoritmy zase závisí na teoretických základech, jako je diskrétní matematika, teorie řízení, teorie systémů, teorie informace, a statistika.

Sekvenční analýza

Protože Fág Φ-X174 byl seřazeno v roce 1977,[19] the DNA sekvence tisíce organismů byly dekódovány a uloženy v databázích. Tato informace o sekvenci je analyzována za účelem určení genů, které kódují bílkoviny, Geny RNA, regulační sekvence, strukturní motivy a opakující se sekvence. Srovnání genů v rámci a druh nebo mezi různými druhy mohou vykazovat podobnosti mezi funkcemi bílkovin nebo vztahy mezi druhy (použití molekulární systematika konstruovat fylogenetické stromy ). S rostoucím množstvím dat se již dávno stalo nepraktickým analyzovat sekvence DNA ručně. Počítačové programy jako VÝBUCH se běžně používají k vyhledávání sekvencí - od roku 2008 z více než 260 000 organismů, které obsahují více než 190 miliard nukleotidy.[20]

Sekvenování DNA

Než mohou být sekvence analyzovány, musí být získány z příkladu banky datových úložišť Genbank. Sekvenování DNA je stále non-triviální problém, protože nezpracovaná data mohou být hlučná nebo ovlivněna slabými signály. Algoritmy byly vyvinuty pro základní volání pro různé experimentální přístupy k sekvenování DNA.

Sekvenční sestava

Většina technik sekvenování DNA produkuje krátké fragmenty sekvence, které je třeba sestavit, aby se získaly úplné sekvence genu nebo genomu. Takzvaný sekvenování brokovnice technika (kterou použil např Institut pro genomický výzkum (TIGR) k sekvenci prvního bakteriálního genomu, Haemophilus influenzae )[21] generuje sekvence mnoha tisíců malých fragmentů DNA (v rozmezí od 35 do 900 nukleotidů, v závislosti na technologii sekvenování). Konce těchto fragmentů se překrývají a pokud jsou správně srovnány programem genomu, mohou být použity k rekonstrukci celého genomu. Sekvenování brokovnic poskytuje rychle data sekvence, ale úkol sestavit fragmenty může být pro větší genomy docela komplikovaný. Pro genom tak velký jako lidský genom, sestavení fragmentů může trvat mnoho dní času CPU na víceprocesorových počítačích s velkou pamětí a výsledná sestava obvykle obsahuje četné mezery, které je třeba později vyplnit. Sekvenování brokovnic je metoda volby pro prakticky všechny dnes sekvenované genomy[když? ]a algoritmy sestavování genomu jsou kritickou oblastí bioinformatického výzkumu.

Anotace genomu

V kontextu genomika, anotace je proces značení genů a dalších biologických znaků v sekvenci DNA. Tento proces je třeba automatizovat, protože většina genomů je příliš velká na to, aby bylo možné je anotovat ručně, nemluvě o touze anotovat co nejvíce genomů, jako je rychlost sekvenování přestal představovat překážku. Anotace je umožněna skutečností, že geny mají rozeznatelné počáteční a koncové oblasti, ačkoli přesná sekvence nalezená v těchto oblastech se může mezi geny lišit.

První popis komplexního anotačního systému genomu byl publikován v roce 1995[21] týmem v Institut pro genomický výzkum který provedl první úplné sekvenování a analýzu genomu volně žijícího organismu, bakterie Haemophilus influenzae.[21] Owen White navrhl a postavil softwarový systém k identifikaci genů kódujících všechny proteiny, přenosu RNA, ribozomálních RNA (a dalších míst) a k provádění počátečních funkčních přiřazení. Většina současných systémů pro anotaci genomu funguje podobně, ale programy dostupné pro analýzu genomové DNA, jako například GeneMark program vyškolen a použit k nalezení genů kódujících proteiny Haemophilus influenzae, se neustále mění a zlepšují.

V návaznosti na cíle, které projekt lidského genomu ponechal k dosažení po jeho uzavření v roce 2003, se objevil nový projekt vyvinutý Národním ústavem pro výzkum lidského genomu ve Spojených státech. Takzvaný ZAKÓDOVAT projekt je společný sběr dat funkčních prvků lidského genomu, který využívá technologie DNA sekvenování příští generace a pole genomických obkladů, technologie schopné automaticky generovat velké množství dat při dramaticky snížených nákladech na bázi, ale se stejnou přesností (chyba základního volání) a věrnost (chyba sestavy).

Výpočetní evoluční biologie

Evoluční biologie je studie o původu a původu druh, jakož i jejich změny v čase. Informatika pomáhal evolučním biologům tím, že umožňoval výzkumným pracovníkům:

  • sledovat vývoj velkého počtu organismů měřením změn jejich DNA, spíše než pouze prostřednictvím fyzické taxonomie nebo fyziologických pozorování,
  • porovnat celý genomy, což umožňuje studium složitějších evolučních událostí, jako např genová duplikace, horizontální přenos genů a predikce faktorů důležitých u bakterií speciace,
  • vytvořit komplexní výpočetní populační genetika modely k předpovědi výsledku systému v průběhu času[22]
  • sledovat a sdílet informace o stále větším počtu druhů a organismů

Budoucí práce se snaží rekonstruovat nyní složitější strom života.[podle koho? ]

Oblast výzkumu uvnitř počítačová věda který používá genetické algoritmy je někdy zaměňována s výpočetní evoluční biologií, ale tyto dvě oblasti nemusí nutně souviset.

Srovnávací genomika

Jádrem komparativní genomové analýzy je vytvoření korespondence mezi geny (ortologie analýza) nebo jiné genomové znaky v různých organismech. Právě tyto intergenomické mapy umožňují sledovat evoluční procesy odpovědné za divergenci dvou genomů. Evoluce genomu formuje mnoho evolučních událostí působících na různých organizačních úrovních. Na nejnižší úrovni bodové mutace ovlivňují jednotlivé nukleotidy. Na vyšší úrovni procházejí velké chromozomální segmenty duplikací, postranním přenosem, inverzí, transpozicí, delecí a inzercí.[23] Nakonec jsou celé genomy zapojeny do procesů hybridizace, polyploidizace a endosymbióza, což často vede k rychlé speciaci. Složitost evoluce genomu představuje mnoho vzrušujících výzev pro vývojáře matematických modelů a algoritmů, kteří využívají spektrum algoritmických, statistických a matematických technik, od přesných, heuristika, pevný parametr a aproximační algoritmy pro problémy založené na modelech šetrnosti k Markovský řetězec Monte Carlo algoritmy pro Bayesovská analýza problémů na základě pravděpodobnostních modelů.

Mnoho z těchto studií je založeno na detekci sekvenční homologie přiřadit sekvence proteinové rodiny.[24]

Pan genomika

Pan genomics je koncept představený v roce 2005 Tettelinem a Medinim, který se nakonec zakořenil v bioinformatice. Pan genom je kompletní genový repertoár určité taxonomické skupiny: ačkoli byl původně použit pro blízce příbuzné kmeny druhů, lze jej použít v širším kontextu, jako je rod, kmen atd. Je rozdělen do dvou částí - Základní genom: Sada genů společných pro všechny studované genomy (často se jedná o geny pro udržení životně důležité pro přežití) a The Dispensable / Flexible Genome: Sada genů, které nejsou přítomny ve všech kromě jednoho nebo některých studovaných genomů. K charakterizaci Pan genomu bakteriálních druhů lze použít nástroj bioinformatiky BPGA.[25]

Genetika nemoci

S příchodem sekvenování nové generace získáváme dostatek sekvenčních dat k mapování genů komplexních onemocnění neplodnost,[26] rakovina prsu[27] nebo Alzheimerova choroba.[28] Celogenomové asociační studie jsou užitečným přístupem k určení mutací odpovědných za tak složitá onemocnění.[29] Prostřednictvím těchto studií byly identifikovány tisíce variant DNA, které jsou spojeny s podobnými nemocemi a rysy.[30] Jednou z nejdůležitějších aplikací je dále možnost použití genů při prognóze, diagnostice nebo léčbě. Mnoho studií diskutuje jak o slibných způsobech výběru genů, které mají být použity, tak o problémech a úskalích používání genů k předpovědi přítomnosti nemoci nebo prognózy.[31]

Analýza mutací u rakoviny

v rakovina, jsou genomy postižených buněk přeskupeny složitými nebo dokonce nepředvídatelnými způsoby. K identifikaci dříve neznámých se používají masivní snahy o sekvenování bodové mutace v různých geny při rakovině. Bioinformatici pokračují ve výrobě specializovaných automatizovaných systémů pro správu čistého objemu vyprodukovaných sekvenčních dat a vytvářejí nové algoritmy a software pro srovnání výsledků sekvenování s rostoucí sbírkou lidský genom sekvence a zárodečná linie polymorfismy. Používají se nové technologie fyzické detekce, například oligonukleotid mikročipy k identifikaci chromozomálních zisků a ztrát (tzv komparativní genomová hybridizace ), a jedno-nukleotidový polymorfismus pole pro detekci známých bodové mutace. Tyto detekční metody současně měří několik stovek tisíc míst v celém genomu a při použití s ​​vysokou propustností k měření tisíců vzorků generují terabajtů dat na experiment. Velké množství a nové typy dat opět generují nové příležitosti pro bioinformatiky. Často se zjistí, že údaje obsahují značnou variabilitu, nebo hluk, a tudíž Skrytý Markovův model a metody analýzy bodu změny jsou vyvíjeny tak, aby bylo možné odvodit skutečné číslo kopie Změny.

Při analýze genomů rakoviny bioinformaticky vztahujících se k identifikaci mutací v buňce lze použít dva důležité principy. exome. Za prvé, rakovina je onemocnění nahromaděných somatických mutací v genech. Druhá rakovina obsahuje mutace řidiče, které je třeba odlišit od cestujících.[32]

Díky průlomům, které tato technologie sekvenování nové generace poskytuje v oblasti bioinformatiky, by se genomika rakoviny mohla drasticky změnit. Tyto nové metody a software umožňují bioinformatikům rychle a cenově dostupné sekvenování mnoha genomů rakoviny. To by mohlo vytvořit pružnější proces klasifikace typů rakoviny analýzou mutací vyvolaných rakovinou v genomu. Kromě toho může být v budoucnu možné sledovat pacienty při progresi onemocnění pomocí sekvence vzorků rakoviny.[33]

Dalším typem dat, který vyžaduje vývoj nové informatiky, je analýza léze bylo zjištěno, že se opakuje mezi mnoha nádory.

Genová a proteinová exprese

Analýza genové exprese

The výraz mnoha genů lze určit měřením mRNA úrovně s více technikami včetně mikročipy, exprimovaný tag sekvence cDNA (EST) sekvenování, sériová analýza genové exprese Sekvenování značek (SAGE), masivně paralelní řazení podpisů (MPSS), RNA-sekv, známý také jako „Whole Transcriptome Shotgun Sequencing“ (WTSS), nebo různé aplikace multiplexované hybridizace in-situ. Všechny tyto techniky jsou extrémně náchylné k hluku a / nebo podléhají zkreslení v biologickém měření a hlavní oblast výzkumu ve výpočetní biologii zahrnuje vývoj statistických nástrojů k oddělení signál z hluk ve studiích genové exprese s vysokou propustností.[34] Takové studie se často používají k určení genů, které se podílejí na poruše: dalo by se porovnat údaje z mikročipů z rakovinných onemocnění epiteliální buňky k datům z nerakovinných buněk k určení transkriptů, které jsou up-regulovány a down-regulovány v konkrétní populaci rakovinných buněk.

Analýza exprese proteinu

Proteinové mikročipy a vysoká propustnost (HT) hmotnostní spektrometrie (MS) může poskytnout snímek proteinů přítomných v biologickém vzorku. Bioinformatika se velmi podílí na porozumění proteinové microarray a HT MS dat; první přístup čelí podobným problémům jako u mikročipů zaměřených na mRNA, druhý zahrnuje problém shody velkého množství údajů o hmotnosti s předpokládanými hmotnostmi z databází proteinových sekvencí a komplikovanou statistickou analýzu vzorků, kde je více, ale nekompletních peptidů zjištěno. Lokalizace buněčného proteinu v tkáňovém kontextu lze dosáhnout pomocí afinity proteomika zobrazeny jako prostorová data na základě imunohistochemie a tkáňové mikročipy.[35]

Analýza regulace

Regulace genů je komplexní orchestrace událostí, kterými signál, potenciálně extracelulární signál, jako je a hormon, případně vede ke zvýšení nebo snížení aktivity jednoho nebo více bílkoviny. K prozkoumání různých kroků v tomto procesu byly použity bioinformatické techniky.

Například genová exprese může být regulována blízkými prvky v genomu. Analýza promotorů zahrnuje identifikaci a studium sekvenční motivy v DNA obklopující kódující oblast genu. Tyto motivy ovlivňují rozsah, ve kterém je tato oblast přepsána do mRNA. Vylepšovač prvky daleko od promotoru mohou také regulovat genovou expresi prostřednictvím trojrozměrných smyčkových interakcí. Tyto interakce lze určit bioinformatickou analýzou zachycení konformace chromozomu experimenty.

K odvození genové regulace lze použít údaje o expresi: lze porovnat microarray data z nejrůznějších stavů organismu k vytvoření hypotéz o genech zapojených do každého stavu. V jednobuněčném organismu lze srovnávat stadia buněčný cyklus, spolu s různými stresovými podmínkami (tepelný šok, hladovění atd.). Poté je možné se přihlásit shlukovací algoritmy k těmto datům exprese určit, které geny jsou exprimovány společně. Například nadřazené oblasti (promotory) společně exprimovaných genů lze hledat nadměrně zastoupené regulační prvky. Příklady shlukovacích algoritmů použitých při shlukování genů jsou k-znamená shlukování, samoorganizující se mapy (SOM), hierarchické shlukování, a shoda shlukování metody.

Analýza buněčné organizace

Bylo vyvinuto několik přístupů k analýze umístění organel, genů, proteinů a dalších složek v buňkách. To je relevantní, protože umístění těchto složek ovlivňuje dění v buňce a pomáhá nám tak předvídat chování biologických systémů. A genová ontologie kategorie, buněčná složka, byl vyvinut pro zachycení subcelulární lokalizace v mnoha biologické databáze.

Mikroskopie a analýza obrazu

Mikroskopické obrázky nám umožňují najít obojí organely stejně jako molekuly. Může nám také pomoci rozlišovat mezi normálními a abnormálními buňkami, např. v rakovina.

Lokalizace proteinů

Lokalizace proteinů nám pomáhá vyhodnotit roli proteinu. Například pokud se v proteinu nachází protein jádro může být zapojen do genová regulace nebo sestřih. Naproti tomu, pokud je protein nalezen v mitochondrie, může být zapojen do dýchání nebo jiný metabolické procesy. Lokalizace bílkovin je tedy důležitou součástí predikce funkce proteinu. Jsou dobře vyvinuté predikce subcelulární lokalizace proteinu dostupné zdroje, včetně databází subcelulárních lokalizací proteinů a nástrojů pro predikci.[36][37]

Jaderná organizace chromatinu

Data z vysoké propustnosti zachycení konformace chromozomu experimenty, jako např Hi-C (experiment) a ChIA-PET, může poskytnout informace o prostorové blízkosti lokusů DNA. Analýzou těchto experimentů lze určit trojrozměrnou strukturu a jaderná organizace chromatinu. Bioinformatické výzvy v této oblasti zahrnují rozdělení genomu do domén, jako je např Topologicky sdružující domény (TAD), které jsou organizovány společně v trojrozměrném prostoru.[38]

Strukturální bioinformatika

Trojrozměrné proteinové struktury, jako je tato, jsou běžnými subjekty v bioinformatických analýzách.

Predikce struktury proteinů je další důležitou aplikací bioinformatiky. The aminokyselina sekvence proteinu, tzv primární struktura lze snadno určit ze sekvence genu, který jej kóduje. Ve velké většině případů tato primární struktura jednoznačně určuje strukturu ve svém nativním prostředí. (Samozřejmě existují výjimky, například bovinní spongiformní encefalopatie (nemoc šílených krav) prion.) Znalost této struktury je zásadní pro pochopení funkce proteinu. Strukturální informace jsou obvykle klasifikovány jako jedna z sekundární, terciární a kvartérní struktura. Životaschopné obecné řešení těchto předpovědí zůstává otevřeným problémem. Většina úsilí byla dosud zaměřena na heuristiku, která funguje většinu času.[Citace je zapotřebí ]

Jednou z klíčových myšlenek v bioinformatice je pojem homologie. V genomové větvi bioinformatiky se homologie používá k předpovědi funkce genu: pokud sekvence genu A, jehož funkce je známá, je homologní se sekvencí gen B, jehož funkce není známa, lze odvodit, že B může sdílet funkci A. Ve strukturální větvi bioinformatiky se používá homologie k určení, které části proteinu jsou důležité při tvorbě struktury a interakci s jinými proteiny. V technice zvané homologické modelování, tato informace se používá k předpovědi struktury proteinu, jakmile je známa struktura homologního proteinu. To v současné době zůstává jediným způsobem, jak spolehlivě předpovědět proteinové struktury.

Jedním z příkladů je hemoglobin u lidí a hemoglobin v luštěninách (leghemoglobin ), což jsou vzdálení příbuzní od stejného proteinová nadčeleď. Oba slouží ke stejnému účelu transportu kyslíku v organismu. Ačkoli oba tyto proteiny mají zcela odlišné aminokyselinové sekvence, jejich proteinové struktury jsou prakticky identické, což odráží jejich téměř identické účely a sdíleného předka.[39]

Další techniky pro predikci struktury proteinů zahrnují proteinové vlákno a de novo (od nuly) modelování založené na fyzice.

Dalším aspektem strukturální bioinformatiky je použití proteinových struktur pro Virtuální promítání modely jako Kvantitativní vztah mezi strukturou a aktivitou modely a proteochemometrické modely (PCM). Kromě toho lze krystalovou strukturu proteinu použít při simulaci například studií vázání ligandů a in silico studie mutageneze.

Síť a biologie systémů

Síťová analýza snaží se pochopit vztahy uvnitř biologické sítě jako metabolické nebo interakční sítě protein – protein. Ačkoli biologické sítě mohou být konstruovány z jednoho typu molekuly nebo entity (například geny), síťová biologie se často pokouší integrovat mnoho různých datových typů, jako jsou proteiny, malé molekuly, údaje o genové expresi a další, které jsou fyzicky propojeny , funkčně, nebo obojí.

Systémová biologie zahrnuje použití počítačové simulace z buněčný subsystémy (např sítě metabolitů a enzymy které obsahují metabolismus, signální transdukce cesty a genové regulační sítě ) jak analyzovat, tak vizualizovat složitá spojení těchto buněčných procesů. Umělý život nebo virtuální evoluce se pokouší porozumět evolučním procesům prostřednictvím počítačové simulace jednoduchých (umělých) forem života.

Sítě molekulární interakce

Interakce mezi proteiny jsou často vizualizovány a analyzovány pomocí sítí. Tato síť je tvořena interakcemi protein-protein z Treponema pallidum, původce syfilis a další nemoci.

Byly určeny desítky tisíc trojrozměrných proteinových struktur Rentgenová krystalografie a proteinová nukleární magnetická rezonanční spektroskopie (proteinová NMR) a ústřední otázkou ve strukturální bioinformatice je, zda je praktické předpovídat možné interakce protein - protein pouze na základě těchto 3D tvarů, aniž by interakce protein-protein experimenty. K řešení problému byla vyvinuta řada metod dokování protein – protein problém, i když se zdá, že v této oblasti je ještě mnoho práce.

Mezi další interakce vyskytující se v této oblasti patří Protein-ligand (včetně léku) a protein – peptid. Molekulární dynamická simulace pohybu atomů kolem otočných vazeb je základním principem výpočetní techniky algoritmy, nazývané dokovací algoritmy, pro studium molekulární interakce.

Ostatní

Analýza literatury

Nárůst počtu publikované literatury prakticky znemožňuje přečíst každý článek, což má za následek nesouvislé dílčí oblasti výzkumu. Cílem analýzy literatury je využití výpočetní a statistické lingvistiky k těžbě této rostoucí knihovny textových zdrojů. Například:

  • Rozpoznávání zkratek - identifikujte dlouhodobou formu a zkratku biologických termínů
  • Rozpoznávání pojmenovaných entit - rozpoznávání biologických termínů, jako jsou názvy genů
  • Interakce protein - protein - identifikujte které bílkoviny interagovat s kterými proteiny z textu

Oblast výzkumu čerpá z statistika a výpočetní lingvistika.

Vysoce výkonná analýza obrazu

Výpočetní technologie se používají k urychlení nebo úplné automatizaci zpracování, kvantifikace a analýzy velkého množství obsahu s vysokým obsahem informací biomedicínské snímky. Moderní analýza obrazu systémy zlepšují schopnost pozorovatele provádět měření z velké nebo složité sady obrazů přesnost, objektivnost nebo rychlost. Plně vyvinutý analytický systém může pozorovatele zcela nahradit. Ačkoli tyto systémy nejsou pro biomedicínské snímky jedinečné, biomedicínské zobrazování je pro oba stále důležitější diagnostika a výzkum. Některé příklady jsou:

  • vysoce výkonná a vysoce věrná kvantifikace a subcelulární lokalizace (vysoce obsahový screening cytohistopatologie, Bioimage informatika )
  • morfometrie
  • analýza a vizualizace klinického obrazu
  • stanovení vzorů proudění vzduchu v reálném čase v dýchacích plicích živých zvířat
  • kvantifikace velikosti okluze v obrazech v reálném čase z vývoje a zotavení během arteriálního poranění
  • provádění behaviorálních pozorování z rozšířených videozáznamů laboratorních zvířat
  • infračervená měření pro stanovení metabolické aktivity
  • inferring clone overlaps in Mapování DNA, např. the Skóre Sulston

Vysoce výkonná analýza dat jedné buňky

Výpočetní techniky se používají k analýze vysoce výkonných a nízko naměřených dat jednotlivých buněk, jako jsou údaje získané z průtoková cytometrie. Tyto metody obvykle zahrnují hledání populací buněk, které jsou relevantní pro konkrétní chorobný stav nebo experimentální stav.

Informatika o biologické rozmanitosti

Informatika o biologické rozmanitosti se zabývá sběrem a analýzou biologická rozmanitost data, jako např taxonomické databáze nebo mikrobiom data. Mezi příklady takových analýz patří fylogenetika, modelování výklenků, druhová bohatost mapování, Čárové kódy DNA nebo druh identifikační nástroje.

Ontologie a integrace dat

Biologické ontologie jsou směrované acyklické grafy z řízené slovníky. Jsou navrženy tak, aby zachytily biologické koncepty a popisy způsobem, který lze snadno kategorizovat a analyzovat pomocí počítačů. Při kategorizaci tímto způsobem je možné získat přidanou hodnotu z holistické a integrované analýzy.

The Slévárna OBO byla snaha standardizovat určité ontologie. Jedním z nejrozšířenějších je Genová ontologie který popisuje genovou funkci. Existují také ontologie, které popisují fenotypy.

Databáze

Databáze jsou nezbytné pro bioinformatický výzkum a aplikace. Existuje mnoho databází, které pokrývají různé typy informací: například DNA a proteinové sekvence, molekulární struktury, fenotypy a biologická rozmanitost. Databáze mohou obsahovat empirická data (získaná přímo z experimentů), predikovaná data (získaná z analýzy) nebo nejčastěji obojí. Mohou být specifické pro konkrétní organismus, cestu nebo sledovanou molekulu. Alternativně mohou začlenit data zkompilovaná z několika dalších databází. Tyto databáze se liší svým formátem, přístupovým mechanismem a tím, zda jsou veřejné nebo ne.

Níže jsou uvedeny některé z nejčastěji používaných databází. Podrobnější seznam najdete na odkazu na začátku podsekce.

  • Používá se v biologické sekvenční analýze: Genbank, UniProt
  • Používá se ve strukturní analýze: Proteinová datová banka (PDB)
  • Používá se při hledání proteinových rodin a Motiv Nález: InterPro, Pfam
  • Používá se pro sekvenování nové generace: Archiv čtení sekvence
  • Používá se v síťové analýze: databáze metabolických cest (KEGG, BioCyc ), Databáze pro analýzu interakcí, funkční sítě
  • Používá se při konstrukci syntetických genetických obvodů: GenoCAD

Software a nástroje

Softwarové nástroje pro bioinformatiku od jednoduchých nástrojů příkazového řádku až po složitější grafické programy a samostatné webové služby dostupné z různých bioinformatické společnosti nebo veřejné instituce.

Open-source bioinformatický software

Mnoho bezplatný open source software nástroje existují a nadále rostou od 80. let.[40] Kombinace přetrvávající potřeby nového algoritmy pro analýzu objevujících se typů biologických odečtů potenciál pro inovace in silico experimenty a volně dostupné otevřený kód základny pomohly vytvořit příležitosti pro všechny výzkumné skupiny, aby přispěly jak k bioinformatice, tak k nabídce dostupného softwaru s otevřeným zdrojem, bez ohledu na jejich financování. Nástroje otevřeného zdroje často fungují jako inkubátory nápadů nebo podporované komunitou zásuvné moduly v komerčních aplikacích. Mohou také poskytnout de facto standardy a modely sdílených objektů pro pomoc s výzvou integrace bioinformací.

The řada softwarových balíků open-source zahrnuje tituly jako Biovodič, BioPerl, Biopython, BioJava, BioJS, BioRuby, Bioclipse, VYTEPAT, .NET Bio, oranžový s doplňkem bioinformatiky, Apache Taverna, UGENE a GenoCAD. Chcete-li zachovat tuto tradici a vytvořit další příležitosti, neziskové Otevřená nadace pro bioinformatiku[40] podpořili výroční Bioinformatics Open Source Conference (BOSC) since 2000.[41]

An alternative method to build public bioinformatics databases is to use the MediaWiki engine with the WikiOpener rozšíření. This system allows the database to be accessed and updated by all experts in the field.[42]

Web services in bioinformatics

SOAP - a ZBYTEK -based interfaces have been developed for a wide variety of bioinformatics applications allowing an application running on one computer in one part of the world to use algorithms, data and computing resources on servers in other parts of the world. The main advantages derive from the fact that end users do not have to deal with software and database maintenance overheads.

Basic bioinformatics services are classified by the EBI into three categories: SSS (Sequence Search Services), MSA (Multiple Sequence Alignment), and BSA (Biological Sequence Analysis).[43] The availability of these service-oriented bioinformatics resources demonstrate the applicability of web-based bioinformatics solutions, and range from a collection of standalone tools with a common data format under a single, standalone or web-based interface, to integrative, distributed and extensible bioinformatics workflow management systems.

Bioinformatics workflow management systems

A bioinformatics workflow management system is a specialized form of a workflow management system designed specifically to compose and execute a series of computational or data manipulation steps, or a workflow, in a Bioinformatics application. Such systems are designed to

  • provide an easy-to-use environment for individual application scientists themselves to create their own workflows,
  • provide interactive tools for the scientists enabling them to execute their workflows and view their results in real-time,
  • simplify the process of sharing and reusing workflows between the scientists, and
  • enable scientists to track the původ of the workflow execution results and the workflow creation steps.

Some of the platforms giving this service: Galaxie, Kepler, Taverna, UGENE, Anduril, HIVE.

BioCompute and BioCompute Objects

V roce 2014 US Food and Drug Administration sponsored a conference held at the Národní institut zdraví Bethesda Campus to discuss reproducibility in bioinformatics.[44] Over the next three years, a consortium of stakeholders met regularly to discuss what would become BioCompute paradigm.[45] These stakeholders included representatives from government, industry, and academic entities. Session leaders represented numerous branches of the FDA and NIH Institutes and Centers, non-profit entities including the Human Variome Project a European Federation for Medical Informatics, and research institutions including Stanford, New York Genome Center a Univerzita George Washingtona.

It was decided that the BioCompute paradigm would be in the form of digital 'lab notebooks' which allow for the reproducibility, replication, review, and reuse, of bioinformatics protocols. This was proposed to enable greater continuity within a research group over the course of normal personnel flux while furthering the exchange of ideas between groups. The US FDA funded this work so that information on pipelines would be more transparent and accessible to their regulatory staff.[46]

In 2016, the group reconvened at the NIH in Bethesda and discussed the potential for a BioCompute Object, an instance of the BioCompute paradigm. This work was copied as both a "standard trial use" document and a preprint paper uploaded to bioRxiv. The BioCompute object allows for the JSON-ized record to be shared among employees, collaborators, and regulators.[47][48]

Education platforms

Software platforms designed to teach bioinformatics concepts and methods include Rosalind and online courses offered through the Swiss Institute of Bioinformatics Training Portal. The Canadian Bioinformatics Workshops provides videos and slides from training workshops on their website under a Creative Commons licence. The 4273π project or 4273pi project[49] also offers open source educational materials for free. The course runs on low cost Raspberry Pi computers and has been used to teach adults and school pupils.[50][51] 4273π is actively developed by a consortium of academics and research staff who have run research level bioinformatics using Raspberry Pi computers and the 4273π operating system.[52][53]

MOOC platforms also provide online certifications in bioinformatics and related disciplines, including Coursera 's Bioinformatics Specialization (UC San Diego ) and Genomic Data Science Specialization (Johns Hopkins ) stejně jako EdX 's Data Analysis for Life Sciences XSeries (Harvard ). University of Southern California offers a Masters In Translational Bioinformatics focusing on biomedical applications.

Konference

There are several large conferences that are concerned with bioinformatics. Some of the most notable examples are Intelligent Systems for Molecular Biology (ISMB), European Conference on Computational Biology (ECCB), and Research in Computational Molecular Biology (RECOMB).

Viz také

Reference

  1. ^ Lesk, A. M. (26 July 2013). "Bioinformatics". Encyclopaedia Britannica.
  2. ^ A b Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). "Modeling nucleic acids". Aktuální názor na strukturní biologii. 22 (3): 273–78. doi:10.1016/j.sbi.2012.03.012. PMC  4028509. PMID  22538125.
  3. ^ Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). "Coarse-grained modeling of RNA 3D structure". Metody. 103: 138–56. doi:10.1016/j.ymeth.2016.04.026. PMID  27125734.
  4. ^ Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). "Coarse-Grained Protein Models and Their Applications". Chemické recenze. 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID  27333362.
  5. ^ Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN  9781498724975.
  6. ^ Joyce, A. P.; Zhang, C .; Bradley, P.; Havranek, J. J. (2015). "Structure-based modeling of protein: DNA specificity". Briefings in Functional Genomics. 14 (1): 39–49. doi:10.1093/bfgp/elu044. PMC  4366589. PMID  25414269.
  7. ^ Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). "New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly". In Karabencheva-Christova, T. (ed.). Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Akademický tisk. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008. ISBN  9780128000137. PMID  25443955.
  8. ^ Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (4 May 2018). "Protein–peptide docking: opportunities and challenges". Objev drog dnes. 23 (8): 1530–37. doi:10.1016/j.drudis.2018.05.006. ISSN  1359-6446. PMID  29733895.
  9. ^ A b Hogeweg P (2011). Searls, David B. (ed.). "The Roots of Bioinformatics in Theoretical Biology". PLOS výpočetní biologie. 7 (3): e1002021. Bibcode:2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC  3068925. PMID  21483479.
  10. ^ Hesper B, Hogeweg P (1970). "Bioinformatica: een werkconcept". 1 (6). Kameleon: 28–29. Citovat deník vyžaduje | deník = (Pomoc)
  11. ^ Hogeweg P (1978). "Simulating the growth of cellular forms". Simulace. 31 (3): 90–96. doi:10.1177/003754977803100305. S2CID  61206099.
  12. ^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN  978-0-471-32788-2.
  13. ^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  14. ^ Eck RV, Dayhoff MO (1966). "Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences". Věda. 152 (3720): 363–66. Bibcode:1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID  17775169. S2CID  23208558.
  15. ^ Johnson G, Wu TT (January 2000). "Kabat Database and its applications: 30 years after the first variability plot". Nucleic Acids Res. 28 (1): 214–18. doi:10.1093/nar/28.1.214. PMC  102431. PMID  10592229.
  16. ^ Erickson, JW; Altman, GG (1979). "A Search for Patterns in the Nucleotide Sequence of the MS2 Genome". Journal of Mathematical Biology. 7 (3): 219–230. doi:10.1007/BF00275725. S2CID  85199492.
  17. ^ Shulman, MJ; Steinberg, CM; Westmoreland, N (1981). "The Coding Function of Nucleotide Sequences can be Discerned by Statistical Analysis". Journal of Theoretical Biology. 88 (3): 409–420. doi:10.1016/0022-5193(81)90274-5. PMID  6456380.
  18. ^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge, Velká Británie: Cambridge University Press. str.4. ISBN  978-0-511-16815-4 - prostřednictvím internetového archivu.
  19. ^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (February 1977). "Nucleotide sequence of bacteriophage phi X174 DNA". Příroda. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID  870828. S2CID  4206886.
  20. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). "GenBank". Nucleic Acids Res. 36 (Database issue): D25–30. doi:10.1093/nar/gkm929. PMC  2238942. PMID  18073190.
  21. ^ A b C Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM (July 1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Věda. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID  7542800.
  22. ^ Carvajal-Rodríguez A (2012). "Simulation of Genes and Genomes Forward in Time". Current Genomics. 11 (1): 58–61. doi:10.2174/138920210790218007. PMC  2851118. PMID  20808525.
  23. ^ Brown, TA (2002). "Mutation, Repair and Recombination". Genomes (2. vyd.). Manchester (UK): Oxford.
  24. ^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). "Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust". Cytometry Part A. 49 (2): 43–48. doi:10.1002/cyto.10153. PMID  12357458.
  25. ^ Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). "BPGA-an ultra-fast pan-genome analysis pipeline". Vědecké zprávy. 6: 24373. Bibcode:2016NatSR...624373C. doi:10.1038/srep24373. PMC  4829868. PMID  27071527.CS1 maint: více jmen: seznam autorů (odkaz)
  26. ^ Aston KI (2014). "Genetic susceptibility to male infertility: News from genome-wide association studies". Andrologie. 2 (3): 315–21. doi:10.1111/j.2047-2927.2014.00188.x. PMID  24574159. S2CID  206007180.
  27. ^ Véron A, Blein S, Cox DG (2014). "Genome-wide association studies and the clinic: A focus on breast cancer". Biomarkers in Medicine. 8 (2): 287–96. doi:10.2217/bmm.13.121. PMID  24521025.
  28. ^ Tosto G, Reitz C (2013). "Genome-wide association studies in Alzheimer's disease: A review". Current Neurology and Neuroscience Reports. 13 (10): 381. doi:10.1007/s11910-013-0381-0. PMC  3809844. PMID  23954969.
  29. ^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). Use of linkage analysis, genome-wide association studies, and next-generation sequencing in the identification of disease-causing mutations. Farmakogenomika. Metody v molekulární biologii. 1015. pp. 127–46. doi:10.1007/978-1-62703-435-7_8. ISBN  978-1-62703-434-0. PMID  23824853.
  30. ^ Hindorff, L.A.; et al. (2009). "Potential etiologic and functional implications of genome-wide association loci for human diseases and traits". Proc. Natl. Acad. Sci. USA. 106 (23): 9362–67. Bibcode:2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC  2687147. PMID  19474294.
  31. ^ Hall, L.O. (2010). "Finding the right genes for disease and prognosis prediction". 2010 International Conference on System Science and Engineering. System Science and Engineering (ICSSE),2010 International Conference. s. 1–2. doi:10.1109/ICSSE.2010.5551766. ISBN  978-1-4244-6472-2. S2CID  21622726.
  32. ^ Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (27 December 2012). "Chapter 14: Cancer Genome Analysis". PLOS výpočetní biologie. 8 (12): e1002824. Bibcode:2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN  1553-7358. PMC  3531315. PMID  23300415.
  33. ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). "Second-Generation Sequencing for Cancer Genome Analysis". In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. (eds.). Cancer Genomics. Boston (US): Academic Press. pp. 13–30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN  9780123969675.
  34. ^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). "VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees" (PDF). Výzkum nukleových kyselin. 34 (Web Server): W529–W533. doi:10.1093/nar/gkl212. PMC  1538886. PMID  16845064.
  35. ^ "The Human Protein Atlas". www.proteinatlas.org. Citováno 2. října 2017.
  36. ^ "The human cell". www.proteinatlas.org. Citováno 2. října 2017.
  37. ^ Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna; Björk, Lars (26 May 2017). "A subcellular map of the human proteome". Věda. 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID  28495876. S2CID  10744558.
  38. ^ Ay, Ferhat; Noble, William S. (2 September 2015). "Analysis methods for studying the 3D architecture of the genome". Genome Biology. 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC  4556012. PMID  26328929.
  39. ^ Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). "Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport". Journal of Molecular Biology. 371 (1): 168–79. doi:10.1016/j.jmb.2007.05.029. PMID  17560601.
  40. ^ A b "Open Bioinformatics Foundation: About us". Oficiální webové stránky. Otevřená nadace pro bioinformatiku. Citováno 10. května 2011.
  41. ^ "Open Bioinformatics Foundation: BOSC". Oficiální webové stránky. Otevřená nadace pro bioinformatiku. Citováno 10. května 2011.
  42. ^ Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). "Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases". Bioinformatika. 26 (17): 2210–11. doi:10.1093/bioinformatics/btq348. PMID  20591906.
  43. ^ Nisbet, Robert (2009). "Bioinformatics". Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Akademický tisk. p. 328. ISBN  978-0080912035.
  44. ^ Commissioner, Office of the. "Advancing Regulatory Science – Sept. 24–25, 2014 Public Workshop: Next Generation Sequencing Standards". www.fda.gov. Citováno 30. listopadu 2017.
  45. ^ Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). "Biocompute Objects – A Step towards Evaluation and Validation of Biomedical Scientific Computations". PDA Journal of Pharmaceutical Science and Technology. 71 (2): 136–46. doi:10.5731/pdajpst.2016.006734. ISSN  1079-7440. PMC  5510742. PMID  27974626.
  46. ^ Commissioner, Office of the. "Advancing Regulatory Science – Community-based development of HTS standards for validating data and computation and encouraging interoperability". www.fda.gov. Citováno 30. listopadu 2017.
  47. ^ Alterovitz, Gil; Dean, Dennis A.; Goble, Carole; Crusoe, Michael R.; Soiland-Reyes, Stian; Bell, Amanda; Hayes, Anais; King, Charles Hadley S.; Johanson, Elaine (4 October 2017). "Enabling Precision Medicine via standard communication of NGS provenance, analysis, and results". bioRxiv  10.1101/191783.
  48. ^ BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, 3 September 2017
  49. ^ Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). "4273π : bioinformatics education on low cost ARM hardware". BMC bioinformatika. 14: 243. doi:10.1186/1471-2105-14-243. PMC  3751261. PMID  23937194.
  50. ^ Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). "University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school". International Journal of STEM Education. 2 (17). doi:10.1186/s40594-015-0030-z.
  51. ^ McDonagh, J.L; Barker, D; Alderson, R.G. (2016). "Bringing computational science to the public". SpringerPlus. 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC  4775721. PMID  27006868.
  52. ^ Robson, J.F.; Barker, D (2015). "Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer". Poznámky k výzkumu BMC. 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC  4604092. PMID  26462790.
  53. ^ Wregglesworth, K.M; Barker, D (2015). "A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1". Poznámky k výzkumu BMC. 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC  4606965. PMID  26467441.

Další čtení

externí odkazy