Analýza dráhy - Pathway analysis - Wikipedia
Cesta je termín z molekulární biologie pro kurátorské schematické znázornění dobře charakterizovaného segmentu molekulárně fyziologického aparátu, jako je metabolická cesta popisující enzymatický proces v buňce nebo tkáni nebo a signální dráha model představující regulační proces, který by naopak mohl umožnit metabolický nebo jiný regulační proces ve směru toku. Typický model dráhy začíná extracelulárním signální molekula který aktivuje konkrétní receptor, čímž spouští řetězec molekulárních interakcí.[1] Cesta je nejčastěji představována jako relativně malá graf s genem, proteinem a / nebo malou molekulou uzly připojeno uživatelem hrany známých funkčních vztahů. Zatímco jednodušší cesta se může jevit jako řetěz,[2] složitější topologie cest se smyčkami a alternativními cestami jsou mnohem běžnější. Výpočtové analýzy využívají speciální formáty reprezentace drah.[3][4] V nejjednodušší formě však může být cesta představována jako seznam členských molekul s neurčeným řádem a vztahy. Taková reprezentace, obecně nazývaná Functional Gene Set (FGS), může také odkazovat na další funkčně charakterizované skupiny, jako je proteinové rodiny, Genová ontologie (Jdi a Ontologie nemoci (DO) termíny atd. V bioinformatice lze k identifikaci klíče použít metody analýzy dráhy geny /bílkoviny v rámci dříve známé cesty ve vztahu ke konkrétnímu experimentu / patologickému stavu nebo budování cesty de novo z proteinů, které byly identifikovány jako klíčové ovlivněné prvky. Zkoumáním změn např. genová exprese v cestě lze prozkoumat jeho biologickou aktivitu. Analýza dráhy se však nejčastěji týká metody počáteční charakterizace a interpretace experimentálního (nebo patologického) stavu, který byl studován s omics nástroje nebo GWAS.[5] Takové studie mohou identifikovat dlouhé seznamy pozměněných genů. Vizuální kontrola je potom náročná a informace lze jen těžko shrnout, protože změněné geny mapují širokou škálu cest, procesů a molekulárních funkcí (s velkou genovou frakcí bez jakékoli anotace). V takových situacích je nejproduktivnějším způsobem prozkoumání seznamu identifikace obohacení konkrétních FGSje v tom. Obecným přístupem analýz obohacování je identifikovat FGS, jejichž členů bylo nejvíce často nebo většina silně změněn za daných podmínek ve srovnání s náhodně odebranou genovou sadou. Jinými slovy, obohacení může mapovat kanonické předchozí znalosti strukturované ve formě FGS na stav představovaný změněnými geny.
Použití
Data pro analýzu drah pocházejí z vysoce výkonná biologie. To zahrnuje vysokou propustnost sekvenování údaje a microarray data. Před provedením analýzy dráhy by měla být změna každého genu vyhodnocena pomocí omics množina dat buď kvantitativní (diferenciální analýza výrazů ) nebo kvalitativní (detekce somatických bodové mutace nebo mapování sousedních genů na choroby spojené SNP ). Je také možné kombinovat datové sady z různých výzkumných skupin nebo více omických platforem s metaanalýzou a regularizací napříč platformami.[6][7]Furhter, seznam, kde jsou identifikátory genů doprovázeny atributy změny, je podroben analýze dráhy. Pomocí softwaru pro analýzu cest mohou vědci určit, který z nich FGSjsou obohaceny změněnými experimentálními geny[8][9] Například analýza dráhy několika nezávislých microarray experimentů (metaanalýza ) pomohl objevit potenciál biomarkery v jedné cestě důležité pro přechod typu vlákna typu fast-to-slow switch Duchennova svalová dystrofie.[10] V jiné studii metaanalýza identifikoval dva biomarkery v krvi pacientů s Parkinsonova choroba, což může být užitečné pro sledování nemoci.[11] Alely kandidátského genu způsobující Alzheimerovu chorobu a starší demenci, kde byly poprvé objeveny prostřednictvím GWAS a dále ověřeno analýzou obohacení sítě proti FGS sestávající ze známých Alzheimerových genů.[12][13]
Databáze
Pathway sbírky a interakční sítě tvoří znalostní báze potřebné pro analýzu dráhy. Obsah, struktura, formát a funkce cesty se liší mezi různými databázovými prostředky, jako je KEGG,[14] WikiPathways nebo Reactome.[15] Existují také vlastní kolekce cest, které používají např. Studio Pathway[16] a analýza cesty vynalézavosti[17] nástroje. Veřejné online nástroje mohou poskytovat předkompilované a připravené nabídky cest a sítí z různých otevřených zdrojů (např. EviNet ).
Metody a software
Software pro analýzu cest lze nalézt ve formě desktopových programů, webových aplikací nebo balíčků kódovaných v takových jazycích, jako je R a Krajta a otevřeně sdíleny přes BioConductor [18] a GitHub [19] projekty. Metodika analýzy dráhy se rychle vyvíjí a klasifikace je stále diskutabilní,[20][21] s následujícími hlavními kategoriemi analýz obohacování drah použitelných pro vysoce výkonná data:[20]
Analýza nadměrného zastoupení (ORA)
Tato metoda měří překrytí mezi skupinou genů (nebo proteinů) na jedné straně FGS a na druhé straně seznam nejvíce pozměněných genů, které se obecně nazývají Altered Gene Sets (AGS). Typickým příkladem AGS je seznam nejlepších N odlišně exprimované geny z RNA-sekv test. Základním předpokladem ORA je, že biologicky relevantní cestu lze identifikovat přebytkem AGS geny v něm ve srovnání s počtem očekávaným náhodou. Cílem ORA je identifikovat takto obohacené cesty, soudě podle statistická významnost překrytí mezi FGS a AGS, jak je určeno buď příslušnou statistikou, jako je Jaccardův index nebo statistickým testem produkujícím p-hodnoty (Fisherův přesný test nebo test pomocí hypergeometrická distribuce ).
Bodování funkční třídy (FCS)
Tato metoda identifikuje FGS zvážením jejich relativních pozic v úplném seznamu genů studovaných v experimentu. Tento úplný seznam by proto měl být předem seřazen podle statistik (např mRNA změna složení výrazu, Studentův t-test atd.) nebo p-hodnota - při sledování směru změny záhybu, protože p-hodnoty jsou nesměrové. FCS tedy bere v úvahu každý gen FGS bez ohledu na jeho statistickou významnost a nevyžaduje předkompilování AGS. Jednou z prvních a nejpopulárnějších metod využívajících přístup FCS byla analýza obohacení genů (GSEA).[9]
Analýza topologie dráhy (PTA)
Podobně jako FCS, PTA odpovídá za data s vysokou propustností pro všechny FGS gen.[22] Kromě toho se používají specifické topologické informace o rolích, pozicích a směrech interakce genů dráhy. To vyžaduje další vstupní data z databáze cest v předem určeném formátu, jako je KEGG Markup Language (KGML ). S využitím těchto informací PTA odhaduje význam dráhy tím, že zvažuje, jak moc mohla každá jednotlivá změna genu ovlivnit celou cestu. Více typů alterací lze použít paralelně (somaticky varianty počtu kopií, bodové mutace atd.), pokud jsou k dispozici. [23] Sada metod PTA zahrnuje Signaling Pathway Impact Analysis (SPIA),[24][25] EnrichNet,[26] GGEA,[27] a TopoGSA.[28]
Analýza obohacení sítě (NEA)
Analýza obohacení sítě (NEA) byla rozšířením analýzy obohacení genové sady do domény globální genové sítě[29][30][31][32] Hlavní princip NEA lze chápat ve srovnání s ORA, kde obohacování FGS v genech AGS je určeno tím, kolik genů je přímo sdíleno AGS a FGS. V NEA naopak globální síť hledá okraje sítě, které spojují jakékoli geny AGS s jakýmikoli geny FGS. Vzhledem k tomu, že význam obohacení je ovlivněn vysoce variabilními stupni uzlů jednotlivých genů AGS a FGS, mělo by být stanoveno dedikovaným statistickým testem, který porovnává pozorovaný počet okrajů sítě s počtem očekávaným náhodou ve stejném kontextu sítě. Některé cenné vlastnosti NEA jsou tyto:
- je odolnější vůči biologické a technické variabilitě mezi replikáty vzorků;[33][34]
- AGS geny nemusí být nutně anotovány jako členové dráhy;[35]
- FGS členové se nemusejí sami měnit, ale přesto jsou účtováni kvůli tomu, že mají síťové odkazy na geny AGS.[36]
Komerční řešení
Kromě nástrojů s otevřeným zdrojovým kódem, jako je TĚTIVA nebo Cytoscape, řada společností prodává licencované softwarové produkty k analýze genových sad. Zatímco většina veřejně dostupných řešení využívá online a veřejné sbírky cest, komerční produkty většinou propagují vlastní, vlastní cesty a sítě. Výběr těchto produktů může být řízen dovednostmi zákazníků, finančními a časovými zdroji a potřebami.[5] Vynalézavost například udržuje znalostní základnu pro srovnávací analýzu údajů o genové expresi.[37] Studio Pathways [38] je komerční software, který umožňuje vyhledávat biologicky relevantní fakta, analyzovat experimenty a vytvářet cesty. Prohlížeč Pathways Studio [39] je bezplatný zdroj od stejné společnosti pro prezentaci kolekce a databáze interaktivních cest Pathway Studio. Nabízejí dvě komerční řešení PTA: PathwayGuide od Advaita Corporation a MetaCore od společnosti Thomson Reuters.[40] Advaita používá peer reviewed metodu Signaling Pathway Impact Analysis (SPIA)[24][25] zatímco metoda MetaCore není publikována.[40]
Omezení
Nedostatek anotací
Aplikace metod analýzy dráhy závisí na anotacích nalezených v existujících databáze, jako je členství v genové sadě v drahách, topologie drah, přítomnost genů v globální síti atd. Tyto anotace však zdaleka nejsou úplné a mají vysoce variabilní stupně spolehlivosti. Kromě toho jsou tyto informace obvykle obecné, tj. Zbavené např. buněčný typ, kompartment nebo vývojový kontext. Proto interpretace výsledků analýzy dráhy pro omics datové sady by měly být prováděny s opatrností.[41] Částečně lze problém vyřešit analýzou větších genových sad ve více globální kontext, jako jsou velké sbírky cest nebo globální interakční sítě.
Reference
- ^ Berg J. M., Tymoczko J. L., Stryer L. Biochemistry, 5. vydání, New York: W. H. Freeman; 2002
- ^ Ohlrogge, J; Procházet, J (červenec 1995). „Biosyntéza lipidů“. Rostlinná buňka. 7 (7): 957–70. doi:10,1105 / tpc.7.7.957. PMID 7640528. S2CID 219201001.
- ^ „Hlavní stránka - SBML.caltech.edu“. sbml.org.
- ^ „KGML (značkovací jazyk KEGG)“. www.genome.jp.
- ^ A b García-Campos, Miguel Angel; Espinal-Enríquez, Jesús; Hernández-Lemus, Enrique (2015). „Pathway analysis: State of the art“. Hranice ve fyziologii. 6: 383. doi:10.3389 / fphys.2015.00383. PMC 4681784. PMID 26733877.
- ^ Walsh, Christopher; Hu, Pingzhao; Batt, Jane; Santos, Claudia (2015). „Microarray Meta-Analysis and Cross-Platform Normisation: Integrative Genomics for Robust Biomarker Discovery“. Microarrays. 4 (3): 389–406. doi:10,3390 / microarrays4030389. PMC 4996376. PMID 27600230.
- ^ Suo, Chen; Hrydziuszko, Olga; Lee, Donghwan; Pramana, Setia; Saputra, Dhany; Joshi, Himanshu; Calza, Stefano; Pawitan, Yudi (24. března 2015). „Integrace somatických mutací, exprese a funkčních dat odhaluje potenciální geny řidiče predikující přežití rakoviny prsu“. Bioinformatika. 31 (16): 2607–2613. doi:10.1093 / bioinformatika / btv164. ISSN 1367-4803. PMID 25810432.
- ^ Tavazoie, Saeed; Hughes, Jason D .; Campbell, Michael J .; Cho, Raymond J .; Church, George M. (červenec 1999). "Systematické určování architektury genetické sítě". Genetika přírody. 22 (3): 281–285. doi:10.1038/10343. PMID 10391217. S2CID 14688842.
- ^ A b Subramanian, Aravind; Tamayo, Pablo; Mootha, Vamsi K .; Mukherjee, Sayan; Ebert, Benjamin L .; Gillette, Michael A .; Paulovich, Amanda; et al. (2005). „Analýza obohacení sady genů: Znalostní přístup k interpretaci profilů exprese v celém genomu“. Sborník Národní akademie věd Spojených států amerických. 102 (43): 15545–50. Bibcode:2005PNAS..10215545S. doi:10.1073 / pnas.0506580102. PMC 1239896. PMID 16199517.
- ^ Kotelnikova, Jekatěrina; Shkrob, Maria A .; Pyatnitskiy, Mikhail A .; Ferlini, Alessandra; Daraselia, Nikolai (2012). „Nový přístup k metaanalýze datových souborů microarray odhaluje lékové cíle a biomarkery související s přestavováním svalů u svalové dystrofie Duchenne“. PLOS výpočetní biologie. 8 (2): e1002365. Bibcode:2012PLSCB ... 8E2365K. doi:10.1371 / journal.pcbi.1002365. PMC 3271016. PMID 22319435.
- ^ Santiago, Jose A .; Potashkin, Judith A. (2015). „Metaanalýza založená na síti identifikuje HNF4A a PTBP1 jako podélně dynamické biomarkery pro Parkinsonovu chorobu“. Sborník Národní akademie věd Spojených států amerických. 112 (7): 2257–62. Bibcode:2015PNAS..112.2257S. doi:10.1073 / pnas.1423573112. PMC 4343174. PMID 25646437.
- ^ Reynolds, Chandra A .; Hong, Mun-Gwan; Eriksson, Ulrika K .; Blennow, Kaj; Wiklund, Fredrik; Johansson, Boo; Malmberg, Bo; Berg, Stig; Alexeyenko, Andrey; Grönberg, Henrik; Gatz, Margaret; Pedersen, Nancy L .; Prince, Jonathan A. (18. února 2010). „Analýza genů lipidové dráhy naznačuje asociaci variace sekvence blízko SREBF1 / TOM1L2 / ATPAF2 s rizikem demence“. Lidská molekulární genetika. 19 (10): 2068–2078. doi:10,1093 / hmg / ddq079. PMC 2860895. PMID 20167577.
- ^ Bennet, Anna M .; Reynolds, Chandra A .; Eriksson, Ulrika K .; Hong, Mun-Gwan; Blennow, Kaj; Gatz, Margaret; Alexeyenko, Andrey; Pedersen, Nancy L .; Prince, Jonathan A. (1. ledna 2011). „Genetic Association of Sequence Variants Near AGER / NOTCH4 and Dementia“. Journal of Alzheimer's Disease. 24 (3): 475–484. doi:10.3233 / jad-2011-101848. PMC 3477600. PMID 21297263.
- ^ Ogata, H .; Goto, S .; Sato, K .; Fujibuchi, W .; Bono, H .; Kanehisa, M. (1999). „KEGG: Kjótská encyklopedie genů a genomů“. Výzkum nukleových kyselin. 27 (1): 29–34. doi:10.1093 / nar / 27.1.29. PMC 148090. PMID 9847135.
- ^ Vastrik, Imre; D'Eustachio, Peter; Schmidt, Esther; Joshi-Tope, Geeta; Gopinath, Gopal; Croft, David; de Bono, Bernard; et al. (2007). „Reactome: Znalostní základna biologických cest a procesů“. Genome Biology. 8 (3): R39. doi:10.1186 / gb-2007-8-3-r39. PMC 1868929. PMID 17367534.
- ^ Pathway Studio Pathways
- ^ Pathway Central
- ^ Gentleman, R. C .; Carey, V. J .; Bates, D. M .; Bolstad, B .; Dettling, M .; Dudoit, S.; et al. (2004). "Bioconductor: otevřený vývoj softwaru pro výpočetní biologii a bioinformatiku". Genome Biol. 5 (10): R80. doi:10.1186 / gb-2004-5-10-r80. PMC 545600. PMID 15461798.
- ^ Dabbish, L., Stuart, C., Tsay, J. a Herbsleb, J. (2012). "Sociální kódování v githubu: transparentnost a spolupráce v otevřeném softwarovém úložišti, “ve sborníku z konference ACM 2012 o spolupráci podporované počítačem (New York, NY: ACM), 1277–1286
- ^ A b Khatri P., Sirota M., Butte A. J. Deset let analýzy cest: současné přístupy a vynikající výzvy. Plos Comput Biol. 2012; 8 (2)
- ^ Henderson-Maclennan NK, Papp JC, Talbot CC, McCabe ERB, Presson AP. Software pro analýzu cest: chyby a řešení anotací. Mol Genet Metab. 2010 listopad; 101 (2–3): 134–40
- ^ Emmert-Streib, F .; Dehmer, M. (2011). "Sítě pro biologii systémů: koncepční propojení dat a funkcí". Biologie systémů IET. 5 (3): 185–207. doi:10.1049 / iet-syb.2010.0025. PMID 21639592.
- ^ Khatri, Purvesh; Sirota, Marina; Butte, Atul J .; Ouzounis, Christos A. (23. února 2012). „Deset let analýzy cest: současné přístupy a vynikající výzvy“. PLOS výpočetní biologie. 8 (2): e1002375. Bibcode:2012PLSCB ... 8E2375K. doi:10.1371 / journal.pcbi.1002375. PMC 3285573. PMID 22383865.
- ^ A b Draghici, S .; Khatri, P .; Tarca, A. L .; Amin, K .; Hotovo, A .; Voichita, C .; Georgescu, C .; Romero, R. (4. září 2007). „Přístup systémové biologie pro analýzu na úrovni cest“. Výzkum genomu. 17 (10): 1537–1545. doi:10,1101 / gr. 6202607. PMC 1987343. PMID 17785539.
- ^ A b Tarca, A. L .; Draghici, S .; Khatri, P .; Hassan, S. S .; Mittal, P .; Kim, J. s .; Kim, C. J .; Kusanovic, J. P .; Romero, R. (5. listopadu 2008). „Nová analýza dopadu signální dráhy“. Bioinformatika. 25 (1): 75–82. doi:10.1093 / bioinformatika / btn577. PMC 2732297. PMID 18990722.
- ^ Glaab, E .; Baudot, A .; Krasnogor, N .; Schneider, R. S .; Valencia, A. (15. září 2012). „EnrichNet: Analýza obohacení genové sady založená na síti“. Bioinformatika. 28 (18): i451 – i457. doi:10.1093 / bioinformatika / bts389. PMC 3436816. PMID 22962466.
- ^ Geistlinger, L .; Csaba, G .; Küffner, R .; Mulder, N .; Zimmer, R. (2011). „Od množin ke grafům: Směrem k realistické analýze obohacení transkriptomických systémů“. Bioinformatika. 27 (13): i366 – i373. doi:10.1093 / bioinformatika / btr228. PMC 3117393. PMID 21685094.
- ^ Glaab, E .; Baudot, A .; Krasnogor, N .; Valencia, A. (2012). „TopoGSA: Analýza topologické genové sítě“. Bioinformatika. 26 (18): 1271–1272. doi:10.1093 / bioinformatika / btq131. PMC 2859135. PMID 20335277.
- ^ Shojaie, Ali; Michailidis, George (22. května 2010). „Analýza obohacení sítě ve složitých experimentech“. Statistické aplikace v genetice a molekulární biologii. 9 (1). doi:10.2202/1544-6115.1483. ISSN 1544-6115. PMC 2898649. PMID 20597848.
- ^ Huttenhower, Curtis; Haley, Erin M .; Hibbs, Matthew A .; Dumeaux, Vanessa; Barrett, Daniel R .; Coller, Hilary A .; Troyanskaya, Olga G. (26. února 2009). „Zkoumání lidského genomu pomocí funkčních map“. Výzkum genomu. 19 (6): 1093–1106. doi:10.1101 / gr.082214.108. ISSN 1088-9051. PMID 19246570.
- ^ Alexeyenko, A .; Lee, W .; Pernemalm, M. (2012). „Analýza obohacení sítě: rozšíření analýzy obohacení genové sady na genové sítě“. BMC bioinformatika. 13: 226. doi:10.1186/1471-2105-13-226. PMC 3505158. PMID 22966941.
- ^ Signorelli, Mirko; Vinciotti, Veronica; Wit, Ernst C. (5. září 2016). „NEAT: test efektivní analýzy obohacení sítě“. BMC bioinformatika. 17 (1): 352. arXiv:1604.01210. doi:10.1186 / s12859-016-1203-6. ISSN 1471-2105. PMID 27597310. S2CID 2274758.
- ^ Suo, Chen; Hrydziuszko, Olga; Lee, Donghwan; Pramana, Setia; Saputra, Dhany; Joshi, Himanshu; Calza, Stefano; Pawitan, Yudi (15. srpna 2015). „Integrace somatických mutací, exprese a funkčních dat odhaluje potenciální geny řidiče predikující přežití rakoviny prsu“. Bioinformatika. 31 (16): 2607–2613. doi:10.1093 / bioinformatika / btv164. PMID 25810432.
- ^ Jeggari, A .; Alexeyenko, A (2017). „NEArender: balíček R pro funkční interpretaci„ omických “dat prostřednictvím analýzy obohacení sítě“. BMC bioinformatika. 18 (Suppl 5): 118. doi:10.1186 / s12859-017-1534-r. PMC 5374688. PMID 28361684.
- ^ Hong, M .; Alexeyenko, A .; Lambert, J. (2010). „Analýza genomové dráhy implikuje intracelulární transmembránový transport proteinu u Alzheimerovy choroby“. Journal of Human Genetics. 55 (10): 707–709. doi:10.1038 / jhg.2010.92. PMID 20668461. S2CID 27020289.
- ^ Jeggari, Ashwini; Alekseenko, Zhanna; Petrov, Iurii; Dias, José M; Ericson, Johan; Alexeyenko, Andrey (2. července 2018). „EviNet: webová platforma pro analýzu obohacení sítě s flexibilní definicí genových sad“. Výzkum nukleových kyselin. 46 (W1): W163 – W170. doi:10.1093 / nar / gky485. PMC 6030852. PMID 29893885.
- ^ „Vynalézavost IPA - integrace a pochopení komplexních dat.“ Vynalézavost. Web. 8. dubna 2015. <http://www.ingenuity.com/products/ipa#/?tab=features >.
- ^ Studio Pathway
- ^ Prohlížeč Pathway Studio
- ^ A b Mitrea, Cristina; Taghavi, Zeinab; Bokanizad, Behzad; Hanoudi, Samer; Tagett, Rebecca; Donato, Michele; Voichiţa, Călin; Drăghici, Sorin (2013). „Metody a přístupy v topologické analýze biologických cest“. Hranice ve fyziologii. 4: 278. doi:10.3389 / fphys.2013.00278. PMC 3794382. PMID 24133454.
- ^ Henderson-Maclennan, Nicole K., Jeanette C. Papp, C. Conover Talbot, Edward R. B. McCabe a Angela P. Presson. „Software pro analýzu cest: chyby a řešení anotací.“ Molekulární genetika a metabolismus (2010): 134–40. PMC. Web. 8. dubna 2015.