Analýza dráhy - Pathway analysis - Wikipedia

Cesta je termín z molekulární biologie pro kurátorské schematické znázornění dobře charakterizovaného segmentu molekulárně fyziologického aparátu, jako je metabolická cesta popisující enzymatický proces v buňce nebo tkáni nebo a signální dráha model představující regulační proces, který by naopak mohl umožnit metabolický nebo jiný regulační proces ve směru toku. Typický model dráhy začíná extracelulárním signální molekula který aktivuje konkrétní receptor, čímž spouští řetězec molekulárních interakcí.[1] Cesta je nejčastěji představována jako relativně malá graf s genem, proteinem a / nebo malou molekulou uzly připojeno uživatelem hrany známých funkčních vztahů. Zatímco jednodušší cesta se může jevit jako řetěz,[2] složitější topologie cest se smyčkami a alternativními cestami jsou mnohem běžnější. Výpočtové analýzy využívají speciální formáty reprezentace drah.[3][4] V nejjednodušší formě však může být cesta představována jako seznam členských molekul s neurčeným řádem a vztahy. Taková reprezentace, obecně nazývaná Functional Gene Set (FGS), může také odkazovat na další funkčně charakterizované skupiny, jako je proteinové rodiny, Genová ontologie (Jdi a Ontologie nemoci (DO) termíny atd. V bioinformatice lze k identifikaci klíče použít metody analýzy dráhy geny /bílkoviny v rámci dříve známé cesty ve vztahu ke konkrétnímu experimentu / patologickému stavu nebo budování cesty de novo z proteinů, které byly identifikovány jako klíčové ovlivněné prvky. Zkoumáním změn např. genová exprese v cestě lze prozkoumat jeho biologickou aktivitu. Analýza dráhy se však nejčastěji týká metody počáteční charakterizace a interpretace experimentálního (nebo patologického) stavu, který byl studován s omics nástroje nebo GWAS.[5] Takové studie mohou identifikovat dlouhé seznamy pozměněných genů. Vizuální kontrola je potom náročná a informace lze jen těžko shrnout, protože změněné geny mapují širokou škálu cest, procesů a molekulárních funkcí (s velkou genovou frakcí bez jakékoli anotace). V takových situacích je nejproduktivnějším způsobem prozkoumání seznamu identifikace obohacení konkrétních FGSje v tom. Obecným přístupem analýz obohacování je identifikovat FGS, jejichž členů bylo nejvíce často nebo většina silně změněn za daných podmínek ve srovnání s náhodně odebranou genovou sadou. Jinými slovy, obohacení může mapovat kanonické předchozí znalosti strukturované ve formě FGS na stav představovaný změněnými geny.

Použití

Data pro analýzu drah pocházejí z vysoce výkonná biologie. To zahrnuje vysokou propustnost sekvenování údaje a microarray data. Před provedením analýzy dráhy by měla být změna každého genu vyhodnocena pomocí omics množina dat buď kvantitativní (diferenciální analýza výrazů ) nebo kvalitativní (detekce somatických bodové mutace nebo mapování sousedních genů na choroby spojené SNP ). Je také možné kombinovat datové sady z různých výzkumných skupin nebo více omických platforem s metaanalýzou a regularizací napříč platformami.[6][7]Furhter, seznam, kde jsou identifikátory genů doprovázeny atributy změny, je podroben analýze dráhy. Pomocí softwaru pro analýzu cest mohou vědci určit, který z nich FGSjsou obohaceny změněnými experimentálními geny[8][9] Například analýza dráhy několika nezávislých microarray experimentů (metaanalýza ) pomohl objevit potenciál biomarkery v jedné cestě důležité pro přechod typu vlákna typu fast-to-slow switch Duchennova svalová dystrofie.[10] V jiné studii metaanalýza identifikoval dva biomarkery v krvi pacientů s Parkinsonova choroba, což může být užitečné pro sledování nemoci.[11] Alely kandidátského genu způsobující Alzheimerovu chorobu a starší demenci, kde byly poprvé objeveny prostřednictvím GWAS a dále ověřeno analýzou obohacení sítě proti FGS sestávající ze známých Alzheimerových genů.[12][13]

Databáze

Pathway sbírky a interakční sítě tvoří znalostní báze potřebné pro analýzu dráhy. Obsah, struktura, formát a funkce cesty se liší mezi různými databázovými prostředky, jako je KEGG,[14] WikiPathways nebo Reactome.[15] Existují také vlastní kolekce cest, které používají např. Studio Pathway[16] a analýza cesty vynalézavosti[17] nástroje. Veřejné online nástroje mohou poskytovat předkompilované a připravené nabídky cest a sítí z různých otevřených zdrojů (např. EviNet ).

Metody a software

Software pro analýzu cest lze nalézt ve formě desktopových programů, webových aplikací nebo balíčků kódovaných v takových jazycích, jako je R a Krajta a otevřeně sdíleny přes BioConductor [18] a GitHub [19] projekty. Metodika analýzy dráhy se rychle vyvíjí a klasifikace je stále diskutabilní,[20][21] s následujícími hlavními kategoriemi analýz obohacování drah použitelných pro vysoce výkonná data:[20]

Analýza nadměrného zastoupení (ORA)

Tato metoda měří překrytí mezi skupinou genů (nebo proteinů) na jedné straně FGS a na druhé straně seznam nejvíce pozměněných genů, které se obecně nazývají Altered Gene Sets (AGS). Typickým příkladem AGS je seznam nejlepších N odlišně exprimované geny z RNA-sekv test. Základním předpokladem ORA je, že biologicky relevantní cestu lze identifikovat přebytkem AGS geny v něm ve srovnání s počtem očekávaným náhodou. Cílem ORA je identifikovat takto obohacené cesty, soudě podle statistická významnost překrytí mezi FGS a AGS, jak je určeno buď příslušnou statistikou, jako je Jaccardův index nebo statistickým testem produkujícím p-hodnoty (Fisherův přesný test nebo test pomocí hypergeometrická distribuce ).

Bodování funkční třídy (FCS)

Tato metoda identifikuje FGS zvážením jejich relativních pozic v úplném seznamu genů studovaných v experimentu. Tento úplný seznam by proto měl být předem seřazen podle statistik (např mRNA změna složení výrazu, Studentův t-test atd.) nebo p-hodnota - při sledování směru změny záhybu, protože p-hodnoty jsou nesměrové. FCS tedy bere v úvahu každý gen FGS bez ohledu na jeho statistickou významnost a nevyžaduje předkompilování AGS. Jednou z prvních a nejpopulárnějších metod využívajících přístup FCS byla analýza obohacení genů (GSEA).[9]

Analýza topologie dráhy (PTA)

Podobně jako FCS, PTA odpovídá za data s vysokou propustností pro všechny FGS gen.[22] Kromě toho se používají specifické topologické informace o rolích, pozicích a směrech interakce genů dráhy. To vyžaduje další vstupní data z databáze cest v předem určeném formátu, jako je KEGG Markup Language (KGML ). S využitím těchto informací PTA odhaduje význam dráhy tím, že zvažuje, jak moc mohla každá jednotlivá změna genu ovlivnit celou cestu. Více typů alterací lze použít paralelně (somaticky varianty počtu kopií, bodové mutace atd.), pokud jsou k dispozici. [23] Sada metod PTA zahrnuje Signaling Pathway Impact Analysis (SPIA),[24][25] EnrichNet,[26] GGEA,[27] a TopoGSA.[28]

Analýza obohacení sítě (NEA)

Analýza obohacení sítě (NEA) byla rozšířením analýzy obohacení genové sady do domény globální genové sítě[29][30][31][32] Hlavní princip NEA lze chápat ve srovnání s ORA, kde obohacování FGS v genech AGS je určeno tím, kolik genů je přímo sdíleno AGS a FGS. V NEA naopak globální síť hledá okraje sítě, které spojují jakékoli geny AGS s jakýmikoli geny FGS. Vzhledem k tomu, že význam obohacení je ovlivněn vysoce variabilními stupni uzlů jednotlivých genů AGS a FGS, mělo by být stanoveno dedikovaným statistickým testem, který porovnává pozorovaný počet okrajů sítě s počtem očekávaným náhodou ve stejném kontextu sítě. Některé cenné vlastnosti NEA jsou tyto:

  1. je odolnější vůči biologické a technické variabilitě mezi replikáty vzorků;[33][34]
  2. AGS geny nemusí být nutně anotovány jako členové dráhy;[35]
  3. FGS členové se nemusejí sami měnit, ale přesto jsou účtováni kvůli tomu, že mají síťové odkazy na geny AGS.[36]

Komerční řešení

Kromě nástrojů s otevřeným zdrojovým kódem, jako je TĚTIVA nebo Cytoscape, řada společností prodává licencované softwarové produkty k analýze genových sad. Zatímco většina veřejně dostupných řešení využívá online a veřejné sbírky cest, komerční produkty většinou propagují vlastní, vlastní cesty a sítě. Výběr těchto produktů může být řízen dovednostmi zákazníků, finančními a časovými zdroji a potřebami.[5] Vynalézavost například udržuje znalostní základnu pro srovnávací analýzu údajů o genové expresi.[37] Studio Pathways [38] je komerční software, který umožňuje vyhledávat biologicky relevantní fakta, analyzovat experimenty a vytvářet cesty. Prohlížeč Pathways Studio [39] je bezplatný zdroj od stejné společnosti pro prezentaci kolekce a databáze interaktivních cest Pathway Studio. Nabízejí dvě komerční řešení PTA: PathwayGuide od Advaita Corporation a MetaCore od společnosti Thomson Reuters.[40] Advaita používá peer reviewed metodu Signaling Pathway Impact Analysis (SPIA)[24][25] zatímco metoda MetaCore není publikována.[40]

Omezení

Nedostatek anotací

Aplikace metod analýzy dráhy závisí na anotacích nalezených v existujících databáze, jako je členství v genové sadě v drahách, topologie drah, přítomnost genů v globální síti atd. Tyto anotace však zdaleka nejsou úplné a mají vysoce variabilní stupně spolehlivosti. Kromě toho jsou tyto informace obvykle obecné, tj. Zbavené např. buněčný typ, kompartment nebo vývojový kontext. Proto interpretace výsledků analýzy dráhy pro omics datové sady by měly být prováděny s opatrností.[41] Částečně lze problém vyřešit analýzou větších genových sad ve více globální kontext, jako jsou velké sbírky cest nebo globální interakční sítě.

Reference

  1. ^ Berg J. M., Tymoczko J. L., Stryer L. Biochemistry, 5. vydání, New York: W. H. Freeman; 2002
  2. ^ Ohlrogge, J; Procházet, J (červenec 1995). „Biosyntéza lipidů“. Rostlinná buňka. 7 (7): 957–70. doi:10,1105 / tpc.7.7.957. PMID  7640528. S2CID  219201001.
  3. ^ „Hlavní stránka - SBML.caltech.edu“. sbml.org.
  4. ^ „KGML (značkovací jazyk KEGG)“. www.genome.jp.
  5. ^ A b García-Campos, Miguel Angel; Espinal-Enríquez, Jesús; Hernández-Lemus, Enrique (2015). „Pathway analysis: State of the art“. Hranice ve fyziologii. 6: 383. doi:10.3389 / fphys.2015.00383. PMC  4681784. PMID  26733877.
  6. ^ Walsh, Christopher; Hu, Pingzhao; Batt, Jane; Santos, Claudia (2015). „Microarray Meta-Analysis and Cross-Platform Normisation: Integrative Genomics for Robust Biomarker Discovery“. Microarrays. 4 (3): 389–406. doi:10,3390 / microarrays4030389. PMC  4996376. PMID  27600230.
  7. ^ Suo, Chen; Hrydziuszko, Olga; Lee, Donghwan; Pramana, Setia; Saputra, Dhany; Joshi, Himanshu; Calza, Stefano; Pawitan, Yudi (24. března 2015). „Integrace somatických mutací, exprese a funkčních dat odhaluje potenciální geny řidiče predikující přežití rakoviny prsu“. Bioinformatika. 31 (16): 2607–2613. doi:10.1093 / bioinformatika / btv164. ISSN  1367-4803. PMID  25810432.
  8. ^ Tavazoie, Saeed; Hughes, Jason D .; Campbell, Michael J .; Cho, Raymond J .; Church, George M. (červenec 1999). "Systematické určování architektury genetické sítě". Genetika přírody. 22 (3): 281–285. doi:10.1038/10343. PMID  10391217. S2CID  14688842.
  9. ^ A b Subramanian, Aravind; Tamayo, Pablo; Mootha, Vamsi K .; Mukherjee, Sayan; Ebert, Benjamin L .; Gillette, Michael A .; Paulovich, Amanda; et al. (2005). „Analýza obohacení sady genů: Znalostní přístup k interpretaci profilů exprese v celém genomu“. Sborník Národní akademie věd Spojených států amerických. 102 (43): 15545–50. Bibcode:2005PNAS..10215545S. doi:10.1073 / pnas.0506580102. PMC  1239896. PMID  16199517.
  10. ^ Kotelnikova, Jekatěrina; Shkrob, Maria A .; Pyatnitskiy, Mikhail A .; Ferlini, Alessandra; Daraselia, Nikolai (2012). „Nový přístup k metaanalýze datových souborů microarray odhaluje lékové cíle a biomarkery související s přestavováním svalů u svalové dystrofie Duchenne“. PLOS výpočetní biologie. 8 (2): e1002365. Bibcode:2012PLSCB ... 8E2365K. doi:10.1371 / journal.pcbi.1002365. PMC  3271016. PMID  22319435.
  11. ^ Santiago, Jose A .; Potashkin, Judith A. (2015). „Metaanalýza založená na síti identifikuje HNF4A a PTBP1 jako podélně dynamické biomarkery pro Parkinsonovu chorobu“. Sborník Národní akademie věd Spojených států amerických. 112 (7): 2257–62. Bibcode:2015PNAS..112.2257S. doi:10.1073 / pnas.1423573112. PMC  4343174. PMID  25646437.
  12. ^ Reynolds, Chandra A .; Hong, Mun-Gwan; Eriksson, Ulrika K .; Blennow, Kaj; Wiklund, Fredrik; Johansson, Boo; Malmberg, Bo; Berg, Stig; Alexeyenko, Andrey; Grönberg, Henrik; Gatz, Margaret; Pedersen, Nancy L .; Prince, Jonathan A. (18. února 2010). „Analýza genů lipidové dráhy naznačuje asociaci variace sekvence blízko SREBF1 / TOM1L2 / ATPAF2 s rizikem demence“. Lidská molekulární genetika. 19 (10): 2068–2078. doi:10,1093 / hmg / ddq079. PMC  2860895. PMID  20167577.
  13. ^ Bennet, Anna M .; Reynolds, Chandra A .; Eriksson, Ulrika K .; Hong, Mun-Gwan; Blennow, Kaj; Gatz, Margaret; Alexeyenko, Andrey; Pedersen, Nancy L .; Prince, Jonathan A. (1. ledna 2011). „Genetic Association of Sequence Variants Near AGER / NOTCH4 and Dementia“. Journal of Alzheimer's Disease. 24 (3): 475–484. doi:10.3233 / jad-2011-101848. PMC  3477600. PMID  21297263.
  14. ^ Ogata, H .; Goto, S .; Sato, K .; Fujibuchi, W .; Bono, H .; Kanehisa, M. (1999). „KEGG: Kjótská encyklopedie genů a genomů“. Výzkum nukleových kyselin. 27 (1): 29–34. doi:10.1093 / nar / 27.1.29. PMC  148090. PMID  9847135.
  15. ^ Vastrik, Imre; D'Eustachio, Peter; Schmidt, Esther; Joshi-Tope, Geeta; Gopinath, Gopal; Croft, David; de Bono, Bernard; et al. (2007). „Reactome: Znalostní základna biologických cest a procesů“. Genome Biology. 8 (3): R39. doi:10.1186 / gb-2007-8-3-r39. PMC  1868929. PMID  17367534.
  16. ^ Pathway Studio Pathways
  17. ^ Pathway Central
  18. ^ Gentleman, R. C .; Carey, V. J .; Bates, D. M .; Bolstad, B .; Dettling, M .; Dudoit, S.; et al. (2004). "Bioconductor: otevřený vývoj softwaru pro výpočetní biologii a bioinformatiku". Genome Biol. 5 (10): R80. doi:10.1186 / gb-2004-5-10-r80. PMC  545600. PMID  15461798.
  19. ^ Dabbish, L., Stuart, C., Tsay, J. a Herbsleb, J. (2012). "Sociální kódování v githubu: transparentnost a spolupráce v otevřeném softwarovém úložišti, “ve sborníku z konference ACM 2012 o spolupráci podporované počítačem (New York, NY: ACM), 1277–1286
  20. ^ A b Khatri P., Sirota M., Butte A. J. Deset let analýzy cest: současné přístupy a vynikající výzvy. Plos Comput Biol. 2012; 8 (2)
  21. ^ Henderson-Maclennan NK, Papp JC, Talbot CC, McCabe ERB, Presson AP. Software pro analýzu cest: chyby a řešení anotací. Mol Genet Metab. 2010 listopad; 101 (2–3): 134–40
  22. ^ Emmert-Streib, F .; Dehmer, M. (2011). "Sítě pro biologii systémů: koncepční propojení dat a funkcí". Biologie systémů IET. 5 (3): 185–207. doi:10.1049 / iet-syb.2010.0025. PMID  21639592.
  23. ^ Khatri, Purvesh; Sirota, Marina; Butte, Atul J .; Ouzounis, Christos A. (23. února 2012). „Deset let analýzy cest: současné přístupy a vynikající výzvy“. PLOS výpočetní biologie. 8 (2): e1002375. Bibcode:2012PLSCB ... 8E2375K. doi:10.1371 / journal.pcbi.1002375. PMC  3285573. PMID  22383865.
  24. ^ A b Draghici, S .; Khatri, P .; Tarca, A. L .; Amin, K .; Hotovo, A .; Voichita, C .; Georgescu, C .; Romero, R. (4. září 2007). „Přístup systémové biologie pro analýzu na úrovni cest“. Výzkum genomu. 17 (10): 1537–1545. doi:10,1101 / gr. 6202607. PMC  1987343. PMID  17785539.
  25. ^ A b Tarca, A. L .; Draghici, S .; Khatri, P .; Hassan, S. S .; Mittal, P .; Kim, J. s .; Kim, C. J .; Kusanovic, J. P .; Romero, R. (5. listopadu 2008). „Nová analýza dopadu signální dráhy“. Bioinformatika. 25 (1): 75–82. doi:10.1093 / bioinformatika / btn577. PMC  2732297. PMID  18990722.
  26. ^ Glaab, E .; Baudot, A .; Krasnogor, N .; Schneider, R. S .; Valencia, A. (15. září 2012). „EnrichNet: Analýza obohacení genové sady založená na síti“. Bioinformatika. 28 (18): i451 – i457. doi:10.1093 / bioinformatika / bts389. PMC  3436816. PMID  22962466.
  27. ^ Geistlinger, L .; Csaba, G .; Küffner, R .; Mulder, N .; Zimmer, R. (2011). „Od množin ke grafům: Směrem k realistické analýze obohacení transkriptomických systémů“. Bioinformatika. 27 (13): i366 – i373. doi:10.1093 / bioinformatika / btr228. PMC  3117393. PMID  21685094.
  28. ^ Glaab, E .; Baudot, A .; Krasnogor, N .; Valencia, A. (2012). „TopoGSA: Analýza topologické genové sítě“. Bioinformatika. 26 (18): 1271–1272. doi:10.1093 / bioinformatika / btq131. PMC  2859135. PMID  20335277.
  29. ^ Shojaie, Ali; Michailidis, George (22. května 2010). „Analýza obohacení sítě ve složitých experimentech“. Statistické aplikace v genetice a molekulární biologii. 9 (1). doi:10.2202/1544-6115.1483. ISSN  1544-6115. PMC  2898649. PMID  20597848.
  30. ^ Huttenhower, Curtis; Haley, Erin M .; Hibbs, Matthew A .; Dumeaux, Vanessa; Barrett, Daniel R .; Coller, Hilary A .; Troyanskaya, Olga G. (26. února 2009). „Zkoumání lidského genomu pomocí funkčních map“. Výzkum genomu. 19 (6): 1093–1106. doi:10.1101 / gr.082214.108. ISSN  1088-9051. PMID  19246570.
  31. ^ Alexeyenko, A .; Lee, W .; Pernemalm, M. (2012). „Analýza obohacení sítě: rozšíření analýzy obohacení genové sady na genové sítě“. BMC bioinformatika. 13: 226. doi:10.1186/1471-2105-13-226. PMC  3505158. PMID  22966941.
  32. ^ Signorelli, Mirko; Vinciotti, Veronica; Wit, Ernst C. (5. září 2016). „NEAT: test efektivní analýzy obohacení sítě“. BMC bioinformatika. 17 (1): 352. arXiv:1604.01210. doi:10.1186 / s12859-016-1203-6. ISSN  1471-2105. PMID  27597310. S2CID  2274758.
  33. ^ Suo, Chen; Hrydziuszko, Olga; Lee, Donghwan; Pramana, Setia; Saputra, Dhany; Joshi, Himanshu; Calza, Stefano; Pawitan, Yudi (15. srpna 2015). „Integrace somatických mutací, exprese a funkčních dat odhaluje potenciální geny řidiče predikující přežití rakoviny prsu“. Bioinformatika. 31 (16): 2607–2613. doi:10.1093 / bioinformatika / btv164. PMID  25810432.
  34. ^ Jeggari, A .; Alexeyenko, A (2017). „NEArender: balíček R pro funkční interpretaci„ omických “dat prostřednictvím analýzy obohacení sítě“. BMC bioinformatika. 18 (Suppl 5): 118. doi:10.1186 / s12859-017-1534-r. PMC  5374688. PMID  28361684.
  35. ^ Hong, M .; Alexeyenko, A .; Lambert, J. (2010). „Analýza genomové dráhy implikuje intracelulární transmembránový transport proteinu u Alzheimerovy choroby“. Journal of Human Genetics. 55 (10): 707–709. doi:10.1038 / jhg.2010.92. PMID  20668461. S2CID  27020289.
  36. ^ Jeggari, Ashwini; Alekseenko, Zhanna; Petrov, Iurii; Dias, José M; Ericson, Johan; Alexeyenko, Andrey (2. července 2018). „EviNet: webová platforma pro analýzu obohacení sítě s flexibilní definicí genových sad“. Výzkum nukleových kyselin. 46 (W1): W163 – W170. doi:10.1093 / nar / gky485. PMC  6030852. PMID  29893885.
  37. ^ „Vynalézavost IPA - integrace a pochopení komplexních dat.“ Vynalézavost. Web. 8. dubna 2015. <http://www.ingenuity.com/products/ipa#/?tab=features >.
  38. ^ Studio Pathway
  39. ^ Prohlížeč Pathway Studio
  40. ^ A b Mitrea, Cristina; Taghavi, Zeinab; Bokanizad, Behzad; Hanoudi, Samer; Tagett, Rebecca; Donato, Michele; Voichiţa, Călin; Drăghici, Sorin (2013). „Metody a přístupy v topologické analýze biologických cest“. Hranice ve fyziologii. 4: 278. doi:10.3389 / fphys.2013.00278. PMC  3794382. PMID  24133454.
  41. ^ Henderson-Maclennan, Nicole K., Jeanette C. Papp, C. Conover Talbot, Edward R. B. McCabe a Angela P. Presson. „Software pro analýzu cest: chyby a řešení anotací.“ Molekulární genetika a metabolismus (2010): 134–40. PMC. Web. 8. dubna 2015.