OrthoDB - OrthoDB
![]() | |
---|---|
Obsah | |
Popis | Katalog Ortology. |
Kontakt | |
Výzkumné centrum | Švýcarský institut pro bioinformatiku |
Laboratoř | Computational Evolutionary Genomics Group |
Autoři | Evgenia V. Kriventseva |
Primární citace | Kriventseva a kol. (2015)[1] |
Datum vydání | 2007 |
Přístup | |
webová stránka | www |
Stáhnout URL | https://www.orthodb.org/?page=filelist |
Sparql koncový bod | sparql |
Smíšený | |
Licence | CC-BY-3.0 |
OrthoDB [1][2][3][4] představuje katalog ortologický genů kódujících proteiny napříč obratlovců, členovci, houby, rostliny, a bakterie. Ortologie odkazuje na posledního společného předka uvažovaného druhu, a proto OrthoDB výslovně vymezuje ortology při každém hlavním záření podél fylogeneze druhu. Databáze ortologů představuje dostupné deskriptory proteinů společně s Genová ontologie a InterPro atributy, které slouží k poskytování obecných popisných anotací ortologických skupin a usnadňují komplexní dotazování na ortologickou databázi. OrthoDB také poskytuje vypočítané evoluční rysy ortologů, jako jsou profily duplikovatelnosti a ztráty genů, míry divergence, sourozenecké skupiny a architektury genů intron-exon.
Ve srovnávací genomice nelze význam měřítka podceňovat. Jelikož vymezení genové ortologie vyžaduje zvláštní odbornost a značné výpočetní zdroje, měřítko je něco, čeho jednotlivé nespecializované výzkumné skupiny nemohou dosáhnout samy. Tohoto náročného úkolu je dosaženo OrthoDBs velmi komplexními soubory druhů a několika jedinečnými vlastnostmi, jako jsou rozsáhlé funkční a evoluční anotace ortologických skupin, s integrací mnoha užitečných odkazů na další přední světové databáze, které se zaměřují na zachycení informací o genové funkci. Žádný genom nemůže existovat jako užitečný zdroj dat bez rozsáhlých srovnávacích analýz s jinými genomy - OrthoDB poskytuje kriticky důležitý zdroj pro komparativní genomiku pro celou komunitu výzkumníků od zájemců o velké evoluční otázky až po ty, kteří se zaměřují na specifické biologické funkce jednotlivých genů.
Metodologie
Ortologie je definována ve vztahu k poslednímu společnému předkovi uvažovaného druhu, čímž se určuje hierarchická povaha ortologických klasifikací. To je výslovně řešeno v OrthoDB aplikací ortologického vymezení postupu v každém hlavním radiačním bodě uvažované fylogeneze. The OrthoDB implementace využívá shlukovací algoritmus Best-Reciprocal-Hit (BRH) založený na principu all-against-all Smith – Waterman srovnání proteinových sekvencí. Předběžné zpracování genové sady vybírá nejdelší transkript kódující protein alternativně sestřižených genů a velmi podobných genových kopií. Postup trianguluje BRH k postupnému vytváření klastrů a vyžaduje celkové minimální překrytí zarovnání sekvence, aby se zabránilo chůzi domény. Tyto základní klastry jsou dále rozšířeny tak, aby zahrnovaly všechny blízce příbuzné mezidruhové in-paralogy a dříve identifikované velmi podobné genové kopie.
Datový obsah
Databáze obsahuje přibližně 600 eukaryotických druhů a více než 3600 bakterií [1] pochází z Ensembl, UniProt, NCBI, FlyBase a několik dalších databází. Neustále se zvyšující vzorkování sekvenovaných genomů přináší jasnější popis většiny genových rodů, které usnadní informované hypotézy o genové funkci v nově sekvenovaných genomech.
Příklady studií, které využily údaje z OrthoDB zahrnout srovnávací analýzy vývoje genového repertoáru,[5][6] srovnání vývojových genů pro mušky a komáry,[7] analýzy změn v genové expresi u komárů vyvolané krevní moučkou nebo infekcí,[8][9][10] analýza vývoje produkce mléka savců,[11] a gen komárů a vývoj genomu.[12] Další studie citují OrthoDB najdete na PubMed a Google Scholar.
Výkon
OrthoDB si v srovnávacích hodnoceních vedla konzistentně dobře spolu s dalšími ortologickými vytyčovacími postupy. Výsledky byly porovnány s referenčními stromy pro tři dobře konzervované rodiny proteinů,[13] a do většího souboru léčených proteinových rodin.[14]
BUSCO
Bznačkovací sady Universal Single-Copy Órthology [15] - Ortologické skupiny jsou vybrány z OrthoDB pro kořenové klasifikace členovců, obratlovců, metazoánů, hub a dalších velkých subtypů. Skupiny musí obsahovat ortology s jednou kopií alespoň u 90% druhů (u jiných mohou být ztraceny nebo duplikovány) a chybějící druhy nemohou být všechny ze stejného kladu. Druhy s častými ztrátami nebo duplikacemi jsou z výběru odstraněny, pokud nemají ve fylogenezi klíčovou pozici. BUSCO Očekává se proto, že budou nalezeny jako ortology s jednou kopií v jakémkoli nově sekvenovaném genomu z příslušné fylogenetické kladu a mohou být použity k analýze nově sekvenovaných genomů k posouzení jejich relativní úplnosti. The BUSCO hodnotící nástroj a datové sady (přístupné tady ) jsou široce používány v mnoha genomických projektech, přičemž většina redaktorů časopisů nyní vyžaduje takové hodnocení kvality před přijetím nových publikací o genomu.
Poznámky a odkazy
- ^ A b C Kriventseva EV, Tegenfeldt F, Petty TJ, Waterhouse RM, Simão FA, Pozdnyakov IA, Ioannidis P, Zdobnov EM (leden 2015). „OrthoDB v8: aktualizace hierarchického katalogu ortologů a základního svobodného softwaru“. Nucleic Acids Res. 43 (Problém s databází): D250–6. doi:10.1093 / nar / gku1220. PMC 4383991. PMID 25428351.
- ^ Waterhouse RM, Tegenfeldt F, Li J, Zdobnov EM, Kriventseva EV (leden 2013). „OrthoDB: hierarchický katalog zvířecích, houbových a bakteriálních ortologů“. Nucleic Acids Res. 41 (Problém s databází): D358–65. doi:10.1093 / nar / gks1116. PMC 3531149. PMID 23180791.
- ^ Waterhouse RM, Zdobnov EM, Tegenfeldt F, Li J, Kriventseva EV (leden 2011). „OrthoDB: hierarchický katalog eukaryotických ortologů v roce 2011“. Nucleic Acids Res. 39 (Problém s databází): D283–8. doi:10.1093 / nar / gkq930. PMC 3013786. PMID 20972218.
- ^ Kriventseva EV, Rahman N, Espinosa O, Zdobnov EM (leden 2008). „OrthoDB: hierarchický katalog eukaryotických ortologů“. Nucleic Acids Res. 36 (Problém s databází): D271–5. doi:10.1093 / nar / gkm 845. PMC 2238902. PMID 17947323.
- ^ Waterhouse RM, Zdobnov EM, Kriventseva EV (leden 2011). „Korelační znaky retence genů, divergence sekvencí, duplikovatelnost a esenciálnost u obratlovců, členovců a hub“. Genome Biol. Evol. 3: 75–86. doi:10.1093 / gbe / evq083. PMC 3030422. PMID 21148284.
- ^ Hase T, Niimura Y, Tanaka H (2010). „Rozdíl v duplikovatelnosti genů může vysvětlit rozdíl v celkové struktuře interakčních sítí protein-protein mezi eukaryoty“. BMC Evol. Biol. 10: 358. doi:10.1186/1471-2148-10-358. PMC 2994879. PMID 21087510.
- ^ Behura SK, Haugen M, Flannery E, Sarro J, Tessier CR, Severson DW, Duman-Scheel M (2011). „Srovnávací genomická analýza vývojových genů Drosophila melanogaster a vektorových komárů“. PLOS ONE. 6 (7): e21504. Bibcode:2011PLoSO ... 621504B. doi:10.1371 / journal.pone.0021504. PMC 3130749. PMID 21754989.
- ^ Bonizzoni M, Dunn WA, Campbell CL, Olson KE, Dimon MT, Marinotti O, James AA (2011). „RNA-seq analýzy změn vyvolaných krví v genové expresi u druhů vektorů komárů, Aedes aegypti“. BMC Genomics. 12: 82. doi:10.1186/1471-2164-12-82. PMC 3042412. PMID 21276245.
- ^ Pinto SB, Lombardo F, Koutsos AC, Waterhouse RM, McKay K, An C, Ramakrishnan C, Kafatos FC, Michel K (2009). „Objev modulátorů Plasmodium pomocí genomové analýzy cirkulujících hemocytů v Anopheles gambiae“. Proc Natl Acad Sci U S A. 106 (50): 21270–5. Bibcode:2009PNAS..10621270P. doi:10.1073 / pnas.0909463106. PMC 2783009. PMID 19940242.
- ^ Bartholomay LC, Waterhouse RM, Mayhew GF, Campbell CL, Michel K, Zou Z, Ramirez JL, Das S, Alvarez K, Arensburger P, Bryant B, Chapman SB, Dong Y, Erickson SM, Karunaratne SH, Kokoza V, Kodira CD , Pignatelli P, Shin SW, Vanlandingham DL, Atkinson PW, Birren B, Christophides GK, Clem RJ, Hemingway J, Higgs S, Megy K, Ranson H, Zdobnov EM, Raikhel AS, Christensen BM, Dimopoulos G, Muskavitch MA (2010 ). „Patogeneze Culex quinquefasciatus a metaanalýza infekčních odpovědí na různé patogeny“. Věda. 330 (6000): 88–90. Bibcode:2010Sci ... 330 ... 88B. doi:10.1126 / science.1193162. PMC 3104938. PMID 20929811.
- ^ Lemay DG, Lynn DJ, Martin WF, Neville MC, Casey TM, Rincon G, Kriventseva EV, Barris WC, Hinrichs AS, Molenaar AJ, Pollard KS, Maqbool NJ, Singh K, Murney R, Zdobnov EM, Tellam RL, Medrano JF , Němec JB, Rijnkels M (2009). „Genom hovězí laktace: pohledy na vývoj mléka savců“. Genome Biol. 10 (4): R43. doi:10.1186 / gb-2009-10-4-r43. PMC 2688934. PMID 19393040.
- ^ Neafsey DE, Waterhouse RM, Abai MR, Aganezov SS, Alekseyev MA, Allen JE, Amon J, Arcà B, Arensburger P, Artemov G, Assour LA, Basseri H, Berlin A, Birren BW, Blandin SA, Brockman AI, Burkot TR , Burt A, Chan CS, Chauve C, Chiu JC, Christensen M, Costantini C, Davidson VL, Deligianni E, Dottorini T, Dritsou V, Gabriel SB, Guelbeogo WM, Hall AB, Han MV, Hlaing T, Hughes DS, Jenkins AM, Jiang X, Jungreis I, Kakani EG, Kamali M, Kemppainen P, Kennedy RC, Kirmitzoglou IK, Koekemoer LL, Laban N, Langridge N, Lawniczak MK, Lirakis M, Lobo NF, Lowy E, MacCallum RM, Mao C, Maslen G, Mbogo C, McCarthy J, Michel K, Mitchell SN, Moore W, Murphy KA, Naumenko AN, Nolan T, Novoa EM, O'Loughlin S, Oringanje C, Oshaghi MA, Pakpour N, Papathanos PA, Peery AN, Povelones M, Prakash A, Price DP, Rajaraman A, Reimer LJ, Rinker DC, Rokas A, Russell TL, Sagnon N, Sharakhova MV, Shea T, Simão FA, Simard F, Slotman MA, Somboon P, Stegniy V, Struchiner CJ , Thomas GW, Tojo M, Topalis P, Tubio JM, Unger MF, Vontas J, Walton C, Wilding CS, Willis JH, Wu YC, Yan G, Zdobnov EM, Zhou X, Catteruccia F, Christophides GK, Collins FH, Cornman RS, Crisanti A, Donnelly MJ, Emrich SJ, Fontaine MC, Gelbart W, Hahn MW, Hansen IA, Howell PI, Kafatos FC, Kellis M, Lawson D, Louis C, Luckhart S, Muskavitch MA, Ribeiro JM, Riehle MA, Sharakhov IV, Tu Z, Zwiebel LJ, Besansky NJ (leden 2015). „Vysoce vyvíjející se vektory malárie: genomy 16 komárů Anopheles“. Věda. 347 (6217): 62176. Bibcode:2015Sci ... 347 ... 43N. doi:10.1126 / science.1258522. PMC 4380271. PMID 25554792.
- ^ Boeckmann B, Robinson-Rechavi M, Xenarios I, Dessimoz C (září 2011). „Koncepční rámec a pilotní studie pro srovnání fylogenomických databází založených na referenčních genových stromech“. Stručný. Bioinformace. 12 (5): 423–35. doi:10.1093 / bib / bbr034. PMC 3178055. PMID 21737420.
- ^ http://eggnog.embl.de/orthobench OrthoBench]
Trachana K, Larsson TA, Powell S, Chen WH, Doerks T, Muller J, Bork P (říjen 2011). „Metody predikce ortologie: hodnocení kvality pomocí upravených proteinových rodin“. BioEssays. 33 (10): 769–80. doi:10.1002 / bies.201100062. PMC 3193375. PMID 21853451. - ^ Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM (červen 2015). „BUSCO: hodnocení kompletnosti genomu a úplnosti anotací pomocí ortologů s jednou kopií“. Bioinformatika. 31 (19): 3210–2. doi:10.1093 / bioinformatika / btv351. PMID 26059717.