T-káva - T-Coffee

T-káva
Vývojáři	Cédric Notredame, Centro de Regulacio Genomica (CRG) - Barcelona
Stabilní uvolnění	11.00.8cbe486 / 13. srpna 2014; před 6 lety
Náhled verze	11.00.d27cadf / 11. června 2015; před 5 lety
Úložiště	github.com/ cbcrg/ káva;
Operační systém	UNIX, Linux, MS-Windows, Mac OS X
Typ	Bioinformatický nástroj
Licence	GPL
webová stránka	wwwkáva.org

T-káva (Funkce cíle konzistence založená na stromu pro vyhodnocení zarovnání) je vícenásobné zarovnání sekvence software využívající progresivní přístup.^[1] Vygeneruje knihovnu párových zarovnání, která povedou zarovnání více sekvencí. Může také kombinovat více sekvencí zarovnání získaných dříve a v nejnovějších verzích může používat strukturální informace z PDB soubory (3D káva). Má pokročilé funkce pro hodnocení kvality zarovnání a určitou kapacitu pro identifikaci výskytu motivů (Mocca). Produkuje zarovnání ve formátu aln (Clustal ) ve výchozím nastavení, ale může také produkovat PIR, MSF a Formát FASTA. Nejběžnější vstupní formáty jsou podporovány (FASTA, PIR ).

Srovnání s jiným vyrovnávacím softwarem

I když je výchozím výstupem formát podobný Clustalu, je dostatečně odlišný od výstupu ClustalW / X, že jej mnoho programů podporujících formát Clustal nedokáže přečíst; naštěstí ClustalX umět importujte výstup T-Coffee, takže nejjednodušší opravou tohoto problému je obvykle importovat výstup T-Coffee do ClustalX a poté znovu exportovat. Další možností je požádat o přísný výstupní formát Clustalw s možností „-výstup = clustalw_aln".

Důležitým specifikem T-Coffee je jeho schopnost kombinovat různé metody a různé datové typy. Ve své nejnovější verzi lze T-Coffee použít ke kombinaci proteinových sekvencí a struktur, RNA sekvencí a struktur. Může také spouštět a kombinovat výstup nejběžnějších balíčků zarovnání sekvence a struktury. Úplný seznam naleznete: tclinkdb.txt

T-Coffee přichází se sofistikovaným nástrojem pro přeformátování sekvence s názvem seq_reformat. Rozsáhlá dokumentace je k dispozici na webu t_coffee_technical.htm spolu s výukovým programem t_coffee_tutorial.htm

Variace

M-káva: speciální režim T-Coffee, který umožňuje kombinovat výstup nejběžnějších balíčků pro zarovnání více sekvencí (Muscle, ClustalW, Mafft, ProbCons atd.). Výsledné zarovnání jsou o něco lepší než jednotlivé, ale co je nejdůležitější, program označuje oblasti zarovnání, kde se různé balíčky shodují. Regiony s vysokou shodou jsou obvykle dobře sladěny.

Expresso a 3D káva: jedná se o speciální režimy T-Coffee umožňující kombinovat sekvenci a struktury v zarovnání. Zarovnání na základě struktury lze provést pomocí nejběžnějších strukturálních zarovnávačů, jako jsou TMalign, Mustang a míza.

R-káva: speciální režim T-Coffee umožňující sladit sekvence RNA při použití informací o sekundární struktuře.

PSI-káva: srovnává vzdáleně příbuzné proteiny pomocí rozšíření homologie (pomalé a přesné)^[2]^[3]

TM káva: srovnává transmembránové proteiny pomocí rozšíření homologie^[4]

Pro-káva: srovnává homologní promotorové oblasti^[5]

Přesný: automaticky kombinovat nejpřesnější režimy pro DNA, RNA a proteiny (experimentální!)

Kombajn: kombinuje dvě (nebo více) více zarovnání sekvencí do jednoho.^[1]^[2]

Hodnocení

TCS: (Tvýkupné Consistency Score) rozšířená verze bodovacího schématu T-Coffee.^[6] Využívá knihovny T-Coffee párových zarovnání k vyhodnocení jakékoli MSA třetí strany. Párové projekce lze vytvářet pomocí rychlých nebo pomalých metod, což umožňuje kompromis mezi rychlostí a přesností. Ukázalo se, že TCS vede k výrazně lepším odhadům strukturální přesnosti a přesnějším fylogenetickým stromům proti Heads-or-Tails, GUIDANCE, Gblocks a trimAl.^[7]

Viz také

Reference

^ ^A ^b Notredame C, Higgins DG, Heringa J (08.09.2000). „T-Coffee: Nová metoda pro rychlé a přesné zarovnání více sekvencí“. J Mol Biol. 302 (1): 205–217. doi:10.1006 / jmbi.2000.4042. PMID 10964570.CS1 maint: více jmen: seznam autorů (odkaz)
^ ^A ^b Di Tommaso P, Moretti S, Xenarios I, Orobitg M, Montanyola A, Chang JM, Taly JF, Notredame C (červenec 2011). „T-Coffee: webový server pro vícenásobné seřazení sekvencí proteinových a RNA sekvencí pomocí strukturních informací a rozšíření homologie“. Nucleic Acids Res. 39 (Problém s webovým serverem): W13–7. doi:10.1093 / nar / gkr245. PMC 3125728. PMID 21558174.
^ Kemena C, Notredame C (01.10.2009). „Budoucí výzvy pro více metod zarovnání sekvencí v éře vysoké propustnosti“. Bioinformatika. 25 (19): 2455–65. doi:10.1093 / bioinformatika / btp452. PMC 2752613. PMID 19648142.
^ Chang JM, Di Tommaso P, Taly JF, Notredame C (2012-03-28). "Přesné vícenásobné seřazení sekvencí transmembránových proteinů s PSI-Coffee". BMC bioinformatika. 13: S1. doi:10.1186 / 1471-2105-13-S4-S1. PMC 3303701. PMID 22536955.
^ Erb I, González-Vallinas JR, Bussotti G, Blanco E, Eyras E, Notredame C (duben 2012). „Použití dat ChIP-Seq pro návrh metody vícenásobného uspořádání promotoru“. Nucleic Acids Res. 40 (7): e52. doi:10.1093 / nar / gkr1292. PMC 3326335. PMID 22230796.
^ Chang, JM; Di Tommaso, P; Lefort, V; Gascuel, O; Notredame, C (1. července 2015). „TCS: webový server pro vyhodnocení zarovnání více sekvencí a fylogenetickou rekonstrukci“. Výzkum nukleových kyselin. 43 (W1): W3-6. doi:10.1093 / nar / gkv310. PMC 4489230. PMID 25855806.
^ Chang, JM; Di Tommaso, P; Notredame, C (červen 2014). „TCS: Nové opatření spolehlivosti zarovnání více sekvencí za účelem odhadu přesnosti zarovnání a zlepšení rekonstrukce fylogenetického stromu“. Molekulární biologie a evoluce. 31 (6): 1625–37. doi:10.1093 / molbev / msu117. PMID 24694831.

externí odkazy

[Notredame2000-1] A ^b Notredame C, Higgins DG, Heringa J (08.09.2000). „T-Coffee: Nová metoda pro rychlé a přesné zarovnání více sekvencí“. J Mol Biol. 302 (1): 205–217. doi:10.1006 / jmbi.2000.4042. PMID 10964570.CS1 maint: více jmen: seznam autorů (odkaz)

[DiTommaso2011-2] A ^b Di Tommaso P, Moretti S, Xenarios I, Orobitg M, Montanyola A, Chang JM, Taly JF, Notredame C (červenec 2011). „T-Coffee: webový server pro vícenásobné seřazení sekvencí proteinových a RNA sekvencí pomocí strukturních informací a rozšíření homologie“. Nucleic Acids Res. 39 (Problém s webovým serverem): W13–7. doi:10.1093 / nar / gkr245. PMC 3125728. PMID 21558174.

[3] Kemena C, Notredame C (01.10.2009). „Budoucí výzvy pro více metod zarovnání sekvencí v éře vysoké propustnosti“. Bioinformatika. 25 (19): 2455–65. doi:10.1093 / bioinformatika / btp452. PMC 2752613. PMID 19648142.

[4] Chang JM, Di Tommaso P, Taly JF, Notredame C (2012-03-28). "Přesné vícenásobné seřazení sekvencí transmembránových proteinů s PSI-Coffee". BMC bioinformatika. 13: S1. doi:10.1186 / 1471-2105-13-S4-S1. PMC 3303701. PMID 22536955.

[5] Erb I, González-Vallinas JR, Bussotti G, Blanco E, Eyras E, Notredame C (duben 2012). „Použití dat ChIP-Seq pro návrh metody vícenásobného uspořádání promotoru“. Nucleic Acids Res. 40 (7): e52. doi:10.1093 / nar / gkr1292. PMC 3326335. PMID 22230796.

[TCS_2015_NAR-6] Chang, JM; Di Tommaso, P; Lefort, V; Gascuel, O; Notredame, C (1. července 2015). „TCS: webový server pro vyhodnocení zarovnání více sekvencí a fylogenetickou rekonstrukci“. Výzkum nukleových kyselin. 43 (W1): W3-6. doi:10.1093 / nar / gkv310. PMC 4489230. PMID 25855806.

[7] Chang, JM; Di Tommaso, P; Notredame, C (červen 2014). „TCS: Nové opatření spolehlivosti zarovnání více sekvencí za účelem odhadu přesnosti zarovnání a zlepšení rekonstrukce fylogenetického stromu“. Molekulární biologie a evoluce. 31 (6): 1625–37. doi:10.1093 / molbev / msu117. PMID 24694831.

[1]

[2]

[3]

[4]

[5]

[6]

[7]