Sekvenční analýza - Sequence analysis
v bioinformatika, sekvenční analýza je proces podrobení a DNA, RNA nebo peptidová sekvence kterékoli ze široké škály analytických metod k pochopení jejích vlastností, funkcí, struktury nebo vývoje. Použité metodiky zahrnují zarovnání sekvence, hledá proti biologické databáze, a další.[1] Od vývoje metod vysoce výkonné produkce genových a proteinových sekvencí se zvýšila rychlost přidávání nových sekvencí do databází exponenciálně. Taková sbírka sekvencí sama o sobě nezvyšuje vědecké chápání biologie organismů. Porovnání těchto nových sekvencí se sekvencemi se známými funkcemi je však klíčovým způsobem porozumění biologii organismu, ze kterého nová sekvence pochází. Sekvenční analýzu lze tedy použít k přiřazení funkce genům a proteinům studiem podobností mezi porovnávanými sekvencemi. V současné době existuje mnoho nástrojů a technik, které poskytují srovnání sekvencí (zarovnání sekvence) a analyzují produkt zarovnání, aby porozuměli jeho biologii.
Sekvenční analýza v molekulární biologie zahrnuje velmi širokou škálu relevantních témat:
- Porovnání sekvencí za účelem nalezení podobnosti, často k vyvození, zda jsou příbuzné (homologní )
- Identifikace podstatných rysů sekvence, jako je aktivní stránky, posttranslační modifikace weby, genové struktury, čtecí rámce, distribuce introny a exony a regulační prvky
- Identifikace sekvenčních rozdílů a variací, jako např bodové mutace a polymorfismus jednoho nukleotidu (SNP) za účelem získání genetický marker.
- Odhalení vývoje a genetická rozmanitost sekvencí a organismů
- Identifikace molekulární struktury pouze ze sekvence
v chemie, sekvenční analýza zahrnuje techniky používané ke stanovení sekvence a polymer tvořeno několika monomery.V molekulární biologie a genetika stejný proces se nazývá jednoduše „sekvenování ".
v marketing, sekvenční analýza se často používá v analytických aplikacích pro správu vztahů se zákazníky, jako jsou modely NPTB (Next Product to Buy).
v sociologie „metody sekvence se stále více používají ke studiu životních a kariérních trajektorií, vzorců organizačního a národního rozvoje, struktury konverzace a interakce a problému synchronizace práce / rodiny. Tato skupina výzkumu dala vzniknout vznikajícímu podpole sociální sekvenční analýza.
Dějiny
Od prvních sekvencí inzulín proteiny byly charakterizovány Fred Sanger v roce 1951 se biologové pokoušeli využít tyto znalosti k pochopení funkce molekul.[2][3] Objevy jeho a jeho kolegy přispěly k úspěšnému sekvenování prvního genomu založeného na DNA.[4] Metoda použitá v této studii, která se nazývá „Sangerova metoda“ nebo Sangerovo sekvenování, byl milníkem v sekvenování molekul dlouhého řetězce, jako je DNA. Tato metoda byla nakonec použita v projekt lidského genomu.[5] Podle Michael Levitt, se sekvenční analýza zrodila v období 1969–1977.[6] V roce 1969 byla provedena analýza sekvencí přenos RNA byl použit k odvození interakcí zbytků z korelovaných změn v nukleotidových sekvencích, což vedlo k modelu tRNA sekundární struktura.[7] V roce 1970 publikovali Saul B. Needleman a Christian D. Wunsch první počítačový algoritmus pro zarovnání dvou sekvencí.[8] Během této doby se vývoj v získávání nukleotidové sekvence výrazně zlepšil, což vedlo k publikaci prvního úplného genomu bakteriofága v roce 1977.[9] Robert Holley a jeho tým na Cornellově univerzitě byli považováni za první, kdo sekvenoval molekulu RNA.[10]
Sekvenční zarovnání
Existují miliony protein a nukleotid známé sekvence. Tyto sekvence spadají do mnoha skupin příbuzných sekvencí známých jako proteinové rodiny nebo genové rodiny. Vztahy mezi těmito sekvencemi jsou obvykle objeveny srovnáním dohromady a přiřazením tohoto zarovnání skóre. Existují dva hlavní typy zarovnání sekvence. Párové zarovnání sekvence porovnává pouze dvě sekvence najednou a vícenásobné seřazení sekvencí porovnává mnoho sekvencí. Dva důležité algoritmy pro zarovnání párů sekvencí jsou Needleman-Wunschův algoritmus a Smith-Watermanův algoritmus. Mezi oblíbené nástroje pro zarovnání sekvence patří:
- Párové zarovnání - VÝBUCH, Tečkové grafy
- Vícenásobné zarovnání - ClustalW, PROBCONY, SVAL, MAFFT, a T-káva.
Běžným použitím pro párové seřazení sekvencí je převzetí sledované sekvence a její porovnání se všemi známými sekvencemi v databázi k identifikaci homologní sekvence. Obecně jsou shody v databázi uspořádány tak, aby nejprve zobrazovaly nejblíže související sekvence, následované sekvencemi s klesající podobností. Tyto shody se obvykle vykazují s mírou statistické významnosti, například Očekávaná hodnota.
Porovnání profilů
V roce 1987 Michael Gribskov, Andrew McLachlan a David Eisenberg představil metodu profilového srovnání pro identifikaci vzdálených podobností mezi proteiny.[11] Spíše než použití jediné sekvence používají profilové metody kódování profilu, který obsahuje informace o úrovni ochrany každého zbytku, zarovnání více sekvencí. Tyto profily lze poté použít k prohledávání sbírek sekvencí k vyhledání sekvencí, které spolu souvisejí. Profily jsou také známé jako bodově specifické matice bodování (PSSM). V roce 1993 zavedl pravděpodobnostní výklad profilů Anders Krogh a kolegové používají skryté Markovovy modely.[12][13] Tyto modely se staly známými jako profilové HMM.
V posledních letech,[když? ] byly vyvinuty metody, které umožňují přímé porovnání profilů. Jsou známé jako metody porovnání profilů s profily.[14]
Sekvenční sestava
Sestava sekvence označuje rekonstrukci sekvence DNA pomocí vyrovnání a slučování malých fragmentů DNA. Je nedílnou součástí moderního Sekvenování DNA. Vzhledem k tomu, že v současné době dostupné technologie sekvenování DNA nejsou vhodné pro čtení dlouhých sekvencí, velké části DNA (například genomy) se často sekvenují (1) rozřezáním DNA na malé kousky, (2) čtením malých fragmentů a (3) ) rekonstituce původní DNA sloučením informací o různých fragmentech.
Sekvenování více druhů najednou je v poslední době jedním z hlavních cílů výzkumu. Metagenomika je studium mikrobiálních komunit přímo získaných z prostředí. Na rozdíl od kultivovaných mikroorganismů z laboratoře obsahuje divoký vzorek obvykle desítky, někdy dokonce tisíce typů mikroorganismů z jejich původních stanovišť.[15] Obnova původních genomů se může ukázat jako velmi náročná.
Genová předpověď
Genová predikce nebo nález genu se týká procesu identifikace oblastí genomové DNA, které kódují geny. To zahrnuje kódování proteinů geny stejně jako Geny RNA, ale může zahrnovat i predikci dalších funkčních prvků, jako jsou regulační oblasti. Geri je jedním z prvních a nejdůležitějších kroků k pochopení genomu druhu, jakmile byl seřazeno. Obecně je předpověď bakteriálních genů podstatně jednodušší a přesnější než předpověď genů u eukaryotických druhů, které mají obvykle komplexní intron /exon vzory. Identifikace genů v dlouhých sekvencích zůstává problémem, zvláště když není znám počet genů. Skryté modely Markov může být součástí řešení.[16] Strojové učení hrálo významnou roli v predikci sekvence transkripčních faktorů.[17] Tradiční sekvenční analýza se zaměřila na statistické parametry samotné nukleotidové sekvence (Nejběžnější používané programy jsou uvedeny v Tabulka 4.1 ). Další metodou je identifikace homologních sekvencí na základě jiných známých genových sekvencí (Nástroje viz Tabulka 4.3 ).[18] Dvě zde popsané metody jsou zaměřeny na sekvenci. Byly však také studovány tvarové rysy těchto molekul, jako je DNA a protein, a bylo navrženo, že mají ekvivalentní, ne-li vyšší vliv na chování těchto molekul.[19]
Predikce struktury proteinů

3D struktury molekul mají velký význam pro jejich funkce v přírodě. Protože strukturální predikce velkých molekul na atomové úrovni je do značné míry neřešitelným problémem, představili někteří biologové způsoby, jak předpovědět 3D strukturu na úrovni primární sekvence. To zahrnuje biochemickou nebo statistickou analýzu aminokyselinových zbytků v místních oblastech a strukturní odvození z homologů (nebo jiných potenciálně souvisejících proteinů) se známými 3D strukturami.
Existuje mnoho různých přístupů k řešení problému predikce struktury. Aby bylo možné určit, které metody jsou nejúčinnější, byla založena soutěž o predikci struktury s názvem CASP Kritické hodnocení predikce struktury.[20]
Metodologie
Úkoly, které leží v prostoru sekvenční analýzy, jsou často netriviální k řešení a vyžadují použití relativně složitých přístupů. Z mnoha typů metod používaných v praxi patří mezi nejoblíbenější:
- DNA vzory
- Dynamické programování
- Umělá neuronová síť
- Skrytý Markovův model
- Podporujte vektorový stroj
- Shlukování
- Bayesian Network
- Regresní analýza
- Sekvenční těžba
- Sekvenční analýza bez zarovnání
Viz také
- Seznam softwaru pro zarovnání sekvence
- Seznam softwaru pro vizualizaci zarovnání
- Seznam fylogenetického softwaru
- Seznam softwaru pro vizualizaci fylogenetických stromů
- Seznam softwaru pro predikci struktury proteinů
- Seznam softwaru pro predikci struktury RNA
- Sociální sekvenční analýza
Reference
- ^ Durbin, Richard M.; Eddy, Sean R.; Krogh, Andersi; Mitchison, Graeme (1998), Analýza biologické sekvence: Pravděpodobnostní modely proteinů a nukleových kyselin (1. vyd.), Cambridge, New York: Cambridge University Press, doi:10.2277/0521629713, ISBN 0-521-62971-3, OCLC 593254083
- ^ Sanger F; Tuppy H (září 1951). „Aminokyselinová sekvence ve fenylalanylovém řetězci inzulínu. I. Identifikace nižších peptidů z parciálních hydrolyzátů“. Biochem. J. 49 (4): 463–81. doi:10.1042 / bj0490463. PMC 1197535. PMID 14886310.
- ^ SANGER F; TUPPY H (září 1951). "Aminokyselinová sekvence ve fenylalanylovém řetězci inzulínu. 2. Vyšetřování peptidů z enzymatických hydrolyzátů". Biochem. J. 49 (4): 481–90. doi:10.1042 / bj0490481. PMC 1197536. PMID 14886311.
- ^ Sanger, F; Nicklen, S; Coulson, AR (prosinec 1977). „Sekvenování DNA s inhibitory ukončujícími řetězce“. Proc Natl Acad Sci U S A. 74 (12): 441–448. Bibcode:1977PNAS ... 74.5463S. doi:10.1073 / pnas.74.12.5463. PMC 431765. PMID 271968.
- ^ Sanger, F; Vzduch, GM; Barrell, BG; Brown, NL; Coulson, AR; Fiddes, CA; Hutchison, CA; Slocombe, PM; Smith, M (únor 1977). "Nukleotidová sekvence DNA bakteriofága phi X174". Příroda. 265 (5596): 687–695. Bibcode:1977Natur.265..687S. doi:10.1038 / 265687a0. PMID 870828. S2CID 4206886.
- ^ Levitt M (květen 2001). "Zrození výpočetní strukturní biologie". Přírodní strukturní a molekulární biologie. 8 (5): 392–3. doi:10.1038/87545. PMID 11323711. S2CID 6519868.
- ^ Levitt M (listopad 1969). "Podrobný molekulární model pro přenos ribonukleové kyseliny". Příroda. 224 (5221): 759–63. Bibcode:1969 Natur.224..759L. doi:10.1038 / 224759a0. PMID 5361649. S2CID 983981.
- ^ Needleman SB; Wunsch CD (březen 1970). "Obecná metoda použitelná pro hledání podobností v aminokyselinové sekvenci dvou proteinů". J. Mol. Biol. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.
- ^ Sanger F, Air GM, Barrell BG a kol. (Únor 1977). "Nukleotidová sekvence DNA bakteriofága phi X174". Příroda. 265 (5596): 687–95. Bibcode:1977Natur.265..687S. doi:10.1038 / 265687a0. PMID 870828. S2CID 4206886.
- ^ Holley, RW; Apgar, J; Everett, GA; Madison, JT; Markýz, M; Merrill, SH; Penswick, JR; Zamir, A (květen 1965). "Struktura ribonukleové kyseliny". Věda. 147 (3664): 1462–1465. Bibcode:1965Sci ... 147.1462H. doi:10.1126 / science.147.3664.1462. PMID 14263761. S2CID 40989800.
- ^ Gribskov M; McLachlan AD; Eisenberg D (červenec 1987). "Profilová analýza: detekce vzdáleně příbuzných proteinů". Proc. Natl. Acad. Sci. USA. 84 (13): 4355–8. Bibcode:1987PNAS ... 84.4355G. doi:10.1073 / pnas.84.13.4355. PMC 305087. PMID 3474607.
- ^ Hnědá M; Hughey R; Krogh A; Mian IS; Sjölander K; Haussler D (1993). "Použití Dirichletovy směsi před odvozením skrytých Markovových modelů pro rodiny proteinů". Proc Int Conf Intell Syst Mol Biol. 1: 47–55. PMID 7584370.
- ^ Krogh A; Hnědá M; Mian IS; Sjölander K; Haussler D (únor 1994). „Skryté Markovovy modely ve výpočetní biologii. Aplikace pro modelování proteinů“. J. Mol. Biol. 235 (5): 1501–31. doi:10.1006 / jmbi.1994.1104. PMID 8107089. S2CID 2160404.
- ^ Ye X; Wang G; Altschul SF (prosinec 2011). „Posouzení substitučních skóre pro srovnání proteinového profilu s profilem“. Bioinformatika. 27 (24): 3356–63. doi:10.1093 / bioinformatika / btr565. PMC 3232366. PMID 21998158.
- ^ Wooley, JC; Godzik, A; Friedberg, I (26. února 2010). „Základní nátěr na metagenomiku“. PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB ... 6E0667W. doi:10.1371 / journal.pcbi.1000667. PMC 2829047. PMID 20195499.
- ^ Stanke, M; Waack, S (19. října 2003). "Genová předpověď se skrytým Markovovým modelem a novým submodelem intronu". Bioinformatika. 19 Suppl 2 (2): 215–25. doi:10.1093 / bioinformatika / btg1080. PMID 14534192.
- ^ Alipanahi, B; Delong, A; Weirauch, MT; Frey, BJ (srpen 2015). „Predikce sekvenčních specificit proteinů vázajících DNA a RNA hlubokým učením“. Nat Biotechnol. 33 (8): 831–8. doi:10.1038 / nbt.3300. PMID 26213851.
- ^ Wooley, JC; Godzik, A; Friedberg, I (26. února 2010). „Základní nátěr na metagenomiku“. PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB ... 6E0667W. doi:10.1371 / journal.pcbi.1000667. PMC 2829047. PMID 20195499.
- ^ Abe, N; Dror, já; Yang, L; Slattery, M; Zhou, T; Bussemaker, HJ; Rohs R, R; Mann, RS (9. dubna 2015). "Dekonvoluce rozpoznávání tvaru DNA ze sekvence". Buňka. 161 (2): 307–18. doi:10.1016 / j.cell.2015.02.008. PMC 4422406. PMID 25843630.
- ^ Moult J; Hubbard T; Bryant SH; Fidelis K; Pedersen JT (1997). "Kritické hodnocení metod predikce proteinové struktury (CASP): II. Kolo". Proteiny. Dodat 1: 2–6. doi:10.1002 / (SICI) 1097-0134 (1997) 1+ <2 :: AID-PROT2> 3.0.CO; 2-T. PMID 9485489.