Sekvence nukleové kyseliny - Nucleic acid sequence
![]() | tento článek potřebuje další citace pro ověření.Březen 2014) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |


A sekvence nukleové kyseliny je posloupnost bází označená sérií sady pěti různých písmen, která označují pořadí nukleotidy tváření alely v rámci DNA (pomocí GACT) nebo RNA (GACU) molekula. Podle konvence jsou sekvence obvykle prezentovány z 5 'konec na 3' konec. Pro DNA je smysl je použito vlákno. Protože nukleové kyseliny jsou obvykle lineární (nerozvětvené) polymery, zadání sekvence je ekvivalentní definici kovalentní struktura celé molekuly. Z tohoto důvodu se sekvence nukleové kyseliny také nazývá primární struktura.
Sekvence má kapacitu reprezentovat informace. Biologická deoxyribonukleová kyselina představuje informaci, která řídí funkce živého tvora.
Nukleové kyseliny mají také a sekundární struktura a terciární struktura. Primární struktura se někdy mylně označuje jako primární sekvence. Naopak neexistuje paralelní koncept sekundární nebo terciární sekvence.
Nukleotidy

Nukleové kyseliny se skládají z řetězce spojených jednotek nazývaných nukleotidy. Každý nukleotid se skládá ze tří podjednotek: a fosfát skupina a cukr (ribóza v případě RNA, deoxyribóza v DNA ) tvoří páteř řetězce nukleové kyseliny a připojený k cukru je jedním ze souboru nukleové báze. Nukleové báze jsou důležité v párování bází pramenů k vytvoření vyšší úrovně sekundární a terciární struktura jako slavný dvojitá spirála.
Možná písmena jsou A, C, G, a T, představující čtyři nukleotid základny řetězce DNA - adenin, cytosin, guanin, tymin – kovalentně spojené s a fosfodiester páteř. V typickém případě jsou sekvence vytištěny dosedající na sebe bez mezer, jako v sekvenci AAAGTCTGAC, čtené zleva doprava v 5 'až 3' směr. S ohledem na transkripce, sekvence je na kódujícím řetězci, pokud má stejné pořadí jako transkribovaná RNA.
Jedna sekvence může být komplementární do jiné sekvence, což znamená, že mají základnu na každé pozici v komplementární (tj. A až T, C až G) a v opačném pořadí. Například komplementární sekvence k TTAC je GTAA. Pokud je jedno vlákno dvouvláknové DNA považováno za sense vlákno, pak druhé vlákno, považované za antisense vlákno, bude mít komplementární sekvenci k sense vláknu.
Zápis
Porovnání a stanovení% rozdílu mezi dvěma nukleotidovými sekvencemi.
- AATCCGCŠTÍTEK
- AAACCCTŠTÍTEK
- Vzhledem k dvěma 10-nukleotidovým sekvencím je srovnejte a porovnejte rozdíly mezi nimi. Vypočítejte procentuální podobnost tak, že počet různých bází DNA vydělíte celkovým počtem nukleotidů. Ve výše uvedeném případě existují tři rozdíly v 10 nukleotidové sekvenci. Rozdělte tedy 7/10, abyste získali 70% podobnost, a odečtěte ji od 100%, abyste získali 30% rozdíl.
Zatímco A, T, C a G představují konkrétní nukleotid v poloze, existují také písmena, která představují nejednoznačnost, která se používají, když se v této poloze může vyskytnout více než jeden druh nukleotidu. Pravidla Mezinárodní unie pro čistou a aplikovanou chemii (IUPAC ) jsou následující:[1]
Symbol[2] | Popis | Zastoupené základny | Doplněk | ||||
---|---|---|---|---|---|---|---|
A | Aodmítnout | A | 1 | T | |||
C | Cytosin | C | G | ||||
G | Guanin | G | C | ||||
T | Thymín | T | A | ||||
U | Uracil | U | A | ||||
Ž | Žeak | A | T | 2 | Ž | ||
S | Strong | C | G | S | |||
M | AMino | A | C | K. | |||
K. | K.eto | G | T | M | |||
R | puRine | A | G | Y | |||
Y | pYrimidin | C | T | R | |||
B | ne A (B přijde po A) | C | G | T | 3 | PROTI | |
D | ne C (D přichází po C) | A | G | T | H | ||
H | ne G (H přichází po G) | A | C | T | D | ||
PROTI | ne T (PROTI přichází po T a U) | A | C | G | B | ||
N | žádný Nucleotid (není mezera) | A | C | G | T | 4 | N |
Z | Zero | 0 | Z |
Tyto symboly platí také pro RNA, kromě případů, kdy U (uracil) nahradí T (thymin).[1]
Kromě adeninu (A), cytosinu (C), guaninu (G), thyminu (T) a uracilu (U) obsahují DNA a RNA také báze, které byly modifikovány po vytvoření řetězce nukleové kyseliny. V DNA je nejběžnější modifikovaná báze 5-methylcytidin (m5C). V RNA existuje mnoho modifikovaných bází, včetně pseudouridinu (Ψ), dihydrouridinu (D), inosinu (I), ribothymidinu (rT) a 7-methylguanosin (m7G).[3][4] Hypoxanthin a xanthin jsou dvě z mnoha základen vytvořených prostřednictvím mutagen přítomnost, oba deaminací (nahrazení aminové skupiny karbonylovou skupinou). Hypoxanthin se vyrábí z adenin a xanthin se vyrábí z guanin.[5] Podobně deaktivace cytosin výsledky v uracil.
Biologický význam

V biologických systémech obsahují nukleové kyseliny informace, které používá člověk buňka postavit konkrétní bílkoviny. Posloupnost nukleové báze na řetězci nukleové kyseliny je přeloženo buněčným strojním zařízením do sekvence aminokyseliny vytvoření proteinového řetězce. Každá skupina tří základen, zvaná a kodon, odpovídá jedné aminokyselině a existuje specifická genetický kód kterým každá možná kombinace tří bází odpovídá specifické aminokyselině.
The centrální dogma molekulární biologie nastiňuje mechanismus, kterým jsou konstruovány proteiny pomocí informací obsažených v nukleových kyselinách. DNA je přepsal do mRNA molekuly, které putují do ribozom kde mRNA se používá jako templát pro konstrukci proteinového řetězce. Protože nukleové kyseliny se mohou vázat na molekuly s komplementární sekvence, je rozdíl mezi „smysl "sekvence, které kódují proteiny, a komplementární" antisense "sekvence, která je sama o sobě nefunkční, ale může se vázat na sense vlákno.
Stanovení sekvence

Sekvenování DNA je proces určování nukleotid posloupnost daného DNA fragment. Sekvence DNA živého tvora kóduje informace potřebné k tomu, aby živý tvor přežil a reprodukoval se. Stanovení sekvence je proto užitečné v základním výzkumu, proč a jak žijí organismy, i v aplikovaných předmětech. Vzhledem k důležitosti DNA pro živé bytosti může být znalost sekvence DNA užitečná prakticky v jakékoli biologické oblasti výzkum. Například v lék lze jej použít k identifikaci, diagnostikovat a potenciálně se rozvíjet ošetření pro genetické nemoci. Podobně výzkum patogeny může vést k léčbě nakažlivých chorob. Biotechnologie je rozvíjející se disciplína s potenciálem mnoha užitečných produktů a služeb.
RNA není sekvenována přímo. Místo toho je zkopírován do DNA reverzní transkriptáza a tato DNA je poté sekvenována.
Současné metody sekvenování se spoléhají na diskriminační schopnost DNA polymeráz, a proto mohou rozlišovat pouze čtyři báze. Inosin (vytvořený z adenosinu během Úpravy RNA ) se čte jako G a 5-methyl-cytosin (vytvořený z cytosinu pomocí Methylace DNA ) se čte jako C. Při současné technologii je obtížné sekvenovat malé množství DNA, protože signál je příliš slabý na to, aby se změřil. To je překonáno polymerázová řetězová reakce (PCR) amplifikace.
Digitální reprezentace

Jakmile je sekvence nukleové kyseliny získána z organismu, je uložena in silico v digitálním formátu. Digitální genetické sekvence mohou být uloženy v sekvenční databáze, být analyzovány (viz Sekvenční analýza níže), být digitálně pozměněny a použity jako šablony pro vytvoření nové skutečné DNA pomocí umělá genová syntéza.
Sekvenční analýza
Digitální genetické sekvence mohou být analyzovány pomocí nástrojů bioinformatika pokusit se určit jeho funkci.
Genetické testování
DNA v organismu genom lze analyzovat na diagnostikovat zranitelnosti vůči zděděným nemoci, a lze jej také použít ke stanovení otcovství dítěte (genetického otce) nebo osoby původ. Normálně každý člověk nese dvě varianty každého gen, jeden zdědil po své matce, druhý zdědil po svém otci. The lidský genom Předpokládá se, že obsahuje přibližně 20 000–25 000 genů. Kromě studia chromozomy na úroveň jednotlivých genů zahrnuje genetické testování v širším smyslu biochemické testy na možnou přítomnost genetické nemoci nebo mutantní formy genů spojené se zvýšeným rizikem vývoje genetických poruch.
Genetické testování identifikuje změny v chromozomech, genech nebo proteinech.[6] Testování se obvykle používá k nalezení změn, které jsou spojeny se zděděnými poruchami. Výsledky genetického testu mohou potvrdit nebo vyloučit podezření na genetický stav nebo pomoci určit šanci člověka na rozvoj nebo přenos genetické poruchy. V současné době se používá několik stovek genetických testů a vyvíjejí se další.[7][8]
Zarovnání sekvence
V bioinformatice je zarovnání sekvencí způsob uspořádání sekvencí DNA, RNA nebo protein identifikovat oblasti podobnosti, které mohou být způsobeny funkčními, strukturální nebo evoluční vztahy mezi sekvencemi.[9] Pokud dvě sekvence v zarovnání sdílejí společného předka, mohou být neshody interpretovány jako bodové mutace a mezery jako inzerční nebo deleční mutace (indels ) zavedené v jedné nebo obou liniích v době, kdy se od sebe lišily. Při seřazení sekvencí proteinů je stupeň podobnosti mezi aminokyseliny obsazení určité pozice v sekvenci lze interpretovat jako hrubou míru toho, jak konzervovaný konkrétní region nebo sekvenční motiv je mezi liniemi. Absence substitucí nebo přítomnost pouze velmi konzervativních substitucí (tj. Substituce aminokyselin, jejichž boční řetězy mají podobné biochemické vlastnosti) v konkrétní oblasti sekvence, navrhuji[10] že tento region má strukturální nebo funkční význam. Ačkoli DNA a RNA nukleotid báze jsou si navzájem více podobné než aminokyseliny, zachování párů bází může naznačovat podobnou funkční nebo strukturní roli.[11]
Výpočetní fylogenetika používá při konstrukci a interpretaci fylogenetické stromy, které se používají ke klasifikaci evolučních vztahů mezi homologními geny zastoupenými v genomech odlišných druhů. Míra, v jaké se sekvence v sadě dotazů liší, kvalitativně souvisí s evoluční vzdáleností sekvencí od sebe navzájem. Zhruba řečeno, vysoká identita sekvence naznačuje, že dotyčné sekvence jsou poměrně mladé poslední společný předek, zatímco nízká identita naznačuje, že divergence je starodávnější. Tato aproximace, která odráží „molekulární hodiny "hypotéza, že zhruba konstantní rychlost evolučních změn lze použít k extrapolaci uplynulého času od chvíle, kdy se poprvé rozcházely dva geny (tj srůstání předpokládá, že účinky mutace a výběr jsou konstantní napříč liniemi řádků. Proto nezohledňuje možný rozdíl mezi organismy nebo druhy v rychlostech Oprava DNA nebo možné funkční zachování specifických oblastí v sekvenci. (V případě nukleotidových sekvencí hypotéza molekulárních hodin ve své nejzákladnější formě také snižuje rozdíl v mírách přijetí mezi tiché mutace které nemění význam daného kodon a další mutace, které vedou k odlišnosti aminokyselina statisticky přesnější metody umožňují, aby se evoluční rychlost na každé větvi fylogenetického stromu lišila, a tak poskytla lepší odhady doby koalescence pro geny.
Sekvenční motivy
Primární struktura často kóduje motivy, které mají funkční význam. Některé příklady sekvenčních motivů jsou: C / D[12]a H / ACA boxy[13]z snoRNA, Sm vazebné místo nalezené ve spliceozomálních RNA, jako je U1, U2, U4, U5, U6, U12 a U3, Sekvence Shine-Dalgarno,[14]the Kozakova konsenzuální sekvence[15]a Terminátor RNA polymerázy III.[16]
Korelace s dlouhým dosahem
Peng a kol.[17][18] zjistili existenci korelací na velké vzdálenosti v nekódujících sekvencích párů bází DNA. Naproti tomu se zdá, že takové korelace se neobjevují v kódujících sekvencích DNA. Toto zjištění bylo vysvětleno Grosbergem a kol.[19] globální prostorovou strukturou DNA.
Sekvenční entropie
v Bioinformatika, sekvenční entropie, známá také jako složitost sekvence nebo informační profil,[20] je numerická sekvence poskytující kvantitativní měřítko lokální složitosti sekvence DNA, nezávisle na směru zpracování. Manipulace s informačními profily umožňují analýzu sekvencí pomocí technik bez zarovnání, jako například při detekci motivů a přeskupení.[20][21][22]
Viz také
Reference
- ^ A b Nomenklatura pro neúplně specifikované báze v sekvencích nukleových kyselin, NC-IUB, 1984.
- ^ Výbor pro nomenklaturu Mezinárodní unie pro biochemii (NC-IUB) (1984). „Názvosloví pro neúplně specifikované báze v sekvencích nukleových kyselin“. Citováno 2008-02-04.
- ^ "BIOL2060: Translation". mun.ca.
- ^ "Výzkum". uw.edu.pl.
- ^ Nguyen, T; Brunson, D; Crespi, CL; Penman, B W; Wishnok, J. S.; Tannenbaum, SR (duben 1992). „Poškození DNA a mutace v lidských buňkách vystavených oxidu dusnatému in vitro“. Proc Natl Acad Sci USA. 89 (7): 3030–034. Bibcode:1992PNAS ... 89.3030N. doi:10.1073 / pnas.89.7.3030. PMC 48797. PMID 1557408.
- ^ „Co je to genetické testování?“. Genetická domácí reference. 16. března 2015.
- ^ „Genetické testování“. nih.gov.
- ^ „Definice genetického testování“. Definice genetického testování (Jorge Sequeiros a Bárbara Guimarães). Projekt EuroGentest Network of Excellence. 2008-09-11. Archivovány od originál 4. února 2009. Citováno 2008-08-10.
- ^ Mount DM. (2004). Bioinformatika: sekvence a analýza genomu (2. vyd.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7.
- ^ Ng, P. C .; Henikoff, S. (2001). „Předpovídání škodlivých substitucí aminokyselinami“. Výzkum genomu. 11 (5): 863–74. doi:10,1101 / gr. 176601. PMC 311071. PMID 11337480.
- ^ Witzany, G (2016). „Zásadní kroky k životu: Od chemických reakcí k kódování pomocí agentů“. Biosystémy. 140: 49–57. doi:10.1016 / j.biosystems.2015.12.007. PMID 26723230.
- ^ Samarsky, DA; Fournier MJ; Zpěvák RH; Bertrand E (1998). „C / D motiv snoRNA boxu řídí nukleolární cílení a také spojuje syntézu a lokalizaci snoRNA“. Časopis EMBO. 17 (13): 3747–57. doi:10.1093 / emboj / 17.13.3747. PMC 1170710. PMID 9649444.
- ^ Ganot, Philippe; Caizergues-Ferrer, Michèle; Kiss, Tamás (1. dubna 1997). „Rodina malých nukleolárních RNA ACA je definována evolučně konzervovanou sekundární strukturou a všudypřítomnými sekvenčními prvky nezbytnými pro akumulaci RNA.“. Geny a vývoj. 11 (7): 941–56. doi:10,1101 / gad.11.7.941. PMID 9106664.
- ^ Shine J, Dalgarno L (1975). "Determinant cistronové specificity v bakteriálních ribozomech". Příroda. 254 (5495): 34–38. Bibcode:1975 Natur.254 ... 34S. doi:10.1038 / 254034a0. PMID 803646. S2CID 4162567.
- ^ Kozak M (říjen 1987). „Analýza 5'-nekódujících sekvencí z 699 poselských RNA obratlovců“. Nucleic Acids Res. 15 (20): 8125–48. doi:10.1093 / nar / 15.20.8125. PMC 306349. PMID 3313277.
- ^ Bogenhagen DF, Brown DD (1981). "Nukleotidové sekvence v DNA Xenopus 5S nutné pro ukončení transkripce". Buňka. 24 (1): 261–70. doi:10.1016/0092-8674(81)90522-5. PMID 6263489. S2CID 9982829.
- ^ Peng, C.-K .; Buldyrev, S. V .; Goldberger, A. L .; Havlin, S .; Sciortino, F .; Simons, M .; Stanley, H. E. (1992). "Dálkové korelace v nukleotidových sekvencích". Příroda. 356 (6365): 168–70. Bibcode:1992 Natur.356..168P. doi:10.1038 / 356168a0. ISSN 0028-0836. PMID 1301010. S2CID 4334674.
- ^ Peng, C.-K .; Buldyrev, S. V .; Havlin, S .; Simons, M .; Stanley, H. E.; Goldberger, A. L. (1994). „Mozaiková organizace DNA nukleotidů“. Fyzický přehled E. 49 (2): 1685–89. Bibcode:1994PhRvE..49.1685P. doi:10.1103 / PhysRevE.49.1685. ISSN 1063-651X. PMID 9961383.
- ^ Grosberg, A; Rabin, Y; Havlin, S; Neer, A (1993). „Zmačkaný model trojrozměrné struktury DNA v globule“. Europhysics Letters. 23 (5): 373–78. Bibcode:1993EL ..... 23..373G. doi:10.1209/0295-5075/23/5/012.
- ^ A b Pinho, A; Garcia, S; Pratas, D; Ferreira, P (21. listopadu 2013). „Sekvence DNA v kostce“. PLOS ONE. 8 (11): e79922. Bibcode:2013PLoSO ... 879922P. doi:10.1371 / journal.pone.0079922. PMC 3836782. PMID 24278218.
- ^ Pratas, D; Silva, R; Pinho, A; Ferreira, P (18. května 2015). „Metoda bez zarovnání k nalezení a vizualizaci přeskupení mezi dvojicemi sekvencí DNA“. Vědecké zprávy. 5: 10203. Bibcode:2015NatSR ... 510203P. doi:10.1038 / srep10203. PMC 4434998. PMID 25984837.
- ^ Troyanskaya, O; Arbell, O; Koren, Y; Landau, G; Bolshoy, A (2002). „Profily složitosti sekvence prokaryotických genomových sekvencí: rychlý algoritmus pro výpočet jazykové složitosti“. Bioinformatika. 18 (5): 679–88. doi:10.1093 / bioinformatika / 18.5.679. PMID 12050064.