K-mer - K-mer

Sekvence ATGG má dva 3-mery: ATG a TGG.

v bioinformatika, k-merové jsou podsekvence délky obsažené v biologické sekvenci. Primárně se používá v kontextu výpočetní genomika a sekvenční analýza, ve kterém k-merové se skládají z nukleotidy (tj. A, T, G a C), k-merové jsou velkými písmeny sestavte sekvence DNA,[1] zlepšit heterologní genová exprese,[2][3] identifikovat druhy v metagenomických vzorcích,[4] a tvořit oslabené vakcíny.[5] Obvykle termín k-mer označuje všechny subsekvence sekvence délky , takže sekvence AGAT bude mít čtyři monomery (A, G, A a T), tři 2-mer (AG, GA, AT), dva 3-mer (AGA a GAT) a jeden 4-mer (AGAT). Obecněji posloupnost délky budu mít k-majitelé a celkem možné k-meri, kde je počet možných monomerů (např. čtyři v případě DNA ).

Úvod

k-merové jsou prostě délka podsekvence. Například vše možné k- polymery sekvence DNA jsou uvedeny níže:

Příklad 8-mer spektra pro E-coli porovnání frekvence osmičlenů (tj. multiplicity) s jejich počtem výskytů.
k- výrobci pro GTAGAGCTGT
kk-merové
1G, T, A, G, A, G, C, T, G, T
2GT, TA, AG, GA, AG, GC, CT, TG, GT
3GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT
4GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT
5GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT
6GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT
7GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT
8GTAGAGCT, TAGAGCTG, AGAGCTGT
9GTAGAGCTG, TAGAGCTGT
10GTAGAGCTGT

Způsob vizualizace k-merové, k-mer spektrum, ukazuje multiplicitu každého z nich k-mer v pořadí versus počet k-majitelé s touto multiplicitou.[6] Počet režimů v a k-merní spektrum pro genom druhu se liší, přičemž většina druhů má unimodální distribuci.[7] Však všichni savci mít multimodální distribuci. Počet režimů v rámci a k-merní spektrum se může lišit i mezi oblastmi genomu: lidé mají unimodální k-mer spektra dovnitř 5 'UTR a exony ale multimodální spektra v 3 'UTR a introny.

Síly ovlivňující DNA k-mer frekvence

Četnost k-používání uživatelů je ovlivňováno četnými silami, pracujícími na více úrovních, které jsou často v konfliktu. Je důležité si to uvědomit k-mery pro vyšší hodnoty k jsou ovlivněny silami ovlivňujícími nižší hodnoty k také. Pokud se například 1-mer A nevyskytuje v sekvenci, nedojde ani k jednomu ze 2-merů obsahujících A (AA, AT, AG a AC), čímž dojde k propojení účinků různých sil.

k = 1

Když k = 1, existují čtyři DNA k-merové, tj.„A, T, G a C. Na molekulární úrovni existují tři Vodíkové vazby mezi G a C, zatímco mezi A a T jsou pouze dvě. GC vazby jsou v důsledku extra vodíkové vazby (a silnějších interakcí stohování) tepelně stabilnější než AT vazby.[8] Savci a ptáci mají vyšší poměr Gs a Cs k As a Ts (Obsah GC ), což vedlo k hypotéze, že tepelná stabilita byla hybným faktorem variace obsahu GC.[9] Tato hypotéza, i když byla slibná, neobstála pod kontrolou: analýza mezi různými prokaryoty neprokázala žádný důkaz obsahu GC v korelaci s teplotou, jak by předpovídala hypotéza tepelné adaptace.[10] Pokud by hnací silou za variací obsahu GC měl být přirozený výběr, to by to vyžadovalo změny jednoho nukleotidu, které jsou často tichý, změnit kondici organismu.[11]

Současné důkazy to spíše naznačují Konverze genu ovlivněná GC (gBGC) je hnacím faktorem variací obsahu GC.[11] gBGC je proces, ke kterému dochází během rekombinace který nahradí Gs a Cs As a Ts.[12] Tento proces, i když se liší od přirozeného výběru, může přesto vyvinout selektivní tlak na DNA předpjatou směrem k nahrazení GC fixovaným v genomu. gBGC lze proto považovat za „podvodníka“ přirozeného výběru. Jak by se dalo očekávat, obsah GC je vyšší na webech, kde dochází k větší rekombinaci.[13] Kromě toho organismy s vyšší rychlostí rekombinace vykazují vyšší obsah GC v souladu s předpokládanými účinky hypotézy gBGC.[14] Zajímavé je, že se zdá, že gBGC není omezen na eukaryoty.[15] Nepohlavní organismy, jako jsou bakterie a archea, také zažívají rekombinaci pomocí genové konverze, což je proces nahrazení homologní sekvence, jehož výsledkem je více identických sekvencí v celém genomu.[16] Že je rekombinace schopna zvýšit obsah GC ve všech doménách života, naznačuje, že gBGC je všeobecně konzervovaný. Je třeba určit, zda je gBGC (většinou) neutrálním vedlejším produktem molekulárního aparátu života nebo zda je sám pod selekcí. Přesný mechanismus a evoluční výhody nebo nevýhody gBGC nejsou v současné době známy.[17]

k = 2

Navzdory poměrně velkému množství literatury pojednávající o předsudcích obsahujících GC, bylo o předsudcích dinukleotidů napsáno relativně málo. Je známo, že tyto předsudky dinukleotidů jsou relativně konstantní v celém genomu, na rozdíl od obsahu GC, který, jak je vidět výše, se může značně lišit.[18] Jedná se o důležitý pohled, který nelze přehlédnout. Pokud byly zkreslení dinukleotidů vystaveny tlakům vyplývajícím z překlad, pak by existovaly různé vzorce zkreslení dinukleotidů kódování a nekódující regiony poháněné sníženou translační účinností některých dinucelotidů.[19] Protože tomu tak není, lze proto odvodit, že síly modulující zkreslení dinukleotidů jsou nezávislé na translaci. Dalším důkazem proti translačním tlakům ovlivňujícím předpětí dinukleotidů je skutečnost, že předpětí dinukleotidů virů, které se do značné míry spoléhají na translační účinnost, jsou více formovány jejich virovou rodinou než hostiteli, jejichž translační aparát viry unesou.[20]

Proti rostoucímu obsahu GC v gBGC je Potlačení CG, což snižuje frekvenci CG 2 měsíce kvůli deaminace z methylovaný CG dinukleotidy, což vede k substituci CG za TG, čímž se snižuje obsah GC.[21] Tato interakce zdůrazňuje vzájemný vztah mezi působícími silami k-mers pro různé hodnoty k.

Jedním zajímavým faktem o zaujatosti dinukleotidů je, že může sloužit jako měření „vzdálenosti“ mezi fylogeneticky podobnými genomy. Genomy párů organismů, které spolu úzce souvisejí, sdílejí podobnější předsudky dinukleotidů než mezi páry vzdáleněji příbuzných organismů.[18]

k = 3

Existuje dvacet přirozených aminokyseliny které se používají k vytváření proteinů, které DNA kóduje. Existují však pouze čtyři nukleotidy. Proto nemůže existovat vzájemná korespondence mezi nukleotidy a aminokyselinami. Podobně existuje 16 2-merů, což také nestačí k tomu, aby jednoznačně představovalo každou aminokyselinu. V DNA však existuje 64 odlišných 3-merů, což je dostatečné množství pro jedinečnou reprezentaci každé aminokyseliny. Tito nepřekrývající se 3-mery se nazývají kodony. Zatímco každý kodon mapuje pouze jednu aminokyselinu, každá aminokyselina může být reprezentované několika kodony. Stejná aminokyselinová sekvence tedy může mít více reprezentací DNA. Je zajímavé, že každý kodon pro aminokyselinu není použit ve stejném poměru.[22] Tomu se říká zkreslení použití kodonů (MLÁDĚ). Když k = 3, je třeba rozlišovat mezi skutečnou 3mernou frekvencí a CUB. Například sekvence ATGGCA má v sobě čtyři 3-merní slova (ATG, TGG, GGC a GCA), přičemž obsahuje pouze dva kodony (ATG a GCA). CUB je však hlavním hnacím faktorem zkreslení používání 3 merů (tvoří až ⅓ toho, protože ⅓ k- výrobci v kódující oblasti jsou kodony) a budou hlavním zaměřením této části.

Přesná příčina variace mezi frekvencemi různých kodonů není zcela objasněna. Je známo, že preference kodonů koreluje s výskytem tRNA, přičemž kodony odpovídající hojnějším tRNA jsou odpovídajícím způsobem častější[22] a že více vysoce exprimované proteiny vykazují vyšší CUB.[23] To naznačuje, že výběr pro translační účinnost nebo přesnost je hnací silou variace CUB.

k = 4

Podobně jako účinek pozorovaný u předpětí dinukleotidů, předpětí tetranukleotidů u fylogeneticky podobných organismů jsou podobnější než u méně blízkých organismů.[4] Přesná příčina variace předpětí tetranukleotidů není dobře známa, ale předpokládá se, že je výsledkem udržení genetické stability na molekulární úrovni.[24]

Aplikace

Frekvence sady kjako "podpis" podkladové sekvence lze použít polymery v genomu druhu, v genomové oblasti nebo ve třídě sekvencí. Porovnání těchto frekvencí je výpočetně snazší než zarovnání sekvence, a je důležitou metodou v sekvenční analýza bez zarovnání. Lze jej také použít jako analýzu prvního stupně před zarovnáním.

Sekvenční sestava

Tento obrázek ukazuje proces rozdělení čtení na menší k-mers (v tomto případě 4-mer), aby bylo možné je použít v grafu De Bruijn. (A) Zobrazuje počáteční segment sekvenované DNA. (B) Ukazuje čtení, která byla vytvořena jako výstup ze sekvenování, a také ukazuje, jak se zarovnávají. Problém tohoto zarovnání však spočívá v tom, že se překrývají pomocí k-2, nikoli k-1 (což je v grafech De Bruijn potřeba). (C) Ukazuje rozdělení čtení na menší 4mery. (D) Zruší opakované 4mery a poté ukáže jejich zarovnání. Všimněte si, že tyto k-mery se překrývají o k-1 a poté je lze použít v grafu De Bruijn.

V sestavě sekvence, k-mery se používají při stavbě De Bruijn grafy.[25][26] Aby bylo možné vytvořit graf De Bruijn, k-mery uložené v každé hraně s délkou musí překrývat další řetězec na jiném okraji o za účelem vytvoření vrchol. Čtení generovaná z sekvenování nové generace bude mít obvykle generované různé délky čtení. Například čte podle Illumina Sekvenční technologie zachycuje čtení 100 metrů. Problém se sekvenováním však je, že ve skutečnosti jsou generovány pouze malé zlomky ze všech možných 100-merů, které jsou přítomny v genomu. To je způsobeno chybami čtení, ale co je důležitější, jen jednoduché díry pokrytí, které se vyskytnou během sekvenování. Problém je v tom, že tyto malé zlomky možných k-merové porušují klíčový předpoklad grafů De Bruijna, že všechny k-mer čtení musí překrývat jeho sousední k-mír v genomu (což nemůže nastat, když je to možné k-merové nejsou přítomni).

Řešením tohoto problému je prolomit je k- menší velikost čte na menší k-mers, tak, že výsledný menší k-merové budou představovat vše možné k-majitelé této menší velikosti, kteří jsou přítomni v genomu.[27] Dále rozdělení k-mers do menších velikostí také pomáhá zmírnit problém různých počátečních délek čtení. V tomto příkladu pět čtení nezohledňuje všechny možné 7mery genomu a jako takový nelze vytvořit graf De Bruijn. Ale když jsou rozděleny na 4-mery, výsledné subsekvence stačí k rekonstrukci genomu pomocí De Bruijnova grafu.

Kromě přímého použití pro sestavení sekvence, kLátky lze také použít k detekci nesprávného sestavení genomu identifikací k- výrobci, kteří jsou nadměrně zastoupeni, což naznačuje přítomnost opakované sekvence DNA které byly kombinovány.[28] Navíc, k-mery se také používají k detekci bakteriální kontaminace během shromáždění eukaryotického genomu, což je přístup převzatý z oblasti metagenomiky.[29][30]

Volba k-mer

Volba k-mer size has many different effects on the sequence assembly. Tyto efekty se velmi liší mezi menšími a většími k-merové. Proto pochopení různých k-Musí být dosaženo velikosti, aby bylo možné zvolit vhodnou velikost, která vyvažuje efekty. Účinky velikostí jsou uvedeny níže.

Dolní k-merní velikosti
  • Nižší k-mer velikost sníží množství okrajů uložených v grafu a jako takové pomůže snížit množství prostoru potřebného pro uložení sekvence DNA.
  • Mít menší velikosti zvýší šanci pro všechny k-mers to overlap, and as such, have the required subsekces in order to construct the De Bruijn graph.[31]
  • Tím, že má menší velikost k-meri, také riskujete, že budete mít v grafu mnoho vrcholů vedoucích do jednoho k-meru. To proto zkomplikuje rekonstrukci genomu, protože existuje vyšší úroveň nejednoznačností dráhy kvůli většímu počtu vrcholů, které bude třeba projít.
  • Informace jsou ztraceny jako k-merové se zmenšují.
    • Např. Možnost AGTCGTAGATGCTG je nižší než ACGT a jako taková obsahuje větší množství informací (viz entropie (teorie informace) Pro více informací).
  • Menší kVýrobci mají také problém, že nejsou schopni vyřešit oblasti v DNA, kde jsou malé mikrosatelity nebo se opakují. Je to proto, že menší k-majitelé budou mít tendenci sedět úplně v oblasti opakování, a proto je těžké určit míru opakování, ke které skutečně došlo.
    • Např. U subsekvence ATGTGTGTGTGTGTACG bude množství opakování TG ztraceno, pokud k- je vybrána velikost menší než 16. Je to proto, že většina z k-merové budou sedět v opakované oblasti a mohou být zahozeni jako jejich opakování k-mer místo odkazování na množství opakování.
Vyšší k-merní velikosti
  • S větší velikostí k-mery zvýší počet hran v grafu, což zase zvýší množství paměti potřebné k uložení sekvence DNA.
  • Zvětšením velikosti k-merů, sníží se také počet vrcholů. To pomůže s konstrukcí genomu, protože v grafu bude méně cest k procházení.[31]
  • Větší k-merové také riskují, že nebudou mít vnější vrcholy z každého k-meru. To je způsobeno větším k- výrobci zvyšující riziko, že se nebudou překrývat s jinými k-mer by . To proto může vést k nesouvislosti ve čtení, a jako takové, může vést k vyššímu množství menších kontigy.
  • Větší k-merní velikosti pomáhají zmírnit problém malých regionů s opakováním. To je způsobeno skutečností, že k-mer bude obsahovat rovnováhu oblasti opakování a sousedních sekvencí DNA (vzhledem k tomu, že jsou dostatečně velké velikosti), které mohou pomoci vyřešit množství opakování v dané konkrétní oblasti.

Genetika a genomika

Pokud jde o onemocnění, bylo k detekci genetických ostrovů spojených s patogenitou aplikováno zkreslení dinukleotidy.[11] Předchozí práce také ukázaly, že předpětí tetranukleotidů jsou schopny účinně detekovat horizontální přenos genů u obou prokaryot[32] a eukaryoty.[33]

Další aplikace k-mers je v taxonomii založené na genomice. Například obsah GC byl použit k rozlišení mezi druhy Erwinia s mírným úspěchem.[34] Podobné přímému použití obsahu GC pro taxonomické účely je použití Tm, teplota tání DNA. Protože vazby GC jsou tepelně stabilnější, sekvence s vyšším obsahem GC vykazují vyšší Tm. V roce 1987 Výbor ad hoc pro usmíření přístupů k bakteriální systematice navrhl použití ΔTm jako faktor při určování hranic druhů jako součást koncept fylogenetických druhů, ačkoli se nezdá, že by tento návrh získal vědeckou komunitu.[35]

Mezi další aplikace v genetice a genomice patří:

Metagenomika

k-merová frekvence a variace spektra se v metagenomice pro obě analýzy silně používají[47][48] a binování. Při binningu je úkolem oddělit sekvenční čtení do „košů“ čtení pro každý organismus (nebo funkční taxonomická jednotka ), které budou poté smontovány. TETRA je pozoruhodný nástroj, který odebírá metagenomické vzorky a ukládá je do organismů na základě jejich tetranukleotidů (k = 4) frekvence.[49] Další nástroje, na které se podobně spoléhají k-mer frekvence pro metagenomické binování jsou CompostBin (k = 6),[50] PCAHIER,[51] PhyloPythia (5 ≤ k ≤ 6),[52] CLARK (k ≥ 20),[53] a TACOA (2 ≤k ≤ 6).[54] Rovněž se uplatnil nejnovější vývoj hluboké učení na metagenomické binování pomocí k-merové.[55]

Mezi další aplikace v rámci metagenomiky patří:

  • Obnova čtecích rámců ze surových čtení[56]
  • Odhad početnosti druhů v metagenomických vzorcích[57]
  • Určení, které druhy jsou přítomny ve vzorcích[58][59]
  • Identifikace biomarkery pro choroby ze vzorků[60]

Biotechnologie

Úpravy k-merní frekvence v sekvencích DNA byly značně používány v biotechnologických aplikacích k řízení translační účinnosti. Konkrétně se používá k regulaci rychlosti produkce proteinu nahoru i dolů.

S ohledem na zvýšení produkce bílkovin bylo použito snížení nepříznivé frekvence dinukleotidů, což vedlo k vyšší rychlosti syntézy bílkovin.[61] Kromě toho byla upravena předpětí využití kodonů, aby se vytvořily synonymní sekvence s vyšší rychlostí exprese proteinu.[2][3] Podobně byla pro zvýšení exprese také úspěšně použita optimalizace kodonových párů, kombinace dinucelotidu a optimalizace kodonů.[62]

Nejvíce studovaná aplikace kpro snížení účinnosti translace je manipulace s kodonovými páry pro zeslabení virů za účelem vytvoření vakcín. Vědci dokázali překódovat virus dengue, virus, který způsobuje horečka dengue, takže jeho předpětí kodonových párů se více lišilo od preferencí použití kodonů savců než u divokého typu.[63] Ačkoli obsahoval identickou aminokyselinovou sekvenci, překódovaný virus prokázal významně oslabený patogenita při vyvolání silné imunitní odpovědi. Tento přístup byl také účinně použit k vytvoření vakcíny proti chřipce[64] stejně vakcína pro Marekova choroba herpesvirus (MDV).[65] Zejména manipulace se zkreslením kodonových párů použitá k oslabení MDV účinně nesnížila onkogenicita viru, což zdůrazňuje potenciální slabost v biotechnologických aplikacích tohoto přístupu. K dnešnímu dni nebyla pro použití schválena žádná deoptimizovaná vakcína s kodonovými páry.

Dva pozdější články pomáhají vysvětlit skutečný mechanismus, který je základem deoptimizace kodonových párů: zkreslení kodonových párů je výsledkem zkreslení dinukleotidů.[66][67] Studiem virů a jejich hostitelů dokázaly obě skupiny autorů dospět k závěru, že molekulárním mechanismem, který vede k pozorování virů, je nárůst dinukleotidů, které jsou špatně vhodné pro překlad.

Obsah GC, kvůli jeho účinku na Teplota tání DNA, se používá k předpovědi teploty žíhání v PCR, další důležitý biotechnologický nástroj.

Implementace

Pseudo kód

Určení možného k-many čtení lze provést jednoduchým cyklováním přes délku řetězce o jednu a vyjmutím každého dílčího řetězce délky . K dosažení tohoto cíle je pseudokód následující:

postup k-mers (řetězec seq, celé číslo k) je    L ← délka (seq) arr ← nové pole L - k + 1 prázdné řetězce // iterace nad počtem k-mers v seq,     // uložení n-tého k-meru do výstupního pole    pro n ← 0 na L - k + 1 exkluzivně dělat        arr [n] ← subsekvence sekv. od písmene n včetně po písmeno n + k bez vrátit se přílet

In Bioinformatics Pipelines

Protože počet k-mers roste exponenciálně pro hodnoty k, počítání k-mers pro velké hodnoty k (obvykle> 10) je výpočetně obtížný úkol. Zatímco jednoduché implementace, jako je výše uvedený pseudokód, fungují pro malé hodnoty k, je třeba je přizpůsobit pro aplikace s vysokou propustností nebo kdy k je velký. K vyřešení tohoto problému byly vyvinuty různé nástroje:

Viz také

Reference

  1. ^ Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (listopad 2011). „Jak aplikovat de Bruijnovy grafy na genomové seskupení“. Přírodní biotechnologie. 29 (11): 987–991. doi:10.1038 / nbt.2023. ISSN  1087-0156. PMC  5531759. PMID  22068540.
  2. ^ A b Welch, Mark; Govindarajan, Sridhar; Ness, Jon E .; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "Konstrukční parametry pro řízení exprese syntetického genu v Escherichia coli". PLOS ONE. 4 (9): e7002. Bibcode:2009PLoSO ... 4,7002W. doi:10,1371 / journal.pone.0007002. ISSN  1932-6203. PMC  2736378. PMID  19759823.
  3. ^ A b Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (červenec 2004). "Předpětí kodonu a exprese heterologního proteinu". Trendy v biotechnologii. 22 (7): 346–353. doi:10.1016 / j.tibtech.2004.04.006. PMID  15245907.
  4. ^ A b Perry, Scott C .; Beiko, Robert G. (01.01.2010). „Rozlišování fragmentů mikrobiálních genomů na základě jejich složení: evoluční a srovnávací genomové perspektivy“. Biologie genomu a evoluce. 2: 117–131. doi:10.1093 / gbe / evq004. ISSN  1759-6653. PMC  2839357. PMID  20333228.
  5. ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dušan (29.01.2018). Mocarski, Edward (ed.). „Útlum velmi virulentního herpesviru Marekovy choroby (MDV) deoptimizací předpětí kodonových párů“. PLOS patogeny. 14 (1): e1006857. doi:10.1371 / journal.ppat.1006857. ISSN  1553-7374. PMC  5805365. PMID  29377958.
  6. ^ A b Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). „KAT: Sada nástrojů pro analýzu K-mer ke kontrole kvality datových souborů NGS a genomových sestav“. Bioinformatika. 33 (4): 574–576. doi:10.1093 / bioinformatika / btw663. ISSN  1367-4803. PMC  5408915. PMID  27797770.
  7. ^ A b Chor, Benny; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). „Genomová DNA k-mer spektra: modely a modality“. Genome Biology. 10 (10): R108. doi:10.1186 / gb-2009-10-10-r108. ISSN  1465-6906. PMC  2784323. PMID  19814784.
  8. ^ Yakovchuk, P. (2006-01-30). „Přikládání bází a párování bází k tepelné stabilitě dvojité šroubovice DNA“. Výzkum nukleových kyselin. 34 (2): 564–574. doi:10.1093 / nar / gkj454. ISSN  0305-1048. PMC  1360284. PMID  16449200.
  9. ^ Bernardi, Giorgio (leden 2000). "Isochores a evoluční genomika obratlovců". Gen. 241 (1): 3–17. doi:10.1016 / S0378-1119 (99) 00485-0. PMID  10607893.
  10. ^ Hurst, Laurence D .; Obchodník, Alexa R. (03.03.2001). „Vysoký obsah guaninu a cytosinu není adaptací na vysokou teplotu: srovnávací analýza mezi prokaryoty“. Sborník Královské společnosti B: Biologické vědy. 268 (1466): 493–497. doi:10.1098 / rspb.2000.1397. ISSN  1471-2954. PMC  1088632. PMID  11296861.
  11. ^ A b C Mugal, Carina F .; Weber, Claudia C .; Ellegren, Hans (prosinec 2015). „Konverze genů ovlivněných GC spojuje rekombinační krajinu a demografii se složením genomové báze: Konverze genů ovlivněná GC řídí složení genomové báze u široké škály druhů. BioEssays. 37 (12): 1317–1326. doi:10.1002 / bies.201500058. PMID  26445215. S2CID  21843897.
  12. ^ Romiguier, Jonathan; Roux, Camille (2017-02-15). „Analytické předsudky spojené s obsahem GC v molekulární evoluci“. Frontiers in Genetics. 8: 16. doi:10.3389 / fgene.2017.00016. ISSN  1664-8021. PMC  5309256. PMID  28261263.
  13. ^ Spencer, C.C.A. (2006-08-01). "Lidský polymorfismus kolem hotspotů rekombinace: obrázek 1". Transakce s biochemickou společností. 34 (4): 535–536. doi:10.1042 / BST0340535. ISSN  0300-5127. PMID  16856853.
  14. ^ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (prosinec 2014). „Důkazy o konverzi genu ovlivněného GC jako hybatele rozdílů mezi liniemi ve složení ptačí základny“. Genome Biology. 15 (12): 549. doi:10.1186 / s13059-014-0549-1. ISSN  1474-760X. PMC  4290106. PMID  25496599.
  15. ^ Lassalle, Florent; Périan, Séverine; Bataillon, Thomas; Nesme, Xavier; Duret, Laurent; Daubin, Vincent (06.02.2015). Petrov, Dmitri A. (ed.). „Evoluce obsahu GC v bakteriálních genech: rozšiřuje se hypotéza zkreslení genů“. Genetika PLOS. 11 (2): e1004941. doi:10.1371 / journal.pgen.1004941. ISSN  1553-7404. PMC  4450053. PMID  25659072.
  16. ^ Santoyo, G; Romero, D (duben 2005). "Genová konverze a společná evoluce v bakteriálních genomech". Recenze mikrobiologie FEMS. 29 (2): 169–183. doi:10.1016 / j.femsre.2004.10.004. PMID  15808740.
  17. ^ Bhérer, Claude; Auton, Adam (16. června 2014), John Wiley & Sons Ltd (ed.), „Biased Gene Conversion and its Impact on Genome Evolution“, eLS, John Wiley & Sons, Ltd, doi:10.1002 / 9780470015902.a0020834.pub2, ISBN  9780470015902
  18. ^ A b Karlin, Samuel (říjen 1998). "Globální dinukleotidové podpisy a analýza genomové heterogenity". Současný názor v mikrobiologii. 1 (5): 598–610. doi:10.1016 / S1369-5274 (98) 80095-7. PMID  10066522.
  19. ^ Beutler, E .; Gelbart, T .; Han, J. H .; Koziol, J. A .; Beutler, B. (01.01.1989). „Vývoj genomu a genetického kódu: selekce na úrovni dinukleotidů methylací a polyribonukleotidovým štěpením“. Sborník Národní akademie věd. 86 (1): 192–196. Bibcode:1989PNAS ... 86..192B. doi:10.1073 / pnas.86.1.192. ISSN  0027-8424. PMC  286430. PMID  2463621.
  20. ^ Di Giallonardo, Francesca; Schlub, Timothy E .; Shi, Mang; Holmes, Edward C. (2017-04-15). Dermody, Terence S. (ed.). „Složení dinukleotidů ve zvířecích virech RNA je formováno více rodinou virů než hostitelskými druhy“. Journal of Virology. 91 (8). doi:10.1128 / JVI.02381-16. ISSN  0022-538X. PMC  5375695. PMID  28148785.
  21. ^ Żemojtel, Tomasz; kiełbasa, Szymon M .; Arndt, Peter F .; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (01.01.2011). „CpG deaminace vytváří stránky s transkripčními faktory vázajícími s vysokou účinností“. Biologie genomu a evoluce. 3: 1304–1311. doi:10.1093 / gbe / evr107. ISSN  1759-6653. PMC  3228489. PMID  22016335.
  22. ^ A b Hershberg, R; Petrov, DA (2008). "Výběr na Codon Bias". Výroční přehled genetiky. 42: 287–299. doi:10.1146 / annurev.genet.42.110807.091442. PMID  18983258.
  23. ^ Sharp, Paul M .; Li, Wen-Hsiung (1987). „Index adaptace kodonů - míra směrového synonymního zkreslení použití kodonů a jeho potenciální aplikace“. Výzkum nukleových kyselin. 15 (3): 1281–1295. doi:10.1093 / nar / 15.3.1281. ISSN  0305-1048. PMC  340524. PMID  3547335.
  24. ^ Noble, Peter A .; Citek, Robert W .; Ogunseitan, Oladele A. (duben 1998). "Frekvence tetranukleotidů v mikrobiálních genomech". Elektroforéza. 19 (4): 528–535. doi:10,1002 / elps.1150190412. ISSN  0173-0835. PMID  9588798.
  25. ^ Nagarajan, Niranjan; Pop, Mihai (2013). "Sestava sekvence demystifikována". Genetika hodnocení přírody. 14 (3): 157–167. doi:10.1038 / nrg3367. ISSN  1471-0056. PMID  23358380. S2CID  3519991.
  26. ^ Li; et al. (2010). „Sestavování lidských genomů de novo s masivně paralelním sekvenováním krátkého čtení“. Výzkum genomu. 20 (2): 265–272. doi:10.1101 / gr.097261.109. PMC  2813482. PMID  20019144.
  27. ^ Compeau, P .; Pevzner, P .; Teslar, G. (2011). „Jak aplikovat de Bruijnovy grafy na genomové seskupení“. Přírodní biotechnologie. 29 (11): 987–991. doi:10.1038 / nbt.2023. PMC  5531759. PMID  22068540.
  28. ^ Phillippy, Schatz, Pop (2008). „Forenzní analýza genomu: hledání nepolapitelného chybného sestavení“. Bioinformatika. 9 (3): R55. doi:10.1186 / gb-2008-9-3-r55. PMC  2397507. PMID  18341692.CS1 maint: více jmen: seznam autorů (odkaz)
  29. ^ Delmont, Eren (2016). „Identifikace kontaminace pomocí pokročilých postupů vizualizace a analýzy: metagenomické přístupy pro sestavy eukaryotických genomů“. PeerJ. 4: e1839. doi:10,7717 / peerj.1839. PMC  4824900. PMID  27069789.
  30. ^ Bemm; et al. (2016). „Genard tardigradu: Horizontální přenos genů nebo bakteriální kontaminace?“. Sborník Národní akademie věd. 113 (22): E3054 – E3056. doi:10.1073 / pnas.1525116113. PMC  4896698. PMID  27173902.
  31. ^ A b Zerbino, Daniel R .; Birney, Ewan (2008). "Velvet: algoritmy pro de novo sestavení krátkého čtení pomocí grafů de Bruijn". Výzkum genomu. 18 (5): 821–829. doi:10.1101 / gr.074492.107. PMC  2336801. PMID  18349386.
  32. ^ Goodur, Haswanee D .; Ramtohul, Vyasanand; Baichoo, Shakuntala (11. 11. 2012). „GIDT - Nástroj pro identifikaci a vizualizaci genomových ostrovů v prokaryotických organismech“. 2012 IEEE 12. mezinárodní konference o bioinformatice a bioinženýrství (BIBE): 58–63. doi:10.1109 / bibe.2012.6399707. ISBN  978-1-4673-4358-9. S2CID  6368495.
  33. ^ Jaron, K. S .; Moravec, J. C .; Martinkova, N. (2014-04-15). „SigHunt: vyhledávač horizontálního přenosu genů optimalizovaný pro eukaryotické genomy“. Bioinformatika. 30 (8): 1081–1086. doi:10.1093 / bioinformatika / btt727. ISSN  1367-4803. PMID  24371153.
  34. ^ Starr, M. P .; Mandel, M. (01.04.1969). „DNA Base Composition and Taxonomy of Phytopathogenic and Other Enterobacteria“. Journal of General Microbiology. 56 (1): 113–123. doi:10.1099/00221287-56-1-113. ISSN  0022-1287. PMID  5787000.
  35. ^ Moore, W. E. C .; Stackebrandt, E .; Kandler, O .; Colwell, R. R .; Krichevsky, M. I .; Truper, H. G .; Murray, R. G. E .; Wayne, L. G .; Grimont, P. A. D. (01.10.1987). „Zpráva ad hoc výboru pro usmíření přístupů k bakteriální systematice“. International Journal of Systematic and Evolutionary Microbiology. 37 (4): 463–464. doi:10.1099/00207713-37-4-463. ISSN  1466-5026.
  36. ^ Patro, Mount, Kingsford (2014). „Sailfish umožňuje kvantifikaci izoformy bez zarovnání ze čtení RNA-sek pomocí lehkých algoritmů“. Přírodní biotechnologie. 32 (5): 462–464. arXiv:1308.3700. doi:10.1038 / nbt.2862. PMC  4077321. PMID  24752080.CS1 maint: více jmen: seznam autorů (odkaz)
  37. ^ Navarro-Gomez; et al. (2015). „Phy-Mer: nový srovnávací a na referenci nezávislý klasifikátor mitochondriální haploskupiny“. Bioinformatika. 31 (8): 1310–1312. doi:10.1093 / bioinformatika / btu825. PMC  4393525. PMID  25505086.
  38. ^ Wang, Rong; Xu, Yong; Liu, Bin (2016). „Identifikace rekombinačního bodu na základě mezerových k-merů“. Vědecké zprávy. 6 (1): 23934. Bibcode:2016NatSR ... 623934W. doi:10.1038 / srep23934. ISSN  2045-2322. PMC  4814916. PMID  27030570.
  39. ^ Hozza, Michal; Vinař, Tomáš; Brejová, Broňa (2015), Iliopoulos, Costas; Puglisi, Simon; Yilmaz, Emine (eds.), "Jak velký je ten genom? Odhad velikosti a pokrytí genomu z k-mer Abundance Spectra", Zpracování řetězce a načítání informacíSpringer International Publishing, 9309, str. 199–209, doi:10.1007/978-3-319-23826-5_20, ISBN  9783319238258
  40. ^ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susanne; Gustafson, Ulla; Shi, Chengcheng (2016). „Strukturální genomové změny jsou základem alternativních reprodukčních strategií v ruffu (Philomachus pugnax)“. Genetika přírody. 48 (1): 84–88. doi:10,1038 / ng.3430. ISSN  1061-4036. PMID  26569123.
  41. ^ Chae; et al. (2013). „Srovnávací analýza využívající vzory K-mer a K-flank poskytuje důkazy o vývoji sekvence ostrovů CpG v genomech savců“. Výzkum nukleových kyselin. 41 (9): 4783–4791. doi:10.1093 / nar / gkt144. PMC  3643570. PMID  23519616.
  42. ^ Mohamed Hashim, Abdullah (2015). „Vzácná k-mer DNA: Identifikace sekvenčních motivů a predikce CpG ostrova a promotoru“. Journal of Theoretical Biology. 387: 88–100. doi:10.1016 / j.jtbi.2015.09.014. PMID  26427337.
  43. ^ Price, Jones, Pevzner (2005). „De novo identifikace opakujících se rodin ve velkých genomech“. Bioinformatika. 21 (supp 1): i351–8. doi:10.1093 / bioinformatika / bti1018. PMID  15961478.CS1 maint: více jmen: seznam autorů (odkaz)
  44. ^ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, A.R. (2016). "Identifikace druhů na základě čárového kódu DNA pomocí vektoru funkcí k-mer a klasifikátoru náhodných lesů". Gen. 592 (2): 316–324. doi:10.1016 / j.gene.2016.07.010. PMID  27393648.
  45. ^ Newburger, Bulyk (2009). „UniPROBE: online databáze dat mikropolí vázajících proteiny o interakcích protein – DNA“. Výzkum nukleových kyselin. 37 (supp 1) (vydání databáze): D77–82. doi:10.1093 / nar / gkn660. PMC  2686578. PMID  18842628.
  46. ^ Nordstrom; et al. (2013). „Identifikace mutace přímým porovnáním dat sekvenování celého genomu od jedinců mutantního a divokého typu pomocí k-mers“. Přírodní biotechnologie. 31 (4): 325–330. doi:10.1038 / nbt.2515. PMID  23475072.
  47. ^ Zhu, Jianfeng; Zheng, Wei-Mou (2014). „Samoorganizující se přístup pro meta-genomy“. Výpočetní biologie a chemie. 53: 118–124. doi:10.1016 / j.compbiolchem.2014.08.016. PMID  25213854.
  48. ^ Dubinkina; Ischenko; Ulyantsev; Tyakht; Alexejev (2016). „Posouzení použitelnosti k-merového spektra pro metagenomickou analýzu odlišnosti“. BMC bioinformatika. 17: 38. doi:10.1186 / s12859-015-0875-7. PMC  4715287. PMID  26774270.
  49. ^ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). „TETRA: webová služba a samostatný program pro analýzu a srovnání vzorců používání tetranukleotidů v sekvencích DNA“. BMC bioinformatika. 5: 163. doi:10.1186/1471-2105-5-163. PMC  529438. PMID  15507136.
  50. ^ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martin; Wong, Limsoon (eds.), „CompostBin: Algoritmus založený na složení DNA pro čtení Binningových environmentálních brokovnic“, Výzkum v oblasti výpočetní molekulární biologieSpringer Berlin Heidelberg, 4955, s. 17–28, arXiv:0708.3098, doi:10.1007/978-3-540-78839-3_3, ISBN  9783540788386, S2CID  7832512
  51. ^ Zheng, Hao; Wu, Hongwei (2010). "Krátké prokaryotické sdružování fragmentů DNA pomocí hierarchického klasifikátoru založeného na lineární diskriminační analýze a analýze hlavních komponent". Journal of Bioinformatics and Computational Biology. 08 (6): 995–1011. doi:10.1142 / S0219720010005051. ISSN  0219-7200. PMID  21121023.
  52. ^ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (2007). "Přesná fylogenetická klasifikace fragmentů DNA s proměnnou délkou". Přírodní metody. 4 (1): 63–72. doi:10.1038 / nmeth976. ISSN  1548-7091. PMID  17179938. S2CID  28797816.
  53. ^ Ounit, Rachid; Wanamaker, Steve; Zavřít, Timothy J; Lonardi, Stefano (2015). „CLARK: rychlá a přesná klasifikace metagenomických a genomických sekvencí pomocí diskriminačních k-merů“. BMC Genomics. 16 (1): 236. doi:10.1186 / s12864-015-1419-2. ISSN  1471-2164. PMC  4428112. PMID  25879410.
  54. ^ Diaz, Naryttza N; Krause, Lutz; Goesmann, Alexander; Niehaus, Karsten; Nattkemper, Tim W (2009). „TACOA - Taxonomická klasifikace environmentálních genomových fragmentů pomocí přístupu kernelovaného nejbližšího souseda“. BMC bioinformatika. 10 (1): 56. doi:10.1186/1471-2105-10-56. ISSN  1471-2105. PMC  2653487. PMID  19210774.
  55. ^ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Massimo; Lo Bosco, Giosue “; Renda, Giovanni; Rizzo, Riccardo; Gaglio, Salvatore; Urso, Alfonso (2018). „Modely hloubkového učení pro taxonomickou klasifikaci metagenomických dat bakterií“. BMC bioinformatika. 19 (S7): 198. doi:10.1186 / s12859-018-2182-6. ISSN  1471-2105. PMC  6069770. PMID  30066629.
  56. ^ Zhu, Zheng (2014). „Samoorganizující se přístup pro meta-genomy“. Výpočetní biologie a chemie. 53: 118–124. doi:10.1016 / j.compbiolchem.2014.08.016. PMID  25213854.
  57. ^ Lu, Jennifer; Breitwieser, Florian P .; Thielen, Peter; Salzberg, Steven L. (01.01.2017). „Bracken: odhad množství druhů v metagenomických datech“. PeerJ Computer Science. 3: e104. doi:10,7717 / peerj-cs.104. ISSN  2376-5992.
  58. ^ Wood, Derrick E; Salzberg, Steven L (2014). „Kraken: ultrarychlá klasifikace metagenomických sekvencí s použitím přesných zarovnání“. Genome Biology. 15 (3): R46. doi:10.1186 / gb-2014-15-3-r46. ISSN  1465-6906. PMC  4053813. PMID  24580807.
  59. ^ Rosen, Gail; Garbarine, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "Klasifikace fragmentů metagenomu pomocí profilů -Mer frekvence". Pokroky v bioinformatice. 2008: 205969. doi:10.1155/2008/205969. ISSN  1687-8027. PMC  2777009. PMID  19956701.
  60. ^ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sun, Fengzhu (03.05.2018). „Identifikace skupinově specifických sekvencí pro mikrobiální komunity pomocí podpisů dlouhých k-mer sekvencí“. Hranice v mikrobiologii. 9: 872. doi:10.3389 / fmicb.2018.00872. ISSN  1664-302X. PMC  5943621. PMID  29774017.
  61. ^ Al-Saif, Maher; Khabar, Khalid SA (2012). „Snížení frekvence dinukleotidů UU / UA v kódujících oblastech vede ke zvýšené stabilitě mRNA a expresi proteinů“. Molekulární terapie. 20 (5): 954–959. doi:10.1038 / mt.2012.29. PMC  3345983. PMID  22434136.
  62. ^ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "Optimalizace použití kodonových párů v rámci (GGGGS) 3 linkerové sekvence vede ke zvýšené expresi proteinu". Molekulární imunologie. 40 (10): 717–722. doi:10.1016 / j.molimm.2003.08.006. PMID  14644097.
  63. ^ Shen, Sam H .; Stauft, Charles B .; Gorbatsevych, Oleksandr; Song, Yutong; Ward, Charles B .; Yurovsky, Alisa; Mueller, Steffen; Futcher, Bruce; Wimmer, Eckard (14.04.2015). „Rozsáhlé překódování arbovirového genomu k vyvážení jeho preference hmyzu proti savcům“. Sborník Národní akademie věd. 112 (15): 4749–4754. Bibcode:2015PNAS..112.4749S. doi:10.1073 / pnas.1502864112. ISSN  0027-8424. PMC  4403163. PMID  25825721.
  64. ^ Kaplan, Bryan S .; Souza, Carine K .; Gauger, Phillip C .; Stauft, Charles B .; Robert Coleman, J .; Mueller, Steffen; Vincent, Amy L. (2018). „Očkování prasat pomocí optimalizované živé oslabené vakcíny proti chřipce zkreslením kodonových párů chrání před homologní výzvou“. Vakcína. 36 (8): 1101–1107. doi:10.1016 / j.vakcina.2018.01.027. PMID  29366707.
  65. ^ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dušan (29.01.2018). Mocarski, Edward (ed.). „Útlum velmi virulentního herpesviru Marekovy choroby (MDV) deoptimizací předpětí kodonových párů“. PLOS patogeny. 14 (1): e1006857. doi:10.1371 / journal.ppat.1006857. ISSN  1553-7374. PMC  5805365. PMID  29377958.
  66. ^ Kunec, Dušan; Osterrieder, Nikolaus (2016). „Předpětí dvojice kodonů je přímým důsledkem předpětí dinukleotidů“. Zprávy buněk. 14 (1): 55–67. doi:10.1016 / j.celrep.2015.12.011. PMID  26725119.
  67. ^ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (09.12.2014). „Útlum viru RNA deoptimizací párem kodonů je artefaktem zvýšení frekvencí dinukleotidů CpG / UpA“. eLife. 3: e04531. doi:10,7554 / eLife.04531. ISSN  2050-084X. PMC  4383024. PMID  25490153.
  68. ^ Marçais, Guillaume; Kingsford, Carl (15.03.2011). „Rychlý přístup bez zámku pro efektivní paralelní počítání výskytů k-merů“. Bioinformatika. 27 (6): 764–770. doi:10.1093 / bioinformatika / btr011. ISSN  1460-2059. PMC  3051319. PMID  21217122.
  69. ^ Deorowicz, Sebastian; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (2015-05-15). „KMC 2: rychlé a úsporné počítání k-mer“. Bioinformatika. 31 (10): 1569–1576. doi:10.1093 / bioinformatika / btv022. ISSN  1460-2059. PMID  25609798.
  70. ^ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). „Gerbil: rychlý a paměťově efektivní čítač k-mer s podporou GPU“. Algoritmy pro molekulární biologii. 12 (1): 9. doi:10.1186 / s13015-017-0097-9. ISSN  1748-7188. PMC  5374613. PMID  28373894.

externí odkazy