Sekvenční analýza bez zarovnání - Alignment-free sequence analysis
v bioinformatika, sekvenční analýza bez zarovnání přístupy k údajům o molekulární sekvenci a struktuře poskytují alternativy k přístupům založeným na vyrovnání.[1]
Vznik a potřeba analýzy různých typů údajů generovaných biologickým výzkumem vedly k rozvoji oblasti bioinformatika.[2] Molekulární sekvence a strukturní data DNA, RNA, a bílkoviny, genová exprese profily nebo microarray data, metabolická cesta data jsou některé z hlavních typů dat analyzovaných v bioinformatice. Mezi nimi sekvenční data rostou exponenciálním tempem v důsledku nástupu sekvenčních technologií nové generace. Od vzniku bioinformatiky sekvenční analýza zůstala hlavní oblastí výzkumu s širokou škálou aplikací při prohledávání databáze, anotace genomu, komparativní genomika, molekulární fylogeneze a genová předpověď. Průkopnické přístupy pro sekvenční analýzu byly založeny na zarovnání sekvence globální nebo místní, párové nebo vícenásobné zarovnání sekvence.[3][4] Přístupy založené na zarovnání obecně poskytují vynikající výsledky, když sledované sekvence úzce souvisí a lze je spolehlivě srovnat, ale když se sekvence liší, nelze dosáhnout spolehlivého zarovnání, a proto jsou aplikace sekvenčního zarovnání omezené. Dalším omezením přístupů založených na zarovnání je jejich výpočetní složitost a jsou časově náročné, a proto jsou omezené při práci s velkými daty sekvence.[5] Příchod sekvenování nové generace technologie vyústila v generování objemných sekvenčních dat. Velikost těchto sekvenčních dat představuje výzvu pro algoritmy založené na zarovnání v jejich sestavení, anotaci a srovnávacích studiích.
Metody bez zarovnání
Metody bez zarovnání lze obecně rozdělit do pěti kategorií: a) metody založené na k-mer / frekvence slov, b) metody založené na délce běžných podřetězců, c) metody založené na počtu (rozmístěných) slovních shod, d) metody založené na mikro-zarovnání, e) metody založené na teorii informací af) metody založené na grafickém znázornění. Při vyhledávání podobnosti sekvence byly použity přístupy bez zarovnání,[6] shlukování a klasifikace sekvencí,[7] a v poslední době ve fylogenetice[8][9] (Obrázek 1).
Říká se, že takové analýzy molekulární fylogeneze využívající přístupy bez zarovnání jsou součástí fylogenomika nové generace.[9] Řada recenzních článků poskytuje hloubkový přehled metod bez zarovnání v sekvenční analýze.[1][10][11][12][13][14][15]
The AFproject je mezinárodní spolupráce pro srovnávání a porovnávání softwarových nástrojů pro srovnání sekvencí bez zarovnání.[16]
Metody založené na k-mer / frekvence slov
Populární metody založené na k- kmitočty slov / slov zahrnují frekvenční profil funkce (FFP),[17][18] Kompoziční vektor (CV),[19][20] Distribuce doby návratu (RTD),[21] reprezentace hry s frekvenčním chaosem (FCGR).[22] a rozložená slova[23]
Profil frekvencí prvků (FFP)
Metodika použitá v metodě založené na FFP začíná výpočtem počtu všech možných k-mer (možný počet k-mer pro nukleotidovou sekvenci: 4k, zatímco pro proteinovou sekvenci: 20k) v sekvencích. Každý k-mer počet v každé sekvenci se pak normalizuje vydělením celkem celkem kpočet počítajících v tomto pořadí. To vede k převodu každé sekvence do jejího frekvenčního profilu funkce. Poté se vypočítá párová vzdálenost mezi dvěma sekvencemi Jensen – Shannon (JS) divergence mezi jejich příslušnými FFP. The matice vzdálenosti takto získané lze použít ke konstrukci fylogenetický strom pomocí shlukových algoritmů jako sousedství, UPGMA atd.
Složení vektor (CV)
V této metodě frekvence výskytu každého možného k-mer v dané sekvenci se vypočítá. Dalším charakteristickým krokem této metody je odčítání náhodného pozadí těchto frekvencí pomocí Markovův model snížit vliv náhodného neutrálu mutace zdůraznit roli selektivní evoluce. Normalizované frekvence jsou dány pevným řádem pro vytvoření kompozičního vektoru (CV) dané sekvence. Kosinová vzdálenost Funkce se poté používá k výpočtu párové vzdálenosti mezi CV sekvencí. Takto získanou matici vzdálenosti lze použít ke konstrukci fylogenetického stromu pomocí shlukových algoritmů, jako je sousedství, UPGMA atd. Tuto metodu lze rozšířit prostřednictvím uchýlení se k efektivním algoritmům porovnávání vzorů, které budou zahrnuty do výpočtu vektorů složení: (i) všechny k- výrobci pro jakoukoli hodnotu k, (ii) všechny podřetězce libovolné délky až do libovolně stanoveného maxima k hodnota, (iii) všechny maximální podřetězce, přičemž podřetězec je maximální, pokud by jeho prodloužení o libovolný znak způsobilo snížení počtu výskytů.[24][25]
Distribuce doby návratu (RTD)
Metoda založená na RTD nepočítá počet k-mers v sekvencích, místo toho počítá čas potřebný pro znovuobjevení k-merové. Čas se vztahuje k počtu zbytků v postupném vzhledu konkrétního k-mer. Tedy výskyt každého z nich k-mer v sekvenci se vypočítá ve formě RTD, který se poté shrne pomocí dvou statistických parametrů znamenat (μ) a standardní odchylka (σ). Každá sekvence je tedy reprezentována ve formě numerického vektoru o velikosti 2,4k obsahující μ a σ ze 4k RTD. Vzdálenost mezi sekvencemi se vypočítá pomocí Euklidovská vzdálenost opatření. Takto získanou matici vzdálenosti lze použít ke konstrukci fylogenetického stromu pomocí shlukových algoritmů, jako je sousedství, UPGMA atd.
Reprezentace hry Frequency chaos (FCGR)
Metody FCGR se vyvinuly z techniky reprezentace chaosové hry (CGR), která poskytuje měřítko nezávislé reprezentace genomových sekvencí.[26] CGR lze rozdělit mřížkovými čarami, kde každý čtverec mřížky označuje výskyt oligonukleotidů specifické délky v sekvenci. Taková reprezentace CGR se označuje jako Frequency Chaos Game Representation (FCGR). To vede k reprezentaci každé sekvence do FCGR. Párovou vzdálenost mezi FCGR sekvencí lze vypočítat pomocí Pearsonovy vzdálenosti, Hammingovy vzdálenosti nebo euklidovské vzdálenosti.[27]
Frekvence mezer
Zatímco většina algoritmů bez zarovnání porovnává slovní složení sekvencí, Spaced Words používá vzorec péče a nezajímá pozice. Výskyt mezerového slova v sekvenci je pak definován pouze znaky na pozicích shody, zatímco znaky na pozicích nezajímají se ignorovány. Namísto porovnání frekvencí souvislých slov ve vstupních sekvencích tento přístup porovnává frekvence oddělených slov podle předem definovaného vzoru.[23] Předdefinovaný vzor lze vybrat analýzou Rozptyl počtu zápasů,[28] pravděpodobnost prvního výskytu na několika modelech,[29] nebo Pearsonův korelační koeficient mezi očekávanou frekvencí slov a skutečnou vzdáleností zarovnání.[30]
Metody založené na délce běžných podřetězců
Metody v této kategorii využívají podobnost a rozdíly podřetězců ve dvojici sekvencí. Tyto algoritmy se většinou používaly pro zpracování řetězců v počítačová věda.[31]
Průměrný společný podřetězec (ACS)
V tomto přístupu pro vybraný pár sekvencí (A a B délek n a m ) nejdelší podřetězec začínající na nějaké pozici je identifikován v jedné sekvenci (A), která přesně odpovídá druhé sekvenci (B) na jakékoli pozici. Tímto způsobem se vypočítají délky nejdelších podřetězců začínajících na různých pozicích v sekvenci A a majících přesné shody na některých pozicích v sekvenci B. Všechny tyto délky jsou zprůměrovány k odvození míry . Intuitivně větší , čím více jsou si obě sekvence podobné. Abychom zohlednili rozdíly v délce sekvencí, je normalizováno [tj. ]. To dává míru podobnosti mezi sekvencemi.
Aby bylo možné odvodit míru vzdálenosti, inverzní z opatření podobnosti je vzat a opravný termín je od ní odečteno, aby to bylo zajištěno bude nula. Tím pádem
Toto opatření není symetrický, takže je třeba počítat , který dává konečné ACS míry mezi dvěma řetězci (A a B).[32] Vyhledávání subsekvencí / podřetězců lze efektivně provést pomocí stromy přípon.[33][34][35]
k-mismatch average common substring approach (kmacs)
Tento přístup je zevšeobecněním přístupu ACS. Chcete-li definovat vzdálenost mezi dvěma sekvencemi DNA nebo proteinu, kmacs odhaduje pro každou pozici i první sekvence nejdelší podřetězec začínající na i a porovnání podřetězce druhé sekvence s až k neshody. Definuje průměr těchto hodnot jako měřítko podobnosti mezi sekvencemi a proměňuje je v symetrickou míru vzdálenosti. Kmacs nepočítá přesně k- nesoulad podřetězců, protože by to bylo výpočetně příliš nákladné, ale přibližuje se takovým podřetězcům.[36]
Mutační vzdálenosti (Kr)
Tento přístup úzce souvisí s ACS, který vypočítává počet substitucí na místo mezi dvěma sekvencemi DNA pomocí nejkratšího chybějícího podřetězce (označovaného jako shustring).[37]
Distribuce délky běžných podřetězců k-nesouladu
Tento přístup využívá program kmacs[36] pro výpočet nejdelších běžných podřetězců s až k nesoulady pro pár sekvencí DNA. Fylogenetickou vzdálenost mezi sekvencemi lze poté odhadnout z lokálního maxima v distribuci délky společných podřetězců k-neshody.[38]
Metody založené na počtu (rozmístěných) shod slov
a
Jedná se o varianty statistika, která počítá počet -mer shody mezi dvěma sekvencemi. Vylepšují jednoduchost statistiky tím, že vezmeme v úvahu distribuci pozadí porovnávaných sekvencí.[39]
KAŠE
Jedná se o extrémně rychlou metodu, která k odhadu využívá strategii skici MinHash dole Jaccardův index z více sad -majitelé dvou vstupních sekvencí. To znamená, že odhaduje poměr -mer odpovídá celkovému počtu - tvůrci sekvencí. To lze zase použít k odhadu evolučních vzdáleností mezi porovnávanými sekvencemi, měřeno jako počet substitucí na pozici sekvence, protože sekvence se vyvinuly z jejich posledního společného předka.[40]
Sklon stromu
Tento přístup vypočítává hodnotu vzdálenosti mezi dvěma proteinovými sekvencemi na základě rozpadu počtu -mer odpovídá, pokud zvyšuje.[41]
Slope-Spa M.
Tato metoda vypočítá počet z -mer nebo shoda s mezerami (SpaM) pro různé hodnoty délky slova nebo počtu pozic shody v podkladovém vzoru. Sklon afinně-lineární funkce to záleží na se vypočítá pro odhad vzdálenosti Jukes-Cantor mezi vstupními sekvencemi.[42]
Skmer
Skmer vypočítá vzdálenosti mezi druhy z nesestavených sekvenčních čtení. Podobný KAŠE, používá Jaccardův index na souborech -mers ze vstupních sekvencí. Na rozdíl od KAŠE, program je stále přesný pro nízké pokrytí sekvenování, takže jej lze použít pro sklizeň genomu.[43]
Metody založené na mikro-zarovnání
Přesně řečeno, tyto metody nejsou bez zarovnání. Používají jednoduché mezery mikro-zarovnání kde se sekvence musí shodovat na určitých předem definovaných pozicích. Pozice zarovnané na zbývajících pozicích mikro-zarovnání tam, kde jsou povoleny neshody, se pak použijí pro odvození fylogeneze.
Co-fylog
Tato metoda hledá tzv struktur které jsou definovány jako páry k-mer shody mezi dvěma sekvencemi DNA, které jsou v obou sekvencích od sebe vzdálené. Dva k-mer zápasy se nazývají kontext, pozice mezi nimi se nazývá objekt. Co-phylog pak definuje vzdálenost mezi dvěma sekvencemi, zlomek takové struktur pro které jsou dva nukleotidy v objekt jsou rozdílní. Tento přístup lze použít u nesestavených sekvenčních čtení.[44]
andi
andi odhaduje fylogenetické vzdálenosti mezi genomovými sekvencemi na základě neuzavřeného místního zarovnání, které je ohraničeno maximálními přesnými shodami slov. Takové shody slov lze efektivně najít pomocí polí přípon. Zarovnání bez mezer mezi přesnými shodami slov se poté použije k odhadu fylogenetických vzdáleností mezi sekvencemi genomu. Výsledné odhady vzdálenosti jsou přesné až pro přibližně 0,6 substitucí na pozici.[45]
Filtrované shody mezerami (FSWM)
FSWM používá předdefinovaný binární vzor P představující tzv pozice v zápase a nezajímají pozice. Pro pár vstupních sekvencí DNA pak hledá shody s mezerami w.r.t. P, tj. pro lokální srovnání bez mezer s odpovídajícími nukleotidy na pozice v zápase z P a možné neshody na webu nezajímají pozice. Rušivé shody s mezerami s nízkým bodovým hodnocením jsou zahozeny, evoluční vzdálenosti mezi vstupními sekvencemi jsou odhadovány na základě vzájemně seřazených nukleotidů na nezajímají pozice zbývajících homologních shod s mezerami.[46] FSWM byl upraven tak, aby odhadoval vzdálenosti na základě nesestavených čtení NGS, tato verze programu se nazývá Read-Spa M..[47]
Prot-Spa M.
Prot-SpaM (Protna bázi eome Lázněced-word Matches) je implementace algoritmu FSWM pro částečné nebo celé sekvence proteomu.[48]
Multi-Spa M.
Multi-SpaM (MultipleLázněced-word Matches) je přístup k rekonstrukci fylogeneze založené na genomu, který rozšiřuje myšlenku FSWM na srovnání více sekvencí.[49] Vzhledem k binárnímu vzoru P z pozice v zápase a nezajímají poziceprogram hledá P-bloky, tj. lokální čtyřcestné zarovnání bez mezer s odpovídajícími nukleotidy na pozice v zápase z P a možné neshody na webu nezajímají pozice. Taková čtyřcestná uspořádání jsou náhodně vzorkována ze sady vstupních sekvencí genomu. Pro každého P-block, nekořenná stromová topologie se vypočítá pomocí RAxML.[50] Program Kvarteto MaxCut se potom použije k výpočtu superstromu z těchto stromů.
Metody založené na teorii informací
Teorie informací poskytla úspěšné metody pro analýzu a srovnání sekvencí bez seřazení. Stávající aplikace teorie informací zahrnují globální a lokální charakterizaci DNA, RNA a proteinů, odhad entropie genomu na klasifikaci motivu a oblasti. Také to slibuje genové mapování, sekvenování nové generace analýza a metagenomika.[51]
Korelace základna-základna (BBC)
Base-base correlation (BBC) převádí sekvenci genomu na jedinečný 16rozměrný numerický vektor pomocí následující rovnice,
The a označuje pravděpodobnosti základen i a j v genomu. The označuje pravděpodobnost bází i a j na dálku ℓ v genomu. Parametr K. označuje maximální vzdálenost mezi základnami i a j. Rozdíly v hodnotách 16 parametrů odrážejí odchylky v obsahu a délce genomu.[52][53][54]
Informační korelace a korelace částečných informací (IC-PIC)
IC-PIC (korelace informací a parciální korelace informací) metoda založená na bázi základní korelace sekvence DNA. IC a PIC byly vypočítány pomocí následujících vzorců,
Konečný vektor se získá takto:
který definuje rozsah vzdálenosti mezi základnami.[55]
Párová vzdálenost mezi sekvencemi se vypočítá pomocí Euklidovská vzdálenost opatření. Takto získanou matici vzdálenosti lze použít ke konstrukci fylogenetického stromu pomocí shlukových algoritmů, jako je sousedství, UPGMA, atd..
Komprese
Příklady jsou efektivní aproximace Kolmogorovova složitost, například Složitost Lempel-Ziv. Obecně metody založené na kompresi používají vzájemné informace mezi sekvencemi. To je vyjádřeno podmíněně Kolmogorovova složitost, tj. délka nejkratšího samooddělovacího programu požadovaného ke generování řetězce vzhledem k předchozí znalosti druhého řetězce. Toto opatření má vztah k měření k- slova v sekvenci, protože je lze snadno použít ke generování sekvence. Je to někdy výpočetně náročná metoda. Teoretický základ pro Kolmogorovova složitost přístup položili Bennett, Gacs, Li, Vitanyi a Zurek (1998) návrhem informační vzdálenost.[56] The Kolmogorovova složitost je nepočitatelný, byl aproximován kompresními algoritmy. Čím lépe komprimují, tím lépe jsou. Li, Badger, Chen, Kwong, Kearney a Zhang (2001) použili neoptimální, ale normalizovanou formu tohoto přístupu,[57] a optimální normalizovaná forma Li, Chen, Li, Ma a Vitanyi (2003) se objevila v [58] a podrobněji a prokázali to Cilibrasi a Vitanyi (2005) v.[59]Otu a Sayood (2003) použili Složitost Lempel-Ziv metoda pro konstrukci pěti různých měr vzdálenosti pro fylogenetický strom konstrukce.[60]
Komprese kontextového modelování
V komplexitě kontextového modelování jsou predikce dalšího symbolu jednoho nebo více statistických modelů kombinovány nebo soutěží o predikci založenou na událostech zaznamenaných v minulosti. Algoritmický informační obsah odvozený z každé predikce symbolu lze použít k výpočtu algoritmických informačních profilů s časem úměrným délce sekvence. Tento proces byl aplikován na sekvenční analýzu DNA.[61]
Metody založené na grafickém znázornění
Iterované mapy
Použití iterovaných map pro sekvenční analýzu poprvé představil HJ Jefferey v roce 1990[26] když navrhoval použít Hra chaosu mapovat genomové sekvence do jednotkového čtverce. Tato zpráva zavedla postup jako Chaos Game Representation (CGR). Avšak pouze o 3 roky později byl tento přístup poprvé odmítnut jako projekce markovské přechodové tabulky N Goldmanem.[62] Tato námitka byla zrušena na konci tohoto desetiletí, kdy bylo zjištěno opak - že CGR bijektivně mapuje Markovův přechod do fraktální reprezentace bez řádů (bez stupňů).[63] Uvědomění si, že iterované mapy poskytují bijektivní mapu mezi symbolickým prostorem a číselným prostorem, vedlo k identifikaci různých přístupů k porovnání sekvencí a charakterizaci bez zarovnání. Tento vývoj na konci roku 2013 přezkoumala společnost JS Almeida v roce 2006.[64] Řada webových aplikací, jako je https://usm.github.com,[65] jsou k dispozici k prokázání toho, jak kódovat a porovnávat libovolné symbolické sekvence způsobem, který plně využívá výhod moderních MapReduce distribuce vyvinutá pro cloud computing.
Porovnání metod založených na zarovnání a bez zarovnání
Metody založené na zarovnání | Metody bez zarovnání |
---|---|
Tyto metody předpokládají, že homologní oblasti sousedí (s mezerami) | Nepředpokládá takovou souvislost homologních oblastí |
Vypočítá všechna možná párová srovnání sekvencí; tedy výpočetně nákladné | Na základě výskytů dílčích sekvencí; složení; výpočetně levné, může být náročné na paměť |
Osvědčený přístup ve fylogenomice | Relativně nedávná a aplikace ve fylogenomice je omezená; potřebuje další testování robustnosti a škálovatelnosti |
Vyžaduje substituční / evoluční modely | Méně závislé na substitučních / evolučních modelech |
Citlivé na stochastickou variabilitu sekvence, rekombinaci, horizontální (nebo laterální) genetický přenos, rychlost heterogenity a sekvence různých délek, zvláště když podobnost spočívá v „zóně soumraku“ | Méně citlivý na stochastické variace sekvence, rekombinace, horizontální (nebo boční) genetický přenos, rychlost heterogenity a sekvence různých délek |
Osvědčené postupy používají odvozovací algoritmy se složitostí alespoň O (n2); méně časově efektivní | Alferenční algoritmy typicky O (n2) nebo méně; časově efektivnější |
Heuristická povaha; statistickou významnost toho, jak skóre sladění souvisí s homologií, je obtížné posoudit | Přesná řešení; statistickou významnost sekvenčních vzdáleností (a stupeň podobnosti) lze snadno vyhodnotit |
Spoléhá na dynamické programování (výpočetně nákladné) při hledání zarovnání, které má optimální skóre. | postranní kroky výpočetního nákladného dynamického programování indexováním počtu slov nebo pozic ve fraktálním prostoru.[66] |
Aplikace metod bez zarovnání
- Genomické přesmyky[67][68]
- Molekulární fylogenetika[9][14][69]
- Metagenomika[70][71][72][73][74]
- Analýza dat sekvence nové generace[70][30]
- Epigenomika[75]
- Čárové kódy druhů[76]
- Populační genetika[11]
- Horizontální přenos genů[8]
- Sérum / genotypizace virů[21][77][78]
- Predikce alergenity[79]
- Objev SNP[80]
- Detekce rekombinace[81]
Seznam webových serverů / softwaru pro metody bez zarovnání
název | Popis | Dostupnost | Odkaz |
---|---|---|---|
kmacs | k-mismatch average common substring approach | kmacs | [36] |
Rozteč slov | Frekvence mezer | oddělená slova | [23] |
Co-fylog | přístup bez mikroinstalací bez montáže | Co-fylog | [44] |
Prot-Spa M. | Proteome-based spaced-word match | Prot-Spa M. | [48] |
FSWM | Filtrované shody mezer | FSWM | [46] |
FFP | Fylogeneze založená na profilu frekvence | FFP | [17] |
CVTree | Server složený z vektorů pro fylogenezi | CVTree | [82] |
RTD fylogeneze | Server založený na distribuci doby návratu pro fylogenezi | RTD fylogeneze | [21] |
AGP | Multimetodový webový server pro fylogenezi genomu bez zarovnání | AGP | [83] |
Alfy | Detekce lokální podobnosti mezi virovými a bakteriálními genomy bez zarovnání | Alfy | [8] |
bez kofeinu + py | DistancE Calculation using Alignment-Free methods in PYthon | bez kofeinu + py | [84] |
Podtyp dengue | Genotypizace virů dengue na základě RTD | Podtyp dengue | [21] |
WNV Typer | Genotypizace virů západního Nilu na základě RTD | WNV Typer | [77] |
AlergenFP | Predikce alergenity pomocí otisků prstů deskriptoru | AlergenFP | [79] |
kSNP v2 | Zjišťování SNP bez zarovnání | kSNP v2 | [80] |
d2Nástroje | Porovnání metatranskriptických vzorků na základě k-Tuple frekvence | d2Nástroje | [85] |
spěch | Detekce rekombinace pomocí SHustrings | spěch | [81] |
rozbít | Detekce a vizualizace genomových přeskupení | rozbít | [67] |
Smash ++ | Nalezení a vizualizace genomových přeskupení | Smash ++ | [68] |
GSporovnat | Rychlé shlukování bakteriálních genomů na bázi oligonukleotidů | GSporovnat | – |
KOMETA | Subtypizace virových sekvencí HIV-1, HIV-2 a HCV bez zarovnání | KOMETA | [78] |
USM | Fractal Map Snižte rozklad zarovnání sekvence | usm.github.io | [65] |
SOKOL | Metoda bez zarovnání k odvození metagenomického složení starověké DNA | SOKOL | [73] |
Kraken | Taxonomická klasifikace pomocí přesných shod k-mer | Kraken 2 | [74] |
CLC | Fylogenetické stromy využívající porovnávání na bázi k-mer bez referencí | CLC mikrobiální genomový modul | [86] |
OREL | Ultrarychlý nástroj k hledání relativních chybějících slov v genomových datech | EAGLE2 | [87] |
Viz také
- Sekvenční analýza
- Zarovnání více sekvencí
- Fylogenomika
- Bioinformatika
- Metagenomika
- Sekvenování nové generace
- Populační genetika
- SNP
- Program detekce rekombinace
- Skenování genomu
Reference
- ^ A b Vinga S, Almeida J (březen 2003). „Porovnání sekvence bez zarovnání - recenze“. Bioinformatika. 19 (4): 513–23. doi:10.1093 / bioinformatika / btg005. PMID 12611807.
- ^ Rothberg J, Merriman B, Higgs G (září 2012). "Bioinformatika. Úvod". Yale Journal of Biology and Medicine. 85 (3): 305–8. PMC 3447194. PMID 23189382.
- ^ Batzoglou S (březen 2005). "Mnoho tváří zarovnání sekvence". Briefings in Bioinformatics. 6 (1): 6–22. doi:10.1093 / bib / 6.1.6. PMID 15826353.
- ^ Mullan L (březen 2006). „Zarovnání sekvence po párech - je to všechno o nás!“. Briefings in Bioinformatics. 7 (1): 113–5. doi:10.1093 / bib / bbk008. PMID 16761368.
- ^ Kemena C, Notredame C (říjen 2009). „Budoucí výzvy pro více metod zarovnání sekvencí v éře vysoké propustnosti“. Bioinformatika. 25 (19): 2455–65. doi:10.1093 / bioinformatika / btp452. PMC 2752613. PMID 19648142.
- ^ Hide W, Burke J, Davison DB (1994). "Biologické hodnocení d2, algoritmus pro vysoce výkonné porovnání sekvencí". Journal of Computational Biology. 1 (3): 199–215. doi:10.1089 / cmb.1994.1.199. PMID 8790465.
- ^ Miller RT, Christoffels AG, Gopalakrishnan C, Burke J, Ptitsyn AA, Broveak TR, Hide WA (listopad 1999). „Komplexní přístup ke shlukování exprimované lidské genové sekvence: zarovnání tagu sekvence a konsenzuální znalostní báze“. Výzkum genomu. 9 (11): 1143–55. doi:10.1101 / gr. 9.11.1143. PMC 310831. PMID 10568754.
- ^ A b C Domazet-Lošo M, Haubold B (červen 2011). „Detekce lokální podobnosti mezi virovými a bakteriálními genomy bez zarovnání“. Bioinformatika. 27 (11): 1466–72. doi:10.1093 / bioinformatika / btr176. PMID 21471011.
- ^ A b C Chan CX, Ragan MA (leden 2013). „Fylogenomika nové generace“. Biology Direct. 8: 3. doi:10.1186/1745-6150-8-3. PMC 3564786. PMID 23339707.
- ^ Song K, Ren J, Reinert G., Deng M, Waterman MS, Sun F (květen 2014). „Nový vývoj porovnávání sekvencí bez zarovnání: opatření, statistiky a sekvenování nové generace“. Briefings in Bioinformatics. 15 (3): 343–53. doi:10.1093 / bib / bbt067. PMC 4017329. PMID 24064230.
- ^ A b Haubold B (květen 2014). „Fylogenetika bez genetického vyrovnání a populační genetika“. Briefings in Bioinformatics. 15 (3): 407–18. doi:10.1093 / bib / bbt083. PMID 24291823.
- ^ Bonham-Carter O, Steele J, Bastola D (listopad 2014). „Porovnání genetické sekvence bez zarovnání: přehled nedávných přístupů pomocí slovní analýzy“. Briefings in Bioinformatics. 15 (6): 890–905. doi:10.1093 / bib / bbt052. PMC 4296134. PMID 23904502.
- ^ Zielezinski A, Vinga S, Almeida J, Karlowski WM (říjen 2017). „Porovnání sekvence bez zarovnání: výhody, aplikace a nástroje“. Genome Biology. 18 (1): 186. doi:10.1186 / s13059-017-1319-7. PMC 5627421. PMID 28974235.
- ^ A b Bernard G, Chan CX, Chan YB, Chua XY, Cong Y, Hogan JM a kol. (Březen 2019). „Inference bez hierarchických a síťových fylogenomických vztahů“. Briefings in Bioinformatics. 20 (2): 426–435. doi:10.1093 / bib / bbx067. PMC 6433738. PMID 28673025.
- ^ Ren J, Bai X, Lu YY, Tang K, Wang Y, Reinert G, Sun F (červenec 2018). „Alignment-Free Sequence Analysis and Applications“. Roční přehled vědy o biomedicínských datech. 1: 93–114. arXiv:1803.09727. Bibcode:2018arXiv180309727R. doi:10.1146 / annurev-biodatasci-080917-013431. PMC 6905628. PMID 31828235.
- ^ Zielezinski A, Girgis HZ, Bernard G, Leimeister CA, Tang K, Dencker T a kol. (Červenec 2019). „Benchmarking metod srovnávání sekvencí bez zarovnání“. Genome Biology. 20 (1): 144. doi:10.1186 / s13059-019-1755-7. PMC 6659240. PMID 31345254.
- ^ A b Sims GE, červen SR, Wu GA, Kim SH (říjen 2009). „Celogenomová fylogeneze savců: evoluční informace v genových a negenických oblastech“. Sborník Národní akademie věd Spojených států amerických. 106 (40): 17077–82. Bibcode:2009PNAS..10617077S. doi:10.1073 / pnas.0909377106. PMC 2761373. PMID 19805074.
- ^ Sims GE, Kim SH (květen 2011). „Fylogeneze celého genomu skupiny Escherichia coli / Shigella podle profilů četnosti funkcí (FFP)“. Sborník Národní akademie věd Spojených států amerických. 108 (20): 8329–34. Bibcode:2011PNAS..108,8329S. doi:10.1073 / pnas.1105168108. PMC 3100984. PMID 21536867.
- ^ Gao L, Qi J (březen 2007). „Molekulární fylogeneze celého genomu velkých dsDNA virů metodou kompozičního vektoru“. BMC Evoluční biologie. 7: 41. doi:10.1186/1471-2148-7-41. PMC 1839080. PMID 17359548.
- ^ Wang H, Xu Z, Gao L, Hao B (srpen 2009). „Fylogeneze hub založená na 82 úplných genomech pomocí metody kompozičního vektoru“. BMC Evoluční biologie. 9: 195. doi:10.1186/1471-2148-9-195. PMC 3087519. PMID 19664262.
- ^ A b C d Kolekar P, Kale M, Kulkarni-Kale U (listopad 2012). "Měření vzdálenosti bez zarovnání na základě distribuce doby návratu pro sekvenční analýzu: aplikace pro shlukování, molekulární fylogeneze a subtypizace". Molekulární fylogenetika a evoluce. 65 (2): 510–22. doi:10.1016 / j.ympev.2012.07.003. PMID 22820020.
- ^ Hatje K, Kollmar M (2012). „Fylogenetická analýza kladu brassicales založená na metodě porovnání sekvence bez zarovnání“. Hranice ve vědě o rostlinách. 3: 192. doi:10.3389 / fpls.2012.00192. PMC 3429886. PMID 22952468.
- ^ A b C Leimeister CA, Boden M, Horwege S, Lindner S, Morgenstern B (červenec 2014). "Rychlé porovnání sekvence bez zarovnání pomocí frekvencí s mezerami". Bioinformatika. 30 (14): 1991–9. doi:10.1093 / bioinformatika / btu177. PMC 4080745. PMID 24700317.
- ^ Apostolico A, Denas O (říjen 2008). "Rychlé algoritmy pro výpočet vzdálenosti sekvencí pomocí vyčerpávajícího podřetězcového složení". Algoritmy pro molekulární biologii. 3: 13. doi:10.1186/1748-7188-3-13. PMC 2615014. PMID 18957094.
- ^ Apostolico A, Denas O, Dress A (září 2010). "Efektivní nástroje pro srovnávací analýzu podřetězců". Journal of Biotechnology. 149 (3): 120–6. doi:10.1016 / j.jbiotec.2010.05.006. PMID 20682467.
- ^ A b Jeffrey HJ (duben 1990). „Reprezentace genové struktury hrou chaosu“. Výzkum nukleových kyselin. 18 (8): 2163–70. doi:10.1093 / nar / 18.8.2163. PMC 330698. PMID 2336393.
- ^ Wang Y, Hill K, Singh S, Kari L (únor 2005). "Spektrum genomových podpisů: od dinukleotidů po reprezentaci hry chaosu". Gen. 346: 173–85. doi:10.1016 / j.gene.2004.10.021. PMID 15716010.
- ^ Hahn L, Leimeister CA, Ounit R, Lonardi S, Morgenstern B (říjen 2016). „rasbhari: Optimalizace rozložených semen pro vyhledávání v databázi, mapování čtení a srovnání sekvence bez zarovnání“. PLOS výpočetní biologie. 12 (10): e1005107. arXiv:1511.04001. Bibcode:2016PLSCB..12E5107H. doi:10.1371 / journal.pcbi.1005107. PMC 5070788. PMID 27760124.
- ^ Noé L (14. února 2017). „Nejlepší zásahy 11110110111: výběr bez modelu a výpočet citlivosti bez parametrů bez mezer. Algoritmy pro molekulární biologii. 12 (1): 1. doi:10.1186 / s13015-017-0092-1. PMC 5310094. PMID 28289437.
- ^ A b Noé L, Martin DE (prosinec 2014). "Kritérium pokrytí pro rozložená semena a jeho aplikace na podporu vektorových jader jádra strojů a vzdáleností k-mer". Journal of Computational Biology. 21 (12): 947–63. arXiv:1412.2587. Bibcode:2014arXiv1412.2587N. doi:10.1089 / cmb.2014.0173. PMC 4253314. PMID 25393923.
- ^ Gusfield D (1997). Algoritmy na řetězcích, stromech a sekvencích: informatika a výpočetní biologie (Přetištěno (s kor.) Vyd.). Cambridge [u.a.]: Cambridge Univ. Lis. ISBN 9780521585194.
- ^ Ulitsky I, Burstein D, Tuller T, Chor B (březen 2006). "Průměrný společný přístup k fylogenomické rekonstrukci dílčích řetězců". Journal of Computational Biology. 13 (2): 336–50. CiteSeerX 10.1.1.106.5122. doi:10.1089 / cmb.2006.13.336. PMID 16597244.
- ^ Weiner P (1973). Msgstr "Algoritmy lineárního porovnávání vzorů". 14. výroční sympozium o teorii přepínání a automatů (SWAT 1973). s. 1–11. CiteSeerX 10.1.1.474.9582. doi:10.1109 / SWAT.1973.13.
- ^ He D (2006). Použití stromu přípon k objevení složitých opakujících se vzorů v sekvencích DNA. Sborník z konference: ... Výroční mezinárodní konference IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Výroční konference. 1. str. 3474–7. doi:10.1109 / IEMBS.2006.260445. ISBN 978-1-4244-0032-4. PMID 17945779. S2CID 5953866.
- ^ Välimäki N, Gerlach W, Dixit K, Mäkinen V (březen 2007). „Strom komprimovaných přípon - základ pro sekvenční analýzu v měřítku genomu“. Bioinformatika. 23 (5): 629–30. doi:10.1093 / bioinformatika / btl681. PMID 17237063.
- ^ A b C Leimeister CA, Morgenstern B (červenec 2014). „Kmacs: k-nesoulad průměrného společného podřetězcového přístupu k porovnání sekvencí bez zarovnání“. Bioinformatika. 30 (14): 2000–8. doi:10.1093 / bioinformatika / btu331. PMC 4080746. PMID 24828656.
- ^ Haubold B, Pfaffelhuber P, Domazet-Loso M, Wiehe T (říjen 2009). Msgstr "Odhad vzdáleností mutací od nezarovnaných genomů". Journal of Computational Biology. 16 (10): 1487–500. doi:10.1089 / cmb.2009.0106. PMID 19803738.
- ^ Morgenstern B, Schöbel S, Leimeister CA (2017). "k-neshoda běžných podřetězců". Algoritmy pro molekulární biologii. 12: 27. doi:10.1186 / s13015-017-0118-8. PMC 5724348. PMID 29238399.
- ^ Reinert G, Chew D, Sun F, Waterman MS (prosinec 2009). „Porovnání sekvence bez zarovnání (I): statistika a síla“. Journal of Computational Biology. 16 (12): 1615–34. doi:10.1089 / cmb.2009.0198. PMC 2818754. PMID 20001252.
- ^ Ondov BD, Treangen TJ, Melsted P, Mallonee AB, Bergman NH, Koren S, Phillippy AM (červen 2016). „Mash: rychlý odhad vzdálenosti genomu a metagenomu pomocí MinHash“. Genome Biology. 17 (1): 132. doi:10.1186 / s13059-016-0997-x. PMC 4915045. PMID 27323842.
- ^ Bromberg R, Grishin NV, Otwinowski Z (červen 2016). „Rekonstrukce fylogeneze metodou bez zarovnání, která koriguje horizontální přenos genů“. PLOS výpočetní biologie. 12 (6): e1004985. Bibcode:2016PLSCB..12E4985B. doi:10.1371 / journal.pcbi.1004985. PMC 4918981. PMID 27336403.
- ^ Röhling S, Linne A, Schellhorn J, Hosseini M, Dencker T, Morgenstern B (2020). „Počet shody k-mer mezi dvěma sekvencemi DNA jako funkce k a aplikace pro odhad fylogenetických vzdáleností“. PLOS ONE. 15 (2): e0228070. doi:10,1371 / journal.pone.0228070. PMC 7010260. PMID 32040534.
- ^ Sarmashghi S, Bohmann K, P Gilbert MT, Bafna V, Mirarab S (únor 2019). „Skmer: identifikace vzorku bez montáže a bez zarovnání pomocí sbírek genomu“. Genome Biology. 20 (1): 34. doi:10.1186 / s13059-019-1632-4. PMC 6374904. PMID 30760303.
- ^ A b Yi H, Jin L (duben 2013). „Co-phylog: fylogenomický přístup bez montáže pro blízce příbuzné organismy“. Výzkum nukleových kyselin. 41 (7): e75. doi:10.1093 / nar / gkt003. PMC 3627563. PMID 23335788.
- ^ Haubold B, Klötzl F, Pfaffelhuber P (duben 2015). „andi: rychlý a přesný odhad evolučních vzdáleností mezi blízce příbuznými genomy“. Bioinformatika. 31 (8): 1169–75. doi:10.1093 / bioinformatika / btu815. PMID 25504847.
- ^ A b Leimeister CA, Sohrabi-Jahromi S, Morgenstern B (duben 2017). „Rychlá a přesná rekonstrukce fylogeneze pomocí filtrovaných shod s mezerami“. Bioinformatika. 33 (7): 971–979. doi:10.1093 / bioinformatika / btw776. PMC 5409309. PMID 28073754.
- ^ Lau AK, Dörrer S, Leimeister CA, Bleidorn C, Morgenstern B (prosinec 2019). „Read-SpaM: Porovnání bakteriálních genomů s nízkým pokrytím sekvenování bez sestavení a bez uspořádání“. BMC bioinformatika. 20 (Suppl 20): 638. doi:10.1186 / s12859-019-3205-7. PMC 6916211. PMID 31842735.
- ^ A b Leimeister CA, Schellhorn J, Dörrer S, Gerth M, Bleidorn C, Morgenstern B (březen 2019). „Prot-SpaM: rychlá rekonstrukce fylogeneze bez zarovnání na základě sekvencí celého proteomu“. GigaScience. 8 (3): giy148. doi:10.1093 / gigascience / giy148. PMC 6436989. PMID 30535314.
- ^ Dencker T, Leimeister CA, Gerth M, Bleidorn C, Snir S, Morgenstern B (2020). „Multi-SpaM: přístup s maximální pravděpodobností k rekonstrukci fylogeneze pomocí více shody mezi slovy a stromů kvarteta“. NAR Genomika a bioinformatika. 2: lqz013. doi:10.1093 / nargab / lqz013.
- ^ Stamatakis A (listopad 2006). „RAxML-VI-HPC: fylogenetické analýzy založené na maximální věrohodnosti s tisíci taxonů a smíšenými modely“. Bioinformatika. 22 (21): 2688–90. doi:10.1093 / bioinformatika / btl446. PMID 16928733.
- ^ Vinga S (květen 2014). „Aplikace teorie informace pro biologickou sekvenční analýzu“. Briefings in Bioinformatics. 15 (3): 376–89. doi:10.1093 / bib / bbt068. PMC 7109941. PMID 24058049.
- ^ Liu Z, Meng J, Sun X (duben 2008). „Nová metoda založená na vlastnostech pro fylogenetickou analýzu celého genomu bez zarovnání: aplikace na genotypizaci a subtypizaci HEV“. Sdělení o biochemickém a biofyzikálním výzkumu. 368 (2): 223–30. doi:10.1016 / j.bbrc.2008.01.070. PMID 18230342.
- ^ Liu ZH, Sun X (2008). "Fylogeneze koronavirů založená na korelaci báze-báze". International Journal of Bioinformatics Research and Applications. 4 (2): 211–20. doi:10.1504 / ijbra.2008.018347. PMID 18490264.
- ^ Cheng J, Zeng X, Ren G, Liu Z (březen 2013). „CGAP: nová komplexní platforma pro srovnávací analýzu genomů chloroplastů“. BMC bioinformatika. 14: 95. doi:10.1186/1471-2105-14-95. PMC 3636126. PMID 23496817.
- ^ Gao Y, Luo L (leden 2012). „Fylogeneze dsDNA virů na základě genomu novou metodou bez zarovnání“. Gen. 492 (1): 309–14. doi:10.1016 / j.gene.2011.11.004. PMID 22100880.
- ^ Bennett, C.H., Gacs, P., Li, M., Vitanyi, P. a Zurek, W., Informační vzdálenost, IEEE Trans. Informovat. Theory, 44, 1407-1423
- ^ Li, M., Badger, J. H., Chen, X., Kwong, S., Kearney, P. andZhang, H., (2001) Informační sekvenční vzdálenost a její aplikace na fylogenezi celého mitochondriálního genomu. Bioinformatics, 17: (2001), 149-154
- ^ M. Li, X. Chen, X. Li, B. Ma, P.M.B. Vitanyi.The similarity metric, IEEE Trans. Informovat. Th., 50:12(2004),3250--3264
- ^ R.L. Cilibrasi and P.M.B. Vitanyi, Clustering by compression,IEEE Trans. Informat. Th., 51:4(2005), 1523--1545
- ^ Otu HH, Sayood K (November 2003). "A new sequence distance measure for phylogenetic tree construction". Bioinformatika. 19 (16): 2122–30. doi:10.1093/bioinformatics/btg295. PMID 14594718.
- ^ Pinho AJ, Garcia SP, Pratas D, Ferreira PJ (Nov 21, 2013). "DNA sequences at a glance". PLOS ONE. 8 (11): e79922. Bibcode:2013PLoSO...879922P. doi:10.1371/journal.pone.0079922. PMC 3836782. PMID 24278218.
- ^ Goldman N (May 1993). "Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representations of DNA sequences". Výzkum nukleových kyselin. 21 (10): 2487–91. doi:10.1093/nar/21.10.2487. PMC 309551. PMID 8506142.
- ^ Almeida JS, Carriço JA, Maretzek A, Noble PA, Fletcher M (May 2001). "Analysis of genomic sequences by Chaos Game Representation". Bioinformatika. 17 (5): 429–37. doi:10.1093/bioinformatics/17.5.429. PMID 11331237.
- ^ Almeida JS (May 2014). "Sequence analysis by iterated maps, a review". Briefings in Bioinformatics. 15 (3): 369–75. doi:10.1093/bib/bbt072. PMC 4017330. PMID 24162172.
- ^ A b Almeida JS, Grüneberg A, Maass W, Vinga S (May 2012). "Fractal MapReduce decomposition of sequence alignment". Algorithms for Molecular Biology. 7 (1): 12. doi:10.1186/1748-7188-7-12. PMC 3394223. PMID 22551205.
- ^ Vinga S, Carvalho AM, Francisco AP, Russo LM, Almeida JS (May 2012). "Pattern matching through Chaos Game Representation: bridging numerical and discrete data structures for biological sequence analysis". Algorithms for Molecular Biology. 7 (1): 10. doi:10.1186/1748-7188-7-10. PMC 3402988. PMID 22551152.
- ^ A b Pratas D, Silva RM, Pinho AJ, Ferreira PJ (May 2015). "An alignment-free method to find and visualise rearrangements between pairs of DNA sequences". Vědecké zprávy. 5 (10203): 10203. Bibcode:2015NatSR...510203P. doi:10.1038/srep10203. PMC 4434998. PMID 25984837.
- ^ A b Hosseini M, Pratas D, Morgenstern B, Pinho AJ (2020). "Smash++: an alignment-free and memory-efficient tool to find genomic rearrangements". GigaScience. 9 (5): giaa048. doi:10.1093/gigascience/giaa048. PMC 7238676. PMID 32432328.
- ^ Bernard G, Greenfield P, Ragan MA, Chan CX (Nov 20, 2018). "k-mer Similarity, Networks of Microbial Genomes, and Taxonomic Rank". mSystémy. 3 (6): e00257–18. doi:10.1128/mSystems.00257-18. PMC 6247013. PMID 30505941.
- ^ A b Song K, Ren J, Reinert G, Deng M, Waterman MS, Sun F (May 2014). "New developments of alignment-free sequence comparison: measures, statistics and next-generation sequencing". Briefings in Bioinformatics. 15 (3): 343–53. doi:10.1093/bib/bbt067. PMC 4017329. PMID 24064230.
- ^ Břinda K, Sykulski M, Kucherov G (November 2015). „Rozložená semena zlepšují metagenomickou klasifikaci založenou na k-mer“. Bioinformatika. 31 (22): 3584–92. arXiv:1502.06256. Bibcode:2015arXiv150206256B. doi:10.1093 / bioinformatika / btv419. PMID 26209798. S2CID 8626694.
- ^ Ounit R, Lonardi S (December 2016). "Higher classification sensitivity of short metagenomic reads with CLARK-S". Bioinformatika. 32 (24): 3823–3825. doi:10.1093/bioinformatics/btw542. PMID 27540266.
- ^ A b Pratas D, Pinho AJ, Silva RM, Rodrigues JM, Hosseini M, Caetano T, Ferreira PJ (February 2018). "FALCON: a method to infer metagenomic composition of ancient DNA". bioRxiv 10.1101/267179.
- ^ A b Wood DE, Salzberg SL (March 2014). "Kraken: ultrafast metagenomic sequence classification using exact alignments". Genome Biology. 15 (3): R46. doi:10.1186/gb-2014-15-3-r46. PMC 4053813. PMID 24580807.
- ^ Pinello L, Lo Bosco G, Yuan GC (May 2014). "Applications of alignment-free methods in epigenomics". Briefings in Bioinformatics. 15 (3): 419–30. doi:10.1093/bib/bbt078. PMC 4017331. PMID 24197932.
- ^ La Rosa M, Fiannaca A, Rizzo R, Urso A (2013). "Alignment-free analysis of barcode sequences by means of compression-based methods". BMC bioinformatika. 14 Suppl 7: S4. doi:10.1186/1471-2105-14-S7-S4. PMC 3633054. PMID 23815444.
- ^ A b Kolekar P, Hake N, Kale M, Kulkarni-Kale U (March 2014). "WNV Typer: a server for genotyping of West Nile viruses using an alignment-free method based on a return time distribution". Journal of Virological Methods. 198: 41–55. doi:10.1016/j.jviromet.2013.12.012. PMID 24388930.
- ^ A b Struck D, Lawyer G, Ternes AM, Schmit JC, Bercoff DP (October 2014). "COMET: adaptive context-based modeling for ultrafast HIV-1 subtype identification". Výzkum nukleových kyselin. 42 (18): e144. doi:10.1093/nar/gku739. PMC 4191385. PMID 25120265.
- ^ A b Dimitrov I, Naneva L, Doytchinova I, Bangov I (March 2014). "AllergenFP: allergenicity prediction by descriptor fingerprints". Bioinformatika. 30 (6): 846–51. doi:10.1093/bioinformatics/btt619. PMID 24167156.
- ^ A b Gardner SN, Hall BG (Dec 9, 2013). "When whole-genome alignments just won't work: kSNP v2 software for alignment-free SNP discovery and phylogenetics of hundreds of microbial genomes". PLOS ONE. 8 (12): e81760. Bibcode:2013PLoSO...881760G. doi:10.1371/journal.pone.0081760. PMC 3857212. PMID 24349125.
- ^ A b Haubold B, Krause L, Horn T, Pfaffelhuber P (December 2013). "An alignment-free test for recombination". Bioinformatika. 29 (24): 3121–7. doi:10.1093/bioinformatics/btt550. PMC 5994939. PMID 24064419.
- ^ Xu Z, Hao B (July 2009). "CVTree update: a newly designed phylogenetic study platform using composition vectors and whole genomes". Výzkum nukleových kyselin. 37 (Web Server issue): W174-8. doi:10.1093/nar/gkp278. PMC 2703908. PMID 19398429.
- ^ Cheng J, Cao F, Liu Z (May 2013). "AGP: a multimethods web server for alignment-free genome phylogeny". Molekulární biologie a evoluce. 30 (5): 1032–7. doi:10.1093/molbev/mst021. PMID 23389766.
- ^ Höhl M, Rigoutsos I, Ragan MA (February 2007). "Pattern-based phylogenetic distance estimation and tree reconstruction". Evoluční bioinformatika online. 2: 359–75. arXiv:q-bio/0605002. Bibcode:2006q.bio.....5002H. PMC 2674673. PMID 19455227.
- ^ Wang Y, Liu L, Chen L, Chen T, Sun F (Jan 2, 2014). "Comparison of metatranscriptomic samples based on k-tuple frequencies". PLOS ONE. 9 (1): e84348. Bibcode:2014PLoSO...984348W. doi:10.1371/journal.pone.0084348. PMC 3879298. PMID 24392128.
- ^ "CLC Microbial Genomics Module". QIAGEN Bioinformatics. 2019.
- ^ Pratas, Diogo; Silva, Jorge (2020). "Persistent minimal sequences of SARS-CoV-2". Bioinformatika. doi:10.1093/bioinformatics/btaa686. PMID 32730589.