Komprese genomických sekvenčních dat - Compression of Genomic Sequencing Data - Wikipedia
Vysoce výkonné sekvenování technologie vedly k dramatickému poklesu nákladů na sekvenování genomu a k neuvěřitelně rychlé akumulaci genomových dat. Tyto technologie umožňují ambiciózní snahy o sekvenování genomu, jako je Projekt 1000 genomů a 1001 (Arabidopsis thaliana) Projekt Genomes. Ukládání a přenos obrovského množství genomických dat se staly hlavním problémem, který motivoval k vývoji vysoce výkonných kompresních nástrojů určených speciálně pro genomová data. Nedávný nárůst zájmu o vývoj nových algoritmů a nástrojů pro ukládání a správu dat pro genomové opětovné sekvenování zdůrazňuje rostoucí poptávku po účinných metodách komprese genomických dat.
Obecné pojmy
Zatímco ke kompresi sekvenčních dat se používají standardní nástroje pro kompresi dat (např. Zip a rar) (např. GenBank ploché soubory ), tento přístup byl kritizován jako extravagantní, protože genomové sekvence často obsahují opakující se obsah (např. mikrosatelitní sekvence ) nebo mnoho sekvencí vykazuje vysokou úroveň podobnosti (např. více sekvencí genomu od stejného druhu). Kromě toho mohou být statistické a teoreticko-informační vlastnosti genomových sekvencí potenciálně využity pro kompresi sekvenčních dat.[1][2][3]

Základní varianty
S dostupností referenční šablony je třeba zaznamenávat pouze rozdíly (např. Substituce jednoho nukleotidu a inzerce / delece), což výrazně snižuje množství informací, které mají být uloženy. Pojem relativní komprese je zřejmý zejména u projektů přeskupování genomu, kde je cílem objevit variace v jednotlivých genomech. Použití referenčního polymorfismu jednoho nukleotidu (SNP ) mapa, například dbSNP, lze použít k dalšímu zlepšení počtu variant pro ukládání.[4]
Relativní genomové souřadnice
Dalším užitečným nápadem je uložení relativních genomových souřadnic namísto absolutních souřadnic.[4] Například reprezentace bází variant sekvencí ve formátu „Position1Base1Position2Base2…„,„ 123C125T130G “lze zkrátit na„ 0C2T5G “, kde celá čísla představují intervaly mezi variantami. Cena je skromný aritmetický výpočet potřebný k získání absolutních souřadnic plus uložení korekčního faktoru (v tomto příkladu „123“).
Předchozí informace o genomech
Další redukce může být dosažena, pokud jsou předem známy všechny možné polohy substitucí ve skupině sekvencí genomu.[4] Pokud jsou například známa všechna umístění SNP v lidské populaci, není třeba zaznamenávat informace o variantních souřadnicích (např. „123C125T130G“ lze zkrátit na „CTG“). Tento přístup je však zřídka vhodný, protože takové informace jsou obvykle neúplné nebo nedostupné.
Kódování genomových souřadnic
Kódování schémata se používají k převodu celých čísel souřadnic do binární formy, aby se zajistily další zisky komprese. Kódování vzorů, například Golombův kód a Huffmanův kód, byly začleněny do nástrojů pro kompresi genomických dat.[5][6][7][8][9][10] Schémata kódování samozřejmě zahrnují doprovodné dekódovací algoritmy. Volba dekódovacího schématu potenciálně ovlivňuje účinnost načítání sekvenčních informací.
Možnosti návrhu algoritmu
Univerzální přístup ke kompresi genomových dat nemusí být nutně optimální, protože konkrétní metoda může být vhodnější pro konkrétní účely a cíle. Pro zvážení tedy může být důležitých několik možností návrhu, které potenciálně ovlivňují výkon komprese.
Referenční sekvence
Výběr referenční sekvence pro relativní kompresi může ovlivnit výkon komprese. Volba konsensuální referenční sekvence nad konkrétnější referenční sekvencí (např. Revidovaná Cambridge Referenční sekvence ) může mít za následek vyšší kompresní poměr, protože konsensuální reference může obsahovat menší zkreslení jejích dat.[4] Znalosti o zdroji komprimované sekvence však mohou být využity k dosažení větších přírůstků komprese. Byla navržena myšlenka použití více referenčních sekvencí.[4] Brandon a kol. (2009)[4] zmiňoval potenciální použití šablon referenčních sekvencí specifických pro etnické skupiny pomocí komprese mitochondriální DNA variantní data jako příklad (viz obrázek 2). Autoři zjistili, že v USA je zaujaté rozdělení haplotypu mitochondriální DNA sekvence Afričanů, Asiatů a Eurasijců ve srovnání s revidovanými Cambridge Referenční sekvence. Jejich výsledek naznačuje, že revidovaný Cambridge Referenční sekvence nemusí být vždy optimální, protože je třeba uložit větší počet variant, pokud se použije proti údajům od etnicky vzdálených jedinců. Na základě statistických vlastností lze navíc navrhnout referenční sekvenci [1][4] nebo inženýrství [11][12] ke zlepšení kompresního poměru.
Schémata kódování
Bylo prozkoumáno použití různých typů kódovacích schémat pro kódování variantních bází a genomových souřadnic.[4] Opravené kódy, například Golombův kód a Rýžový kód, jsou vhodné, když je dobře definováno rozdělení varianty nebo souřadnice (reprezentované jako celé číslo). Kódy proměnných, například Huffmanův kód, poskytnout obecnější schéma kódování entropie, pokud podkladová varianta a / nebo distribuce souřadnic není přesně definována (to je typicky případ v datech genomové sekvence).
Seznam nástrojů pro komprimaci dat pro genomové přepracování
Kompresní poměr aktuálně dostupných nástrojů pro kompresi genomických dat se u lidských genomů pohybuje mezi 65násobkem a 1200násobkem.[4][5][6][7][8][9][10][13] Velmi blízké varianty nebo revize stejného genomu lze velmi efektivně komprimovat (například bylo hlášeno 18133 kompresního poměru [6] pro dvě revize stejného genomu A. thaliana, které jsou identické z 99,999%). Taková komprese však nenaznačuje typický kompresní poměr pro různé genomy (jednotlivce) stejného organismu. Nejběžnější schéma kódování mezi těmito nástroji je Huffmanovo kódování, který se používá pro bezztrátová komprese dat.
Software | Popis | Kompresní poměr | Data použitá pro vyhodnocení | Schéma přístupu / kódování | Odkaz | Použít licenci | Odkaz |
---|---|---|---|---|---|---|---|
Genomic Squeeze (G-SQZ) | Bezztrátový kompresní nástroj určený k ukládání a analýze sekvenčních načtených dat | 65% až 76% | Sekvence lidského genomu z projektu 1000 genomů | Huffmanovo kódování | http://public.tgen.org/sqz | -Neklamováno- | [8] |
NACPAT (část SAMtools ) | Vysoce efektivní a laditelná komprese sekvenčních dat založená na referencích | [14] | Evropský archiv nukleotidů | vyfouknout a RANS | http://www.ebi.ac.uk/ena/software/cram-toolkit | Apache-2.0 | [15] |
Genome Compressor (GeCo) | Nástroj využívající směs několika modelů Markov pro kompresi referenčních a referenčních sekvencí | Sekvence lidského jaderného genomu | Aritmetické kódování | http://bioinformatics.ua.pt/software/geco/ nebo https://pratas.github.io/geco/ | GPLv3 | [13] | |
PetaSuite | Bezztrátový kompresní nástroj pro soubory BAM a FASTQ | 60% až 90% | Sekvence lidského genomu z projektu 1000 genomů | https://www.petagene.com | Komerční | [16] | |
Kodeky GenomSys | Bezztrátová komprese souborů BAM a FASTQ do standardního formátu ISO / IEC 23092[17] (MPEG-G) | 60% až 90% | Sekvence lidského genomu z projektu 1000 genomů | Kontextově adaptivní binární aritmetické kódování (CABAC) | https://www.genomsys.com | Komerční | [18] |
Džin | Překódování mezi formáty FASTA, FASTQ a SAM / BAM a ISO / IEC 23092 [19] formát (MPEG-G) | [Ve vývoji] | [Ve vývoji] | Kontextově adaptivní binární aritmetické kódování (CABAC) | https://github.com/mitogen/genie | BSD | [20] |
Software | Popis | Kompresní poměr | Data použitá pro vyhodnocení | Schéma přístupu / kódování | Odkaz | Použít licenci | Odkaz |
---|---|---|---|---|---|---|---|
Genome Differential Compressor (GDC) | Nástroj ve stylu LZ77 pro kompresi více genomů stejného druhu | 180 až 250krát / 70 až 100krát | Sekvence jaderného genomu člověka a Saccharomyces cerevisiae | Huffmanovo kódování | http://sun.aei.polsl.pl/gdc | GPLv2 | [5] |
Sekvenování genomu (GRS) | Nástroj založený na referenční sekvenci nezávislý na referenční mapě SNP nebo informacích o variaci sekvence | 159krát / 18133krát / 82krát | Sekvence nukleárního genomu člověka, Arabidopsis thaliana (různé revize stejného genomu) a Oryza sativa | Huffmanovo kódování | https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ | zdarma pro nekomerční použití | [6] |
Kódování opětovného sekvenování genomu (GReEN) | Pravděpodobný kopírovací model založený na nástroji pro kompresi dat opakovaného řazení pomocí referenční sekvence | ~ 100krát | Sekvence lidského jaderného genomu | Aritmetické kódování | http://bioinformatics.ua.pt/software/green/ | -Neklamováno- | [7] |
DNAzip | Balíček kompresních nástrojů | ~ 750krát | Sekvence lidského jaderného genomu | Huffmanovo kódování | http://www.ics.uci.edu/~dnazip/ | -Neklamováno- | [9] |
GenomeZip | Komprese s ohledem na referenční genom. Volitelně používá externí databáze genomových variací (např. DbSNP) | ~ 1200krát | Sekvence lidského jaderného genomu (Watson) a sekvence z projektu 1000 genomů | Entropické kódování pro aproximace empirických distribucí | https://sourceforge.net/projects/genomezip/ | -Neklamováno- | [10] |
Reference
- ^ A b Giancarlo, R., D. Scaturro a F. Utro. 2009. Komprese textových dat ve výpočetní biologii: přehled. Bioinformatika 25(13): 1575-1586.
- ^ Nalbantoglu, Ö. U., D. J. Russell a K. Sayood. 2010. Pojmy a algoritmy komprese dat a jejich aplikace v bioinformatice. Entropie 12(1): 34-52.
- ^ Hosseini, D., Pratas a A. Pinho. 2016. Průzkum metod komprese dat pro biologické sekvence. Informace 7(4):(2016): 56
- ^ A b C d E F G h i Brandon, M. C., D. C. Wallace a P. Baldi. 2009. Datové struktury a kompresní algoritmy pro data genomové sekvence. Bioinformatika 25(14): 1731–1738.
- ^ A b C Deorowicz, S. a S. Grabowski. 2011. Robustní relativní komprese genomů s náhodný přístup. Bioinformatika 27(21): 2979-2986.
- ^ A b C d Wang, C. a D. Zhang. 2011. Nový kompresní nástroj pro efektivní ukládání dat pro změnu pořadí genomu. Nucleic Acids Res 39(7): e45.
- ^ A b C Pinho, A. J., D. Pratas a S. P. Garcia. 2012. GReEn: nástroj pro efektivní kompresi dat pro změnu pořadí genomu. Nucleic Acids Res 40(4): e27.
- ^ A b C Tembe, W., J. Lowey a E. Suh. 2010. G-SQZ: Kompaktní kódování genomové sekvence a údajů o kvalitě. Bioinformatika 26(17): 2192-2194.
- ^ A b C Christley, S., Y. Lu, C. Li a X. Xie. 2009. Lidská genomika jako přílohy e-mailů. Bioinformatika 25(2): 274-275.
- ^ A b C Pavlichin, D.S., Weissman, T. a G. Yona. 2013. Lidský genom se opět smršťuje. Bioinformatika 29(17): 2199-2202.
- ^ Kuruppu, S., S. J. Puglisi a J. Zobel. 2011. Konstrukce referenční sekvence pro relativní kompresi genomů. Přednášky z informatiky 7024: 420-425.
- ^ Grabowski, S. a S. Deorowicz. 2011. Inženýrská relativní komprese genů. Ve sborníku VR.
- ^ A b Pratas, D., Pinho, A. J. a Ferreira, P. J. S. G. Efektivní komprese genomových sekvencí. Konference o kompresi dat, Snowbird, Utah, 2016.
- ^ CRAM benchmarking
- ^ Specifikace formátu CRAM (verze 3.0)
- ^ „Důležitost komprese dat v oblasti genomiky“. pulse.embs.org. Citováno 2019-12-17.
- ^ „ISO / IEC 23092-2: 2019 Informační technologie - Reprezentace genomických informací - Část 2: Kódování genomových informací“. iso.org.
- ^ „Úvod do MPEG-G, nového standardu ISO pro reprezentaci genomických informací“.
- ^ „ISO / IEC 23092-2: 2019 Informační technologie - Reprezentace genomických informací - Část 2: Kódování genomových informací“. iso.org.
- ^ „Úvod do MPEG-G, nového standardu ISO pro reprezentaci genomických informací“.