Varianta formátu volání - Variant Call Format
Vyvinul | VCFtools |
---|---|
Typ formátu | Bioinformatika |
Rozšířeno z | Hodnoty oddělené tabulátorem |
Otevřený formát ? | Ano |
webová stránka | github |
The Varianta formátu volání (VCF) určuje formát textového souboru použitého v bioinformatika pro skladování genová sekvence variace. Formát byl vyvinut s příchodem velkého měřítka genotypizace a Sekvenování DNA projekty, jako je Projekt 1000 genomů. Stávající formáty pro genetická data, jako např Obecný formát funkcí (GFF) uloženy všechny genetické údaje, z nichž většina je nadbytečná, protože budou sdílena napříč genomy. Při použití alternativního formátu volání je nutné uložit pouze variace společně s referenčním genomem.
Standard je aktuálně ve verzi 4.3,[1][2] Ačkoliv Projekt 1000 genomů vyvinula vlastní specifikaci pro strukturální varianty, jako jsou duplikace, které nelze snadno začlenit do stávajícího schématu.[3] Je tam také Genomická VCF (gVCF) rozšířený formát, který obsahuje další informace o „blocích“, které odpovídají odkazu a jejich kvalitám.[4] K dispozici je také sada nástrojů pro úpravy a manipulaci se soubory.[5] [6]
Příklad
## fileformat = VCFv4.3 ## fileDate = 20090805 ## source = myImputationProgramV3.1 ## reference = file: ///seq/references/1000GenomesPilot-NCBI36.fasta##contig=## phasing = částečné ## INFO = ## INFO = ## INFO = # # INFO = ## INFO = ## INFO = ## FILTER = ## FILTER = ## FORMAT = ## FORMAT = ## FORMAT = ## FORMAT = # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA0000320 14370 rs6054257 GA 29 PASS NS = 3; DP = 14; AF = 0,5; DB; H2 GT: GQ: DP: HQ 0 | 0: 48: 1: 51,51 1 | 0: 48: 8: 51,51 1/1: 43: 5:.,. 20 17330. TA 3 q10 NS = 3; DP = 11; AF = 0,017 GT: GQ: DP: HQ 0 | 0: 49: 3: 58,50 0 | 1: 3: 5: 65,3 0/0: 41: 320 1110696 rs6040355 AG, T 67 PASS NS = 2; DP = 10; AF = 0,333,0,667; AA = T; DB GT: GQ: DP: HQ 1 | 2: 21: 6: 23,27 2 | 1: 2: 0: 18,2 2/2: 35: 420 1230237. T. 47 PASS NS = 3; DP = 13; AA = T GT: GQ: DP: HQ 0 | 0: 54: 7: 56,60 0 | 0: 48: 4: 51,51 0/0: 61: 220 1234567 microsat1 GTC G, GTCT 50 PASS NS = 3; DP = 9; AA = G GT: GQ: DP 0/1: 35: 4 0/2: 17: 2 1/1: 40: 3
Záhlaví VCF
Záhlaví začíná soubor a poskytuje metadata popisující tělo souboru. Řádky záhlaví jsou označeny jako začínající na #. Speciální klíčová slova v záhlaví jsou označena ##. Doporučená klíčová slova zahrnují formát souboru, fileDate a odkaz.
Záhlaví obsahuje klíčová slova, která volitelně sémanticky a syntakticky popisují pole použitá v těle souboru, zejména INFO, FILTER a FORMÁT (viz níže).
Sloupce VCF
Tělo VCF sleduje záhlaví a je rozděleno na kartu do 8 povinných sloupců a neomezeného počtu volitelných sloupců, které lze použít k záznamu dalších informací o vzorcích. Když se použijí další sloupce, první volitelný sloupec se použije k popisu formátu dat ve sloupcích, které následují.
název | Stručný popis (podrobnosti viz specifikace). | |
---|---|---|
1 | CHROM | Název sekvence (obvykle chromozomu), na kterou se variace volá. Tato sekvence je obvykle známá jako „referenční sekvence“, tj. Sekvence, proti které se daný vzorek liší. |
2 | POS | Pozice variace na dané posloupnosti založená na 1. |
3 | ID | Identifikátor variace, např. A dbSNP rs identifikátor, nebo pokud není znám, "." Více identifikátorů by mělo být odděleno středníkem bez mezer. |
4 | REF | Referenční základna (nebo základny v případě indel ) na dané pozici v dané referenční sekvenci. |
5 | ALT | Seznam alternativ alely v této poloze. |
6 | KVALITNÍ | Skóre kvality spojené s odvozením daných alel. |
7 | FILTR | Příznak označující, které z dané sady filtrů variace prošla. |
8 | INFO | Rozšiřitelný seznam párů klíč – hodnota (pole) popisujících variantu. Níže uvádíme některá běžná pole. Více polí je odděleno středníky s volitelnými hodnotami ve formátu: . |
9 | FORMÁT | (Volitelný) rozšiřitelný seznam polí pro popis vzorků. Níže uvádíme některá běžná pole. |
+ | Vzorky | Pro každý (volitelný) vzorek popsaný v souboru jsou uvedeny hodnoty pro pole uvedená ve FORMÁTU |
Běžná INFO pole
Libovolné klíče jsou povoleny, ačkoli následující dílčí pole jsou vyhrazena (i když volitelná)[1]:
název | Stručný popis |
---|---|
AA | alela předků |
AC | počet alel v genotypech, pro každou alelu ALT, ve stejném pořadí, jak je uvedeno |
AF | frekvence alel pro každou alelu ALT ve stejném pořadí, v jakém je uvedeno (použijte tuto hodnotu, pokud je odhadována z primárních údajů, není nazývána genotypy) |
AN | celkový počet alel v tzv. genotypech |
BQ | Základní kvalita RMS na této pozici |
DOUTNÍK | řetězec doutníku popisující, jak zarovnat alternativní alelu s referenční alelou |
DB | dbSNP členství |
DP | kombinovaná hloubka napříč vzorky, např. DP = 154 |
KONEC | koncová poloha varianty popsané v tomto záznamu (pro použití se symbolickými alelami) |
H2 | členství v hapmap2 |
H3 | členství v hapmap3 |
MQ | Kvalita mapování RMS, např. MQ = 52 |
MQ0 | Počet MAPQ == 0 čtení pokrývající tento záznam |
NS | Počet vzorků s daty |
SB | předpětí vlákna v této poloze |
SOMATICKÉ | naznačuje, že záznam je pro genomiku rakoviny somatickou mutací |
POTVRZENO | ověřeno následným experimentem |
1000G | členství v 1000 genomech |
Společná pole FORMAT
název | Stručný popis |
---|---|
INZERÁT | Přečtěte si hloubku pro každou alelu |
ADF | Odečtěte hloubku pro každou alelu na předním řetězci |
ADR | Odečtěte hloubku pro každou alelu na opačném řetězci |
DP | Číst hloubku |
ES | Očekávané alternativní počty alel |
FT | Filtr označující, zda byl tento genotyp „nazýván“ |
GL | Genotypové pravděpodobnosti |
GP | Podmíněná kvalita genotypu |
GQ | Podmíněná kvalita genotypu |
GT | Genotyp |
HQ | Kvalita haplotypu |
MQ | Kvalita mapování RMS |
PL | Pravděpodobnosti genotypu v měřítku se zaokrouhlením na nejbližší celé číslo |
PQ | Kvalita fázování |
PS | Fázová sada |
Viz také
- The FASTA formát používaný k reprezentaci genomových sekvencí.
- The FASTQ formát, který se používá k reprezentaci čtení sekvenceru DNA a skóre kvality.
- The SAM formát, který se používá k reprezentaci čtení sekvencí genomu, které byly srovnány se sekvencemi genomu.
- The GVF format (Genome Variation Format), rozšíření založené na GFF3 formát.
Specifikace VCF již není udržována projektem 1000 genomů. Skupina, která vede správu a rozšiřování formátu, je Globální aliance pro genomiku a zdraví (GA4GH) Tým formátu Genomics Work Stream ve velkém měřítku[7], http://ga4gh.org/#/fileformats-team
externí odkazy
- Vysvětlení formátu ve formě obrázku
- Ossola, Alexandra (20. března 2015). „Závod o vytvoření vyhledávače pro vaši DNA“. IEEE Spectrum. Citováno 22. března 2015.
Reference
- ^ A b "Specifikace VCF" (PDF). Citováno 20. října 2016.
- ^ „Specifikace SAM / BAM a související vysokorychlostní formáty sekvenčních souborů“. Citováno 24. června 2014.
- ^ „Kódování strukturálních variant ve formátu VCF (Variant Call Format) verze 4.0 | 1000 genomů“. Citováno 20. října 2016.
- ^ „GVCF - formát volání genomické varianty“. GATK. Široký institut.
- ^ „VCFtools from Github.io“. Citováno 20. října 2016.
- ^ „BCFtools“.
- ^ „Svět bio-IT“. www.bio-itworld.com. Citováno 2018-10-26.