SAM (formát souboru) - SAM (file format)
Vyvinul |
|
---|---|
Typ formátu | Bioinformatika |
Rozšířeno z | Hodnoty oddělené tabulátorem |
webová stránka | samtools |
Sequence Alignment Map (SAM) je textový formát původně pro uložení biologické sekvence zarovnány do a referenční sekvence vyvinutý uživatelem Heng Li a Bob Handsaker et al.[1] Je široce používán pro ukládání dat, jako je nukleotid sekvence, generované sekvenování nové generace technologie a standard byl rozšířen o nezmapované sekvence.[2] Formát podporuje krátká a dlouhá čtení (až 128 Mbp) produkovaná různými platformami pro sekvenování a slouží k uchování mapovaných dat v Sada nástrojů pro analýzu genomu (GATK) a přes Široký institut, Wellcome Sanger Institute a po celém světě Projekt 1000 genomů.
Formát
Formát SAM se skládá z hlavičky a sekce zarovnání.[1] Binární ekvivalent souboru SAM je a Mapa binárního zarovnání (BAM) soubor, který ukládá stejná data v komprimované binární reprezentaci.[3] Soubory SAM lze analyzovat a upravovat pomocí softwaru SAMtools.[1] Část záhlaví musí být před částí zarovnání, pokud je k dispozici. Nadpisy začínají symbolem „@“, který je odlišuje od sekce zarovnání. Sekce pro zarovnání mají 11 povinných polí a variabilní počet volitelných polí.[1]
Plk | Pole | Typ | Stručný popis |
---|---|---|---|
1 | QNAME | Tětiva | Šablona dotazu NAME |
2 | VLAJKA | Int | bitová VLAJKA |
3 | RNAME | Tětiva | Posloupnost odkazů JMÉNO |
4 | POS | Int | 1 - POSITION mapování zcela vlevo |
5 | MAPQ | Int | Kvalita mapování |
6 | DOUTNÍK | Tětiva | Řetězec CIGAR |
7 | RNEXT | Tětiva | Čj. jméno partnera / další čtení |
8 | PNEXT | Int | Pozice kamaráda / další čtení |
9 | TLEN | Int | sledovaná délka šablony |
10 | SEKV | Tětiva | segment SEQuence |
11 | KVALITNÍ | Tětiva | ASCII základny se stupnicí Phred QUALity + 33 |
Popis
Ze specifikace:[3]
- QNAME: Dotaz na šablonu JMÉNO. Čtení / segmenty se stejným QNAME se považují za čtení ze stejné šablony. Název QNAME „*“ označuje, že informace nejsou k dispozici. V souboru SAM může čtení zabírat více řádků zarovnání, když je jeho zarovnání chimérické nebo když je dáno více mapování.
- VLAJKA: Kombinace bitových VLAJKŮ[4]
- RNAME: Referenční sekvence NÁZEV zarovnání. Pokud jsou k dispozici řádky záhlaví @SQ, musí být v jedné ze značek SQ-SN přítomen RNAME (pokud ne „*“). Nezmapovaný segment bez souřadnice má v tomto poli znak „*“. Nezmapovaný segment však může mít také běžnou souřadnici, takže jej lze po seřazení umístit na požadované místo. Pokud je název RNAME „*“, nelze o POS a CIGAR dělat žádné předpoklady.
- POS: Poloha mapování nalevo od první odpovídající základny na základě 1. První základna v referenční sekvenci má souřadnice 1. POS je nastaven na 0 pro nezmapované čtení bez souřadnice. Pokud je POS 0, nelze o RNAME a CIGAR dělat žádné předpoklady.
- MAPQ: Kvalita mapování. Rovná se −10 log10 Pr {mapovací pozice je špatná}, zaokrouhleno na nejbližší celé číslo. Hodnota 255 označuje, že kvalita mapování není k dispozici.
- CIGAR: Stručný idiosynkratický řetězec sestavy zarovnání (CIGAR).
- RNEXT: Název referenční sekvence primárního zarovnání NEXT načteného v šabloně. U posledního čtení je další čtení prvním čtením v šabloně. Pokud jsou k dispozici řádky záhlaví @SQ, musí být v jedné ze značek SQ-SN přítomen RNEXT (pokud ne „*“ nebo „=“). Toto pole je nastaveno jako „*“, když informace nejsou k dispozici, a nastaveno jako „=“, pokud je RNEXT identický RNAME. Pokud není „=“ a další čtení v šabloně má jedno primární mapování (viz také bit 0x100 ve FLAG), je toto pole identické s RNAME na primárním řádku následujícího čtení. Pokud je RNEXT „*“, nelze učinit žádné předpoklady pro PNEXT a bit 0x20.
- PNEXT: Poloha primárního zarovnání NEXT načteného v šabloně. Nastavit jako 0, když informace nejsou k dispozici. Toto pole se rovná POS na primárním řádku dalšího čtení. Pokud je PNEXT 0, nelze u RNEXT a bitu 0x20 dělat žádné předpoklady.
- TLEN: podepsaná pozorovaná délka šablony. Pokud jsou všechny segmenty mapovány na stejnou referenci, délka nepodepsané pozorované šablony se rovná počtu bází od mapované základny zcela vlevo k mapované základně úplně vpravo. Levý segment má znaménko plus a pravý kraj má znaménko minus. Znaménko segmentů uprostřed není definováno. Je nastavena na 0 pro šablonu s jedním segmentem nebo když jsou informace nedostupné.
- SEQ: SEQuence segmentu. Toto pole může být „*“, pokud není sekvence uložena. Pokud nejde o „*“, musí se délka sekvence rovnat součtu délek operací M / I / S / = / X v CIGAR. Znak „=“ označuje, že báze je identická s referenční bází. U písmenných případů nelze činit žádné předpoklady.
- QUAL: ASCII základní QUALity plus 33 (stejné jako řetězec kvality v Sangeru Formát FASTQ ). Základní kvalita je phred-scale měřítku pravděpodobnost chyby, která se rovná −10 log10 Pr {base is wrong}. Toto pole může být „*“, pokud není uložena kvalita. Pokud nejde o „*“, nesmí být SEQ „*“ a délka řetězce kvality by se měla rovnat délce SEQ.
Bitové příznaky
Pole FLAG je zobrazeno jako jedno celé číslo, ale je součtem bitových příznaků označujících více atributů zarovnání čtení[3]. Každý atribut označuje jeden bit v binární reprezentaci celého čísla.
Celé číslo | Binární | Popis (párová interpretace čtení) |
---|---|---|
1 | 000000000001 | šablona s více šablonami v sekvenování (čtení je spárováno) |
2 | 000000000010 | každý segment správně zarovnaný podle zarovnávače (čtení mapováno ve správné dvojici) |
4 | 000000000100 | segment nezmapován (čtení 1 nezmapováno) |
8 | 000000001000 | další segment v šabloně nezmapován (read2 unmapped) |
16 | 000000010000 | SEQ je reverzní komplementární (čtení 1 reverzní komplementární) |
32 | 000000100000 | SEQ dalšího segmentu v šabloně, která je reverzně komplementována (read2 reverzně komplementována) |
64 | 000001000000 | první segment v šabloně (je read1) |
128 | 000010000000 | poslední segment v šabloně (je read2) |
256 | 000100000000 | není primární zarovnání |
512 | 001000000000 | zarovnání selže při kontrole kvality |
1024 | 010000000000 | PCR nebo optický duplikát |
2048 | 100000000000 | doplňkové zarovnání (např. specifické pro zarovnávač, může to být část rozděleného čtení nebo vázaná oblast) |
Atributy FLAG se sečtou, aby se získala konečná hodnota, např. řádek SAM vyplývající ze záznamu FASTQ spárovaného konce Illumina, který má hodnotu FLAG 2145, by označoval:
Hodnota příznaku | Význam | Součet vlajky |
---|---|---|
1 | čtení je spárováno | 1 |
32 | read2 byl reverzně doplňován | 33 |
64 | read1 | 97 |
2048 | Doplňkové vyrovnání | 2145 |
Nepovinná pole
Ze specifikace:[3]
The typ může být jedním z A (charakter), B (obecné pole), F (reálné číslo), H (hexadecimální pole), i (celé číslo) nebo Z (tětiva).
Štítek | Typ | Popis |
---|---|---|
DOPOLEDNE | i | Nejmenší kvalita mapování nezávislá na šabloně v šabloně |
TAK JAKO | i | Skóre zarovnání generované vyrovnávacím zařízením |
před naším letopočtem | Z | Pořadí čárových kódů identifikujících vzorek |
BQ | Z | Kvalita vyrovnání základny (BAQ) |
B Z | Z | Phred kvalita jedinečných molekulárních základen čárových kódů ve značce OX |
CB | Z | Identifikátor buňky |
CC | Z | Referenční název dalšího požadavku |
CG | BI | Pouze BAM: CIGAR v binárním kódování BAM, pokud (a pouze pokud) sestává z> 65535 operátorů |
CM | i | Upravte vzdálenost mezi barevnou sekvencí a barevnou referencí (viz také NM) |
CO | Z | Komentáře bez textu |
CP | i | Souřadnice vlevo od dalšího zásahu |
CQ | Z | Kvalitní základní barvy pro čtení |
ČR | Z | Základny sekvence celulárních čárových kódů (nekorigované) |
CS | Z | Sekvence barevného čtení |
CT | Z | Kompletní značka pro čtení anotace, která se používá pro fiktivní funkce konsensuální anotace |
CY | Z | Phred kvalita sekvence buněčných čárových kódů ve značce CR |
E2 | Z | Druhá nejpravděpodobnější základna volá |
FI | i | Index segmentu v šabloně |
FS | Z | Přípona segmentu |
FZ | B, S | Intenzity signálu toku |
GC | ? | Vyhrazeno z důvodu zpětné kompatibility |
GQ | ? | Vyhrazeno z důvodu zpětné kompatibility |
GS | ? | Vyhrazeno z důvodu zpětné kompatibility |
H0 | i | Počet perfektních zásahů |
H1 | i | Počet 1-rozdílových zásahů (viz také NM) |
H2 | i | Počet 2-rozdílových zásahů |
AHOJ | i | Index požadavků na dotaz |
IH | i | Celkový počet požadavků na server |
LB | Z | Knihovna |
MC | Z | Řetězec CIGAR pro partnera / další segment |
MD | Z | Řetězec pro nesoulad pozic |
MF | ? | Vyhrazeno z důvodu zpětné kompatibility |
MI | Z | Molekulární identifikátor; řetězec, který jednoznačně identifikuje molekulu, ze které byl záznam odvozen |
MQ | i | Mapování kvality vazby / dalšího segmentu |
NH | i | Počet nahlášených zarovnání, která obsahují dotaz v aktuálním záznamu |
NM | i | Upravte vzdálenost k referenci |
OA | Z | Původní zarovnání |
OC | Z | Původní CIGAR (zastaralé; místo toho použít OA) |
OP | i | Původní pozice mapování (zastaralé; místo toho použít OA) |
OQ | Z | Originální základní kvalita |
VŮL | Z | Originální jedinečné základny čárových kódů |
PG | Z | Program |
PQ | i | Phred pravděpodobnost šablony |
PT | Z | Přečtěte si poznámky k částem polstrované čtecí sekvence |
PU | Z | Jednotka plošiny |
Q2 | Z | Phred kvalita sekvence vazby / dalšího segmentu ve značce R2 |
QT | Z | Phred kvalita vzorové sekvence čárových kódů ve značce BC |
QX | Z | Skóre kvality jedinečného molekulárního identifikátoru ve značce RX |
R2 | Z | Pořadí vazby / dalšího segmentu v šabloně |
RG | Z | Číst skupinu |
RT | ? | Vyhrazeno z důvodu zpětné kompatibility |
RX | Z | Sekvenční báze (případně opraveného) jedinečného molekulárního identifikátoru |
S2 | ? | Vyhrazeno z důvodu zpětné kompatibility |
SA | Z | Další kanonické zarovnání v chimérickém zarovnání |
SM | i | Kvalita mapování nezávislá na šabloně |
SQ | ? | Vyhrazeno z důvodu zpětné kompatibility |
TC | i | Počet segmentů v šabloně |
U2 | Z | Pravděpodobnost, že bude druhý hovor špatně, podmíněn tím, že bude nejlepší |
UQ | i | Phred pravděpodobnost segmentu, podmíněné správným mapováním |
X? | ? | Vyhrazeno pro koncové uživatele |
Y? | ? | Vyhrazeno pro koncové uživatele |
Z? | ? | Vyhrazeno pro koncové uživatele |
Viz také
- The FASTA formát používaný k reprezentaci genomových sekvencí
- The FASTQ formát, který se používá k reprezentaci čtení sekvenceru DNA spolu se skóre kvality
- The GVF format (Genome Variation Format), rozšíření založené na GFF3 formát
Reference
- ^ A b C d E Li, H .; Handsaker, B .; Wysoker, A .; Fennell, T .; Ruan, J .; Homer, N .; Marth, G .; Abecasis, G .; Durbin, R. (2009). „Sequence Alignment / Map format and SAMtools“ (PDF). Bioinformatika. 25 (16): 2078–2079. doi:10.1093 / bioinformatika / btp352. ISSN 1367-4803. PMC 2723002. PMID 19505943.
- ^ https://samtools.github.io/hts-specs/SAMv1.pdf
- ^ A b C d "Specifikace formátu SAM / BAM" (PDF). samtools.github.io.
- ^ Dekódování příznaků SAM