Pileup formát - Pileup format
Pileup formát je textový formát pro shrnutí základních volání zarovnaných čtení do referenční sekvence. Tento formát umožňuje vizuální zobrazení SNP / indel volání a zarovnání. Poprvé jej použili Tony Cox a Zemin Ning na Wellcome Trust Sanger Institute, ale stal se široce známým díky implementaci v rámci EU SAMtools softwarová sada.[1]</ref>
Formát
Příklad
Sekvence | Pozice | Referenční základna | Počet přečtení | Číst výsledky | Kvalitní |
---|---|---|---|---|---|
seq1 | 272 | T | 24 | ,.$.....,,.,.,...,,,.,..^+. | <<<+;<<<<<<<<<<<=<;<;7<& |
seq1 | 273 | T | 23 | ,.....,,.,.,...,,,.,..A | <<<;<<<<<<<<<3<=<<<;<<+ |
seq1 | 274 | T | 23 | ,.$....,,.,.,...,,,.,... | 7<7;<;<<<<<<<<<=<;<;<<6 |
seq1 | 275 | A | 23 | , $ .... ,,.,., ... ,,,., ... ^ l. | <+;9*<<<<<<<<<=<<:;<<<< |
seq1 | 276 | G | 22 | ... T ,,.,., ... ,,,., .... | 33;+<<7=7<<7<&<<1;<<6< |
seq1 | 277 | T | 22 | .... ,,.,.,. C. ,,,., .. G. | +7<;<<<<<<<&<=<<:;<<&< |
seq1 | 278 | G | 23 | .... ,,.,., ... ,,,., .... ^ k. | %38*<<;<7<<7<=<<<;<<<<< |
seq1 | 279 | C | 23 | NA,,.,.,...,,,.,..... | 75&<<<<<<<<<=<<<9<<:<<< |
Sloupce
Každý řádek se skládá z 5 (nebo volitelně 6) sloupců oddělených tabulátory:
- Identifikátor sekvence
- Pozice v pořadí (od 1)
- Referenční nukleotid v této poloze
- Počet zarovnaných čtení pokrývajících tuto pozici (hloubka pokrytí)
- Báze v této poloze ze zarovnaných čtení
- Phred Quality těchto základen, zastoupené v ASCII s offsetem -33 (VOLITELNÉ)
Sloupec 5: Řetězec základen
- . (tečka) znamená základnu, která odpovídala referenci na předním vlákně
- , (čárka) znamená základnu, která se shodovala s referencí na opačném řetězci
- > (znaménko menší / větší než) označuje referenční přeskočení. K tomu dochází, například pokud je báze v referenčním genomu intronická a čtení se mapuje na dva sousední exony. Pokud jsou skóre kvality uvedeny v a šestý sloupec, odkazují na kvalitu čtení, nikoli na konkrétní základnu.
- AGTCN (velká písmena) označuje základnu, která neodpovídá odkazu na předním řetězci
- agtcn (malá písmena) označuje základnu, která neodpovídá odkazu na opačném řetězci
- Sekvence odpovídající znaku regulární výraz + [0-9] + [ACGTNacgtn] + označuje vložení jedné nebo více bází počínaje od další pozice. Například + 2AG znamená vložení AG do předního řetězce
- Sekvence odpovídající regulárnímu výrazu - [0-9] + [ACGTNacgtn] + označuje odstranění jedné nebo více bází počínaje od další pozice. Například -2ct znamená deleci CT v opačném řetězci
- ^ (stříška) označuje začátek čteného segmentu a ASCII znaku za `^ ^ mínus 33 dává kvalitu mapování
- $ (dolar) označuje konec čteného segmentu
- * (asterisk) is a placeholder for a deleted base in a multiple basepair deletion that was mentioned in a previous line by the - [0-9] + [ACGTNacgtn] + notation
Sloupec 6: Řetězec základní kvality
Toto je volitelný sloupec. Pokud je k dispozici, ASCII hodnota znaku mínus 33 udává mapování Phred kvalita každé ze základen v předchozím sloupci 5. Je to podobné jako u kvalitního kódování v Formát FASTQ.
Přípona souboru
Neexistuje žádný standard přípona souboru pro soubor Pileup, ale .msf (soubor s více sekvencemi), .pup[2] a .pileup[Citace je zapotřebí ] Jsou používány.
Viz také
Reference
- ^ Li H .; Handsaker B .; Wysoker A .; Fennell T .; Ruan J .; Homer N .; Marth G .; Abecasis G .; Durbin R; Podskupina zpracování dat projektu 1000 genomu (2009) (2009). „Formát Sequence alignment / map (SAM) a SAMtools“. Bioinformatika. 25 (16): 2078–2079. doi:10.1093 / bioinformatika / btp352. PMC 2723002. PMID 19505943.
- ^ Accelrys (1998-10-02). "QUANTA: Protein Design. 3. Čtení a zápis datových souborů sekvence". Université de Montréal. Citováno 2020-03-27.