BED (formát souboru) - BED (file format)
Přípona názvu souboru | .postel |
---|---|
Typ internetového média | text / x-postel |
Typ formátu | Textový soubor |
The POSTEL (Rozšiřitelná data prohlížeče) formát je textový soubor formát používaný k ukládání genomický regiony jako souřadnice a související anotace. Data jsou prezentována ve formě sloupců oddělených mezerami nebo záložkami. Tento formát byl vyvinut během Projekt lidského genomu[1] a poté přijaty dalšími sekvenčními projekty. V důsledku tohoto stále širšího používání se tento formát stal de facto Standard v bioinformatika bez obdržení jakýchkoli oficiálních specifikací.
Jednou z výhod tohoto formátu je manipulace se souřadnicemi místo nukleotidové sekvence, který optimalizuje výkon a výpočetní čas při porovnávání všech genomů nebo jejich části. Jeho jednoduchost navíc usnadňuje manipulaci a čtení (nebo analýza ) souřadnice nebo anotace pomocí zpracování textu a skriptovací jazyky jako Krajta, Rubín nebo Perl nebo více specializovaných nástrojů, jako je BEDNástroje.
Dějiny
Na konci 20. století se objevily první projekty pro sekvence kompletní genomy. Mezi tyto projekty patří Projekt lidského genomu byl v té době nejambicióznější a jeho cílem bylo poprvé sekvenovat genom několika gigabáze. To vyžadovalo, aby centra pro sekvenování provedly zásadní metodický vývoj s cílem automatizovat zpracování sekvencí a jejich analýzy. Bylo tedy vytvořeno mnoho formátů, jako např FASTQ,[2] GFF nebo BED.[1] Nebyly však zveřejněny žádné oficiální specifikace, které ovlivnily některé formáty, například FASTQ when sekvenční projekty na počátku 21. století.
Jeho široké použití uvnitř prohlížeče genomu umožnil definovat tento formát relativně stabilním způsobem, protože tento popis používá mnoho nástrojů.
Formát
Formát BED nemá žádné oficiální specifikace. Popis uvedený v UCSC Genome Browser[3] je široce používán.
Popis
Soubor BED se skládá z minimálně tří sloupců, do kterých lze přidat devět volitelných sloupců pro celkem dvanáct sloupců. První tři sloupce obsahují jména chromozomy nebo lešení, začátek a konec souřadnic uvažovaných sekvencí. Dalších devět sloupců obsahuje poznámky související s těmito sekvencemi. Tyto sloupce musí být odděleny znakem mezery nebo záložky, přičemž toto se doporučuje z důvodu kompatibility mezi programy.[4] Každý řádek souboru musí mít stejný počet sloupců. Musí být respektováno pořadí sloupců: pokud jsou použity sloupce s vysokým počtem, musí být vyplněny sloupce s mezilehlými čísly.
Číslo sloupce | Titul | Definice |
---|---|---|
1 | chrom | Chromozóm (např. chr3, chrY, chr2_random) nebo lešení (např. scaffold10671) název |
2 | chromStart | Začněte souřadnicí na chromozomu nebo na lešení pro uvažovanou sekvenci (první základna na chromozomu je očíslována 0) |
3 | chromEnd | Ukončete souřadnici na chromozomu nebo lešení pro uvažovanou sekvenci. Tato pozice není inkluzivní, na rozdíl od chromStart. |
4 | název | Název řádku v souboru BED |
5 | skóre | Skóre mezi 0 a 1000 |
6 | pramen | Orientace řetězce DNA (pozitivní ["+"] nebo negativní ["-"] nebo ".", Pokud není řetězec) |
7 | tlustýStart | Počáteční souřadnice, ze které je anotace zobrazena silnějším způsobem na grafickém znázornění (např .: začátek kodon a gen ) |
8 | tlustý konec | Koncové souřadnice, ze kterých se anotace již nezobrazuje silnějším způsobem na grafickém znázornění (např .: stop kodon genu) |
9 | itemRgb | RGB hodnota ve tvaru R, G, B (např. 255,0,0) určující barvu zobrazení anotace obsažené v souboru BED |
10 | blockCount | Počet bloků (např. exony ) na řádku souboru BED |
11 | blockSizes | Seznam hodnot oddělených znakem čárky odpovídá velikosti bloků (počet hodnot musí odpovídat počtu bloků) |
12 | blockStarts | Seznam hodnot oddělených čárkami odpovídajícími počátečním souřadnicím bloků, souřadnice vypočtené vzhledem k těm, které jsou ve sloupci chromStart (počet hodnot musí odpovídat počtu „blockCount“) |
Záhlaví
Soubor BED může volitelně obsahovat a záhlaví. Neexistuje však žádný oficiální popis formátu záhlaví. Může obsahovat jeden nebo více řádků a může být označen různými slovy nebo symboly,[4] v závislosti na jeho funkční roli nebo jednoduše popisné. Řádek záhlaví tedy může začínat těmito slovy nebo symbolem:
- "prohlížeč": funkční hlavička používaná UCSC Genome Browser nastavit možnosti s tím spojené,
- "track": funkční záhlaví, které používá prohlížeče genomu specifikovat související možnosti zobrazení,
- "#": popisná hlavička pro přidání komentářů, jako je název každého sloupce.
Souřadnicový systém
Na rozdíl od souřadnicový systém používané jinými normami, jako např GFF, systém používaný formátem BED je nulový pro začátek souřadnic a jeden pro konec souřadnic.[4] To znamená, že nukleotid se souřadnicí 1 v genomu bude mít ve sloupci 2 hodnotu 0 a ve sloupci 3 hodnotu 1.
Tato volba je odůvodněna metodou výpočtu délek uvažovaných genomických oblastí, přičemž tento výpočet je založen na jednoduchém odečtení koncových souřadnic (sloupec 3) od počátečních souřadnic (sloupec 2): . Když je souřadný systém založen na použití 1 k označení první polohy, výpočet se stává o něco složitějším: . Tento nepatrný rozdíl může mít relativně velký dopad, pokud jde o dobu výpočtu datové sady používá se několik tisíc až stovek tisíc linek.
Příklady
Zde je minimální příklad:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
Zde je typický příklad s devíti sloupci z UCSC Genome Browser:
pozice prohlížeče chr7: 127471196-127495720browser skrýt alltrack name = "ItemRGBDemo" description = "item RGB demonstration" viditelnost = 2 itemRgb = "on" chr7 127471196 127472363 pos1 0 + 127471196 127472363 255,0,0chr7 127472363 127473530 pos2 0 + 124772363 , 0,0chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255chr7 127477031 127478 127 702 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
Přípona souboru
V současné době neexistuje žádný standard přípona souboru pro soubory BED, ale nejčastěji se používá přípona „.bed“. Počet sloupců je někdy uveden v příponě souboru, například: „.bed3“, „.bed4“, „.bed6“, „.bed12“.[5]
Používání
Použití souborů BED se rychle rozšířilo se vznikem nové techniky sekvenování a manipulace s větším a větším sekvence soubory. Porovnání genomových sekvencí nebo dokonce celých genomů porovnáním samotných sekvencí může rychle vyžadovat značné výpočetní zdroje a být časově náročné. Manipulace se soubory BED zefektivňuje tuto práci pomocí souřadnic k extrakci sledů zájmu ze sekvenčních sad nebo k přímému porovnání a manipulaci se dvěma sadami souřadnic.
K provádění těchto úkolů lze k manipulaci se soubory BED použít různé programy, mimo jiné včetně následujících:
- Prohlížeče genomu: ze souborů BED umožňuje vizualizaci a extrakci sekvencí aktuálně sekvenovaných genomů savců (např. funkce Manage Custom Tracks in UCSC Genome Browser ).[3]
- Galaxie : webové plošina.[5]
- Nástroje příkazového řádku:
- BEDTools: program umožňující manipulaci se sadami souřadnic a extrakci sekvencí ze souboru BED.[4]
- BEDOPS: sada nástrojů pro rychlé booleovské operace se soubory BED.[6]
- BedTk: rychlejší alternativa k nástrojům BEDTools pro omezenou a specializovanou podmnožinu operací.[7]
- covtobed: nástroj pro převod souboru BAM na stopu pokrytí BED.[8]
Reference
- ^ A b Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. (2002). „Prohlížeč lidského genomu na UCSC“. Výzkum genomu. 12 (6): 996–1006. doi:10,1101 / gr. 229102. ISSN 1088-9051. PMC 186604. PMID 12045153.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Cock PJ., Fields CJ., Goto N., Heuer ML. & Rice PM. (2010). „Formát souboru Sanger FASTQ pro sekvence se skóre kvality a varianty FASTQ Solexa / Illumina“. Výzkum nukleových kyselin. 38 (6): 1767–71. doi:10.1093 / nar / gkp1137. ISSN 1362-4962. PMC 2847217. PMID 20015970.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ A b „Často kladené otázky: Formáty datových souborů. Formát BED“. UCSC Genome Browser. Kalifornský institut Santa Cruz Genomics Institute. Citováno 2. října 2019.
- ^ A b C d Quinlan, AR; Hall, IM (21. září 2010). Manuál BEDTools (PDF). Citováno 3. října 2019.
- ^ A b "Typy dat". Komunitní centrum Galaxy. Citováno 3. října 2019.
- ^ Neph, S; Kuehn, MS; Reynolds, AP; Haugen, E; Thurman, RE; Johnson, AK; Rynes, E; Maurano, MT; Vierstra, J; Thomas, S; Sandstrom, R; Humbert, R; Stamatoyannopoulos, JA (15. července 2012). „BEDOPS: vysoce výkonné operace genomických funkcí“. Bioinformatika (Oxford, Anglie). 28 (14): 1919–20. doi:10.1093 / bioinformatika / bts277. PMC 3389768. PMID 22576172.
- ^ Li, Heng. "BedTk". GitHub. Citováno 22. července 2020.
- ^ Birolo, Giovanni; Telatin, Andrea (6. března 2020). „covtobed: jednoduchý a rychlý nástroj pro extrahování stop pokrytí ze souborů BAM“. Journal of Open Source Software. 5 (47): 2119. doi:10.21105 / joss.02119.