Obecný formát funkcí - General feature format
Přípony názvu souboru | .gff |
---|---|
Typ internetového média | text / x-gff3 |
Vyvinul | Sanger Center (v2), Sequence Ontology Project (v3) |
Typ formátu | Bioinformatika |
Rozšířeno z | Hodnoty oddělené tabulátorem |
Otevřený formát ? | Ano |
webová stránka | github |
v bioinformatika, obecný formát funkcí (formát pro vyhledávání genů, formát obecných funkcí, GFF) je formát souboru slouží k popisu geny a další funkce DNA, RNA a protein sekvence.
Verze GFF
Existují následující verze GFF:
- Obecný formát funkce verze 2, obecně zastaralé
- Formát přenosu genů 2.2, derivát používaný společností Ensembl
- Obecný formát funkce verze 3
- Formát variace genomu, s dalšími pragmaty a atributy pro funkce sequence_alteration
GFF2 / GTF měl řadu nedostatků, zejména to, že může představovat pouze dvouúrovňové hierarchie funkcí, a proto nemůže zvládnout tříúrovňovou hierarchii genů → přepisů → exonů. GFF3 řeší tento a další nedostatky. Například podporuje libovolně mnoho hierarchických úrovní a dává určitým významům určitým značkám v poli atributů konkrétní význam.
The GTF je totožný s GFF, verze 2.[1]
Obecná struktura GFF
Všechny formáty GFF (GFF2, GFF3 a GTF) jsou záložka oddělené 9 poli na řádek. Všichni sdílejí stejnou strukturu pro prvních 7 polí, přičemž se liší v obsahu a formátu deváté pole. Obecná struktura je následující:
Index pozic | Název pozice | Popis |
---|---|---|
1 | sekvence | Název sekvence, kde je funkce umístěna. |
2 | zdroj | Klíčové slovo identifikující zdroj funkce, například program (např. Augustus nebo RepeatMasker ) nebo organizace (jako TAIR ). |
3 | Vlastnosti | Název typu prvku, například „gen“ nebo „exon“. V dobře strukturovaném souboru GFF všechny podřízené funkce vždy sledují své rodiče v jednom bloku (takže všechny exony přepisu jsou umístěny za jejich rodičovský řádek „přepisu“ a před jakýkoli jiný nadřazený řádek přepisu). V GFF3 by všechny funkce a jejich vztahy měly být kompatibilní s standardy vydané Sequence Ontology Project. |
4 | Start | Genomický začátek funkce s a 1bázový offset. To je v kontrastu s jinými 0-offsetovými polootevřenými formáty sekvencí POSTEL. |
5 | konec | Genomický konec funkce s a 1bázový offset. Jedná se o stejnou koncovou souřadnici, jako je tomu v 0-offsetových polootevřených formátech sekvencí POSTEL.[Citace je zapotřebí ] |
6 | skóre | Numerická hodnota, která obecně označuje důvěru zdroje v anotovaný prvek. Hodnota „.“ (tečka) se používá k definování nulové hodnoty. |
7 | pramen | Jeden znak, který označuje pramen funkce; může předpokládat hodnoty "+" (kladné nebo 5 '-> 3'), "-", (záporné nebo 3 '-> 5'), "." (neurčeno). |
8 | fáze | fáze funkcí CDS; může to být buď 0, 1, 2 (pro funkce CDS), nebo „.“ (pro všechno ostatní). V následující části naleznete podrobné vysvětlení. |
9 | atributy | Všechny ostatní informace týkající se této funkce. Formát, struktura a obsah tohoto pole se nejvíce liší mezi třemi konkurenčními formáty souborů. |
8. pole: fáze funkcí CDS
Jednoduše řečeno, CDS znamená „CoDing Sequence“. Přesný význam tohoto pojmu je definován sekvenční ontologií (SO). Podle GFF3 Specifikace:[2][3]
U funkcí typu „CDS“ fáze označuje, kde funkce začíná odkazem na čtecí rámec. Fáze je jedno z celých čísel 0, 1 nebo 2, což udává počet bází, které by měly být odstraněny od začátku této funkce, aby se dosáhlo první báze dalšího kodonu.
Směrnice Meta
V souborech GFF mohou být zahrnuty další meta informace a následují po směrnici ##. Tato meta informace může podrobně popsat verzi GFF, oblast sekvence nebo druh (úplný seznam typů metadat najdete na Specifikace sekvenční ontologie ).
GFF software
Servery
Servery, které generují tento formát:
Server | Ukázkový soubor |
---|---|
UniProt | [1] |
Klienti
Klienti, kteří používají tento formát:
název | Popis | Odkazy |
---|---|---|
GBvyhledat | Prohlížeč genomu GMOD | GBvyhledat |
IGB | Integrovaný prohlížeč genomu | Integrovaný prohlížeč genomu |
Jalview | Editor a prohlížeč vícenásobného zarovnání sekvence | Jalview |
POPRUH | Podtržení prvků sekvence ve více zarovnáních. Příklad výstupu: [2] | [3] |
JBrowse | JBrowse je rychlý integrovatelný prohlížeč genomu vytvořený kompletně s JavaScriptem a HTML5 | JBrowse.org |
ZENBU | Systém pro spolupráci, integraci dat omics a interaktivní vizualizační systém | [4] |
Validace
The modENCODE hostitelé projektu online nástroj pro ověření GFF3 s velkorysými limity 286,10 MB a 15 miliony řádků.
Softwarová kolekce Genome Tools obsahuje a gff3validator nástroj, který lze použít offline k ověření a případně uklizení souborů GFF3. An online ověřovací služba je také k dispozici.
Viz také
Reference
- ^ Informace o GFF / GTF, z Ensembl
- ^ "Specifikace GFF3". 2018-11-24.
- ^ „Gff3 - Gmod“.