Soubor chemické tabulky - Chemical table file
Soubor chemické tabulky (Soubor CT) je rodina založená na textu formáty chemických souborů které popisují molekuly a chemické reakce. Jeden formát například uvádí každý atom v molekule, souřadnice x-y-z tohoto atomu a vazby mezi atomy.
Formáty souborů
V rodině je několik formátů souborů.
Formáty vytvořil Informační systémy MDL (MDL), který získal Technologie Symyx poté se spojil s Accelrys Corp. a nyní se nazývá BIOVIA, dceřiná společnost společnosti Dassault Systemes z Dassault Group[1]
Soubor CT je otevřený formát, BIOVIA zveřejňuje svoji specifikaci.[2]
Molfile
Přípona názvu souboru | .mol |
---|---|
Typ internetového média | chemická látka / x-mdl-molfile |
Typ formátu | formát chemického souboru |
An MDL Molfile je formát souboru pro uchovávání informací o atomech, vazbách, konektivitě a souřadnicích molekuly.
Molfile se skládá z některých informací záhlaví, tabulky připojení (CT) obsahující informace o atomu, pak vazebních připojení a typů, následovaných částmi pro složitější informace.
Molfile je dostatečně běžné, že většina, ne-li všechny, cheminformatika softwarové systémy / aplikace jsou schopny číst formát, i když ne vždy ve stejné míře. Je také podporován některým výpočetním softwarem, jako je Mathematica.
Aktuální de facto standardní verze je molfile V2000; ačkoli v poslední době se formát V3000 šíří dostatečně široce, aby představil potenciální problém s kompatibilitou pro ty aplikace, které ještě nejsou schopné V3000.
L-alanin | Nadpis (může být prázdné, ale řádek musí existovat) | Blok záhlaví (3 řádky) |
---|---|---|
ABCDEFGH09071717443D | Řádek časové značky programu / souboru (Název zdrojového programu a časové razítko souboru) | |
Exportováno | Řádek komentáře (může být prázdné, ale řádek musí existovat) | |
6 5 0 0 1 0 3 V2000 | Počítá řádek | Tabulka připojení |
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0-0,7207 2,0817 0,0000 C 1 0 0 0 0 0-1,8622 -0,3695 0,0000 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1,9464 0,4244 0,0000 O 0 5 0 0 0 0 | Blok atomů (1 řádek pro každý atom): x, y, z (v angstromy ), prvek atd. | |
1 2 1 0 0 01 3 1 1 0 01 4 1 0 0 02 5 2 0 0 02 6 1 0 0 0 | Bond blok (1 řádek pro každou vazbu): 1. atom, 2. atom, typ atd. | |
M CHG 2 4 1 6 -1M ISO 1 3 13 | Blok vlastností | |
KONEC M | END line (POZNÁMKA: některým programům se nelíbí prázdný řádek před M END) | KONEC |
Počítá řádek
Řádek Původní počty má následující specifikaci.
Hodnota | 6 | 6 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Popis | počet atomů | počet dluhopisů | číslo seznamu atomů | Chirální vlajka, 1 = chirální; 0 = není chirální | počet stextových záznamů | počet řádků další vlastnosti | mol verze |
Typ | [Obecný] | [Obecný] | [Dotaz] | [Obecný] | [ISIS / Desktop] | [Obecný] |
Rozšířená tabulka připojení (V3000)
Rozšířená molfile (V3000) se skládá z běžné „molfile“ bez struktury, následované jediným dodatkem molfile, který obsahuje tělo tabulky připojení (Ctab). Následující obrázek ukazuje jak strukturu alaninu, tak odpovídající prodlouženou vlnu.
Všimněte si, že „žádná struktura“ je označena značkou „V3000“ namísto razítka verze „V2000“. Kromě verze existují v záhlaví další dvě změny:
- Počet řádků přílohy je vždy zapsán jako 999, bez ohledu na to, kolik jich ve skutečnosti je. (Všichni současní čtenáři počet ignorují a zastaví se na KONEC KONEC.)
- „Dimenzionální kód“ je zachován explicitněji. „3D“ tedy ve skutečnosti znamená 3D, ačkoli „2D“ bude interpretováno jako 3D, pokud budou nalezeny nenulové souřadnice Z.
Na rozdíl od vlnovky V2000 má vlnovka Rgroup rozšířená o V3000 stejný formát záhlaví jako vlnovka jiné než Rgroup.
L-alanin | Popis | Blok záhlaví |
---|---|---|
GSMACCS-II07189510252D 1 0,00366 0,00000 0 | Záhlaví s časovým razítkem | |
Obrázek 1, J. Chem. Inf. Comput. Sci., Sv. 32, č. 3. 1992 | Řádek komentáře | |
0 0 0 0 0 999 V3000 | Linka kompatibility s V2000 | |
M V30 ZAČÍNÁME CTAB | Tabulka připojení | |
POČTY M V30 6 5 0 0 1 | Počítá řádek | |
M V30 ZAČÍNAT ATOMM V30 1 C -0,6622 0,5342 0 0 CFG = 2M V30 2 C 0,6622 -0,3 0 0M V30 3 C -0,7207 2,0817 0 0 MAS = 13M V30 4 N -1,8622 -0,3695 0 0 CHG = 1M V30 5 O 0,622 -1,8037 0 0M V30 6 O 1,9464 0,4244 0 0 CHG = -1M V30 END ATOM | Blok atomů | |
M V30 ZAČÁTEK BONDM V30 1 1 1 2M V30 2 1 1 3 CFG = 1M V30 3 1 1 4M V30 4 2 2 5M V30 5 1 2 6M V30 KONEC BOND | Bond blok | |
KONEC M V30 KONEC CTABM |
Počítá řádek
Počítací řádek je povinný a musí být první. Určuje počet atomů, vazeb, 3D objektů a skupin. Rovněž určuje, zda je nastaven příznak CHIRAL. Volitelně může řádek počítat určit molregno. Používá se pouze v případě, že regno překročí 999999 (limit formátu v řádku záhlaví molfile). Formát řádku počtu je:
POČTY M V30 | na | poznámka | nsg | n3d | chirální | [REGNO = regno] |
POČTY M V30 | 6 | 5 | 0 | 0 | 1 | |
SDF
Přípona názvu souboru | .sd, .sdf |
---|---|
Typ internetového média | chemický / x-mdl-sdfile |
Typ formátu | formát chemického souboru |
SDF je jednou z rodiny formátů souborů chemických dat vyvinutých společností MDL; je určen zejména pro strukturální informace. „SDF“ znamená soubor strukturovaných dat a soubory SDF ve skutečnosti obalují vlnovou délku (MDL Molfile ) formát. Více sloučenin je oddělený řádky skládající se ze čtyř znaků dolaru ($$$$). Funkce formátu SDF je jeho schopnost zahrnout související data.
Přidružené datové položky jsou označeny takto:
> <Unique_ID>XCA3464366> <ClogP>5.825> <Vendor>Sigma> <Molecular Weight>499.611
Podporovány jsou také datové položky s více řádky. Specifikace formátu MDL SDF vyžaduje, aby byl vložen znak návratu na začátek řádku, pokud jeden řádek libovolného textového pole přesáhne 200 znaků. Tento požadavek je často tolik porušován v praxi ÚSMĚVY a InChI řetězce přesahují tuto délku.
Jiné formáty rodiny
Existují i jiné, méně běžně používané formáty rodiny:
- RXNFile - pro představování jedné chemické reakce;
- RDFile - pro představení seznamu záznamů s přidruženými daty. Každý záznam může obsahovat chemické struktury, reakce, textová a tabulková data;
- RGSoubor - za zastupování Markushovy struktury (zastaralé, Molfile V3000 může reprezentovat struktury Markush);
- XDFile - pro zastupování chemických informací v XML formát.
Viz také
Reference
- ^ Dalby, A .; Nourse, J. G .; Hounshell, W. D .; Gushurst, A. K. I .; Grier, D. L .; Leland, B. A .; Laufer, J. (1992). "Popis několika formátů souborů chemických struktur používaných počítačovými programy vyvinutými v Molecular Design Limited". Journal of Chemical Information and Modeling. 32 (3): 244. doi:10.1021 / ci00007a012.
- ^ Biovia (červen 2014), Formáty souborů CT, Biovia. Definice formátu CTFile jsou k dispozici na vyžádání (je nutná registrace).
externí odkazy
- SDF Toolkit bezplatný software pro zpracování souborů SD (SDF).
- Resolver chemických identifikátorů NCI / CADD generuje soubory SD (SDF) z chemických názvů, registračních čísel CAS, SMILES, InChI, InChIKey, ....
- KNIME svobodný software pro manipulaci s daty a datamining, umí také číst a zapisovat soubory SD (SDF).
- Srovnávací panel toxikologie služba poskytovaná Agenturou pro ochranu životního prostředí (EPA), která generuje soubory SD (SDF) z chemických názvů, registračních čísel CAS, SMILES, InChI, InChIKey, ...