Formát chemických souborů - Chemical file format
Tento článek pojednává o některých běžných formáty molekulárních souborů, včetně využití a převodu mezi nimi.
Rozlišující formáty
Chemické informace jsou obvykle poskytovány jako soubory nebo proudy a bylo vytvořeno mnoho formátů s různým stupněm dokumentace. Formát je indikován třemi způsoby (viz chemická část MIME)
- přípona souboru (obvykle 3 písmena). Toto je široce používáno, ale křehké, protože běžné přípony jako „.mol“ a „.dat“ jsou používány mnoha systémy, včetně nechemických.
- samy popisující soubory kde jsou informace o formátu obsaženy v souboru. Příkladem jsou CIF a CML.
- chemický / MIME typ přidal chemicky vědomý server.
Chemický značkovací jazyk
Chemický značkovací jazyk (CML) je otevřený standard pro reprezentaci molekulárních a dalších chemických údajů. Projekt open source zahrnuje schéma XML, zdrojový kód pro analýzu a práci s daty CML a aktivní komunitu. Články Nástroje pro práci s chemickým značkovacím jazykem a XML pro chemii a biologické vědy podrobněji pojednávají o CML. Datové soubory CML jsou přijímány mnoha nástroji, včetně JChemPaint, Jmol, XDrawChem a MarvinView.
Formát proteinové banky
The Formát proteinové banky se běžně používá pro bílkoviny, ale lze jej použít i pro jiné typy molekul. Původně byl navržen jako formát s pevnou šířkou sloupce, a tak má oficiálně zabudovaný maximální počet atomů, zbytků a řetězců; to mělo za následek rozdělení velmi velkých struktur, jako jsou ribozomy, do více souborů. Mnoho nástrojů však dokáže číst soubory, které tyto limity překračují. Například E. coli 70S ribozom byl v roce 2009 zastoupen jako 4 soubory PDB: 3I1M, 3I1N, 3I1O a 3I1P. V roce 2014 byly sloučeny do jednoho souboru, 4V6C.
Některé soubory PDB obsahují volitelnou část popisující připojení atomů a také jejich polohu. Protože tyto soubory se někdy používají k popisu makromolekulárních sestav nebo molekul zastoupených v explicitní rozpouštědlo, mohou růst velmi velké a jsou často komprimovány. Některé nástroje, například Jmol a KiNG,[1] umí číst soubory PDB ve formátu gzip. WwPDB zachovává specifikace formátu souboru PDB a jeho XML alternativy PDBML. V srpnu 2007 došlo k poměrně zásadní změně specifikace formátu PDB (na verzi 3.0) a k nápravě mnoha problémů se soubory ve stávající databázi.[2] Typická přípona souboru pro soubor PDB je .pdb, i když některé starší soubory používají .ent nebo .brk. Některé nástroje pro molekulární modelování píší nestandardní soubory ve stylu PDB, které přizpůsobují základní formát svým vlastním potřebám.
Formát GROMACS
Rodina formátů souborů GROMACS byla vytvořena pro použití se softwarovým balíčkem molekulární simulace GROMACS. Velmi se podobá formátu PDB, ale byl navržen pro ukládání výstupu z molekulární dynamika simulace, takže umožňuje další numerickou přesnost a volitelně uchovává informace o částici rychlost stejně jako poloha v daném bodě trajektorie simulace. Neumožňuje ukládání informací o konektivitě, které se v systému GROMACS získávají ze samostatných souborů topologie molekul a systému. Typická přípona souboru pro soubor GROMACS je .gr.
Formát CHARMM
The CHARMM balíček molekulární dynamiky[3] umí číst a zapisovat řadu standardních chemických a biochemických formátů souborů; CARD (souřadnice) a PSF (proteinová struktura soubor) jsou do značné míry jedinečné pro CHARMM. Formát CARD má pevnou šířku sloupce, podobá se formátu PDB a používá se výhradně k ukládání atomových souřadnic. Soubor PSF obsahuje informace o atomové konektivitě (která popisuje atomové vazby) a je vyžadován před zahájením simulace. Typické použité přípony souborů jsou .crd a .psf resp.
Formát GSD
Formát souboru General Simulation Data (GSD) vytvořený pro efektivní čtení / zápis obecných simulací částic, zejména - ale bez omezení - na ty z HOOMD-modrá. Balíček také obsahuje modul pythonu, který čte a zapisuje soubory gdd schématu hoomd se snadno použitelnou syntaxí. [1]
Ghemický formát souboru
The Ghemické software může používat OpenBabel k importu a exportu řady formátů souborů. Ve výchozím nastavení však používá formát GPR. Tento soubor se skládá z několika částí oddělených značkou (! Header,! Info,! Atoms,! Bonds,! Coord,! PartialCharges a! End).
Navrhovaný typ MIME pro tento formát je application / x-ghemical.
SYBYL Line Notation
SYBYL Line Notation (SLN) je chemická látka řádkový zápis. Na základě SMILES obsahuje úplnou syntaxi pro určení relativní stereochemie. SLN má bohatou syntaxi dotazů, která umožňuje specifikaci Struktura Markush dotazy. Syntaxe také podporuje specifikaci kombinatorických knihoven ChemDraw.
Příklad SLN
Popis | Řetězec SLN |
---|---|
Benzen | C [1] H: CH: CH: CH: CH: CH: @ 1 |
Alanin | NH2C [s = n] H (CH3) C (= 0) OH |
Dotaz zobrazující R postranní řetězec | R1 [hac> 1] C [1]: C: C: C: C: C: @ 1 |
Dotaz na amid / sulfamid | NHC = M1 {M1: O, S} |
ÚSMĚVY
The Simplikované Molekulární Jánput Line Entry Specifikace (SMILES) je a řádkový zápis pro molekuly. Řetězy SMILES zahrnují připojení, ale neobsahují 2D ani 3D souřadnice.
Atomy vodíku nejsou zastoupeny. Ostatní atomy jsou reprezentovány jejich elementárními symboly B, C, N, O, F, P, S, Cl, Br a I. Symbol "=" představuje dvojné vazby a "#" představuje trojné vazby. Větvení je označeno (). Kroužky jsou označeny dvojicemi číslic.
Některé příklady jsou
název | Vzorec | SMILES String |
---|---|---|
Metan | CH4 | C |
Ethanol | C2H6Ó | CCO |
Benzen | C6H6 | C1 = CC = CC = C1 nebo c1ccccc1 |
Ethylen | C2H4 | C = C |
XYZ
The Formát souboru XYZ je jednoduchý formát, který obvykle udává počet atomů v prvním řádku, komentář k druhému, následovaný počtem řádků s atomovými symboly (nebo atomovými čísly) a kartézskými souřadnicemi.
Číslo MDL
Číslo MDL obsahuje jedinečné identifikační číslo pro každou reakci a variantu. Formát je RXXXnnnnnnnn. R označuje reakci, XXX označuje, která databáze obsahuje záznam reakce. Numerická část, nnnnnnnn, je 8místné číslo.
Další běžné formáty
Jedním z nejpoužívanějších průmyslových standardů jsou soubor chemické tabulky formáty, jako Formát dat struktury (SDF) soubory. Jsou to textové soubory, které dodržují přísný formát pro reprezentaci více záznamů chemické struktury a přidružených datových polí. Formát byl původně vyvinut a publikován společností Molecular Design Limited (MDL). MOL je další formát souboru z MDL. Je to dokumentováno v kapitole 4 Formáty CT souboru.[4]
PubChem má také formáty souborů XML a ASN1, což jsou možnosti exportu z online databáze PubChem. Oba jsou založeny na textu (ASN1 je nejčastěji binární formát).
V tabulce níže je uvedeno velké množství dalších formátů
Konverze mezi formáty
OpenBabel a JOELib jsou volně dostupné nástroje s otevřeným zdrojovým kódem speciálně určené pro převod mezi formáty souborů. Jejich chemické expertní systémy podporují konverzní tabulky velkých typů atomů.
babel -i input_format vložte soubor -Ó výstupní formát výstupní soubor
Chcete-li například převést soubor epinephrine.sdf v SDF na CML, použijte příkaz
babel -i sdf epinefrin.sdf -o cml epinefrin.cml
Výsledný soubor je epinefrin.cml.
Řada nástrojů určených pro prohlížení a úpravy molekulárních struktur dokáže číst v souborech v mnoha formátech a zapisovat je v jiných formátech. Nástroje JChemPaint (založeno na Sada pro vývoj chemie ), XDrawChem (na základě OpenBabel ), Rozeznít, Jmol, Mol2mol[5][Citace je zapotřebí ] a Discovery Studio zapadají do této kategorie.
Projekt Chemical MIME
„Chemical MIME“ je de facto přístup pro přidávání MIM typy na chemické proudy.
Tento projekt byl zahájen v lednu 1994 a byl poprvé oznámen během chemického workshopu na první mezinárodní konferenci WWW, která se konala v CERNu v květnu 1994. ... První verze internetového konceptu byla zveřejněna v období květen – říjen 1994 a druhá revidovaná verze v období duben – září 1995. K diskusi je k dispozici příspěvek předložený CPEP (Výboru pro tištěné a elektronické publikace) na zasedání IUPAC v srpnu 1996.[6]
V roce 1998 byla práce formálně publikována v JCIM.[7]
Přípona souboru | MIM Typ | Správné jméno | Popis |
---|---|---|---|
alk | chemická / x-alchymie | Alchymický formát | |
CSF | chemická / x-cache-csf | CAChe MolStruct CSF | |
cbin, cascii, ctab | chemický / x-cactvs-binární | Formát CACTVS | |
CDX | chemická látka / x-cdx | Soubor ChemDraw eXchange | |
cer | chemická látka / x-cerius | Formát MSI Cerius II | |
c3d | chemická látka / x-chem3d | Chem3D Format | |
chm | chemický / x-chemdraw | Soubor ChemDraw | |
cif | chemická látka / x-cif | Krystalografický informační soubor, Krystalografický informační rámec | Vyhlášeno Mezinárodní unií krystalografie |
cmdf | chemický / x-cmdf | Formát dat CrystalMaker | |
cml | chemická látka / x-cml | Chemický značkovací jazyk | XML na základě Chemický značkovací jazyk. |
CPA | chemický / x-kompas | Program kompasu Takahashi | |
bsd | chemická / křížová palba | Crossfire soubor | |
csm, csml | chemický / x-csml | Chemický styl značkovacího jazyka | |
ctx | chemická látka / x-ctx | Formát souboru CTX skupiny Gasteiger | |
cxf, cef | chemická látka / x-cxf | Formát chemické výměny | |
emb, embl | chemický / x-embl-dl-nukleotid | EMBL nukleotidový formát | |
spc | chemický / x-galaktický-spc | SPC formát pro spektrální a chromatografická data | |
inp, gam, gamin | chemický / x-gamess-vstup | Vstupní formát GAMESS | |
fch, fchk | chemický / x-gaussianský kontrolní bod | Gaussian Formát kontrolního bodu | |
mládě | chemická / x-gaussova kostka | Gaussian Formát krychle (vlnová funkce) | |
gau, gjc, gjf, com | chemický / x-gaussovský vstup | Gaussian Vstupní formát | |
gcg | chemická sekvence / sekvence x-gcg8 | Formát sekvence proteinů | |
gen | chemická / x-genbank | Formát ToGenBank | |
istr, ist | chemická látka / x-isostar | Knihovna IsoStar intermolekulárních interakcí | |
jdx, dx | chemický / x-jcamp-dx | JCAMP Spektroskopický formát pro výměnu dat | |
příbuzní | chemická / x-kinemage | Obrázky kinetické (proteinové struktury); Kinemage | |
mcm | chemická / x-makmolekula | Formát souboru MacMolecule | |
mmd, mmod | chemický / x-makromodel-vstup | MakroModel Molekulární mechanika | |
mol | chemická látka / x-mdl-molfile | MDL Molfile | |
úsměvy, smi | chemické / x-denní úsměvy | Zjednodušená specifikace vstupu do molekulární vstupní linky | Řádkový zápis pro molekuly. |
sdf | chemický / x-mdl-sdfile | Soubor strukturovaných dat | |
el | chemická látka / x-sketchel | SketchEl Molecule | |
ds | chemický / datový list x | Datový list XML SketchEl | |
inchi | chemická látka / x palce | Mezinárodní chemický identifikátor IUPAC | |
jsd, jsdraw | chemická látka / x-jsdraw | Nativní formát souboru JSDraw | |
kormidlo, ihelm | chemická / x-kormidlo | Pistoia Alliance KORMIDLO tětiva | Řádkový zápis pro biologické molekuly |
xhelm | chemická látka / x-xhelm | Soubor XML Pistoia Alliance XHELM | XML na základě KORMIDLO včetně definic monomerů |
Podpěra, podpora
Pro Linux / Unix jsou konfigurační soubory k dispozici jako „chemicko-mimická data"balíček v .deb, RPM a tar.gz formáty pro registraci chemických typů MIME na webovém serveru.[8][9] Programy se pak mohou zaregistrovat jako prohlížeč, editor nebo procesor pro tyto formáty, takže je k dispozici plná podpora pro chemické typy MIME.
Zdroje chemických údajů
Zde je krátký seznam zdrojů volně dostupných molekulárních dat. Na internetu existuje mnohem více zdrojů, než je uvedeno zde. Odkazy na tyto zdroje jsou uvedeny v odkazech níže.
- Spojené státy Národní institut zdraví PubChem databáze je obrovským zdrojem chemických údajů. Všechna data jsou ve dvou dimenzích. Data zahrnují formáty SDF, SMILES, PubChem XML a PubChem ASN1.
- Celosvětová Proteinová datová banka (wwPDB )[10] je vynikajícím zdrojem dat molekulárních souřadnic proteinů a nukleových kyselin. Data jsou trojrozměrná a jsou poskytována ve formátu Protein Data Bank (PDB).
- eMolekuly jsou komerční databáze pro molekulární data. Data zahrnují dvourozměrný strukturní diagram a řetězec úsměvů pro každou sloučeninu. eMolekuly podporují rychlé hledání spodní struktury na základě částí molekulární struktury.
- ChemExper je komerční databáze molekulárních dat. Výsledky hledání zahrnují dvourozměrný strukturní diagram a soubor krtků pro mnoho sloučenin.
- Newyorská univerzita Knihovna 3-D molekulárních struktur.
- The Americká agentura na ochranu životního prostředí Databázová síť „Distributed Structure-Searchable Toxicity (DSSTox)“ je projektem výpočetního toxikologického programu EPA. Databáze poskytuje molekulární soubory SDF se zaměřením na karcinogenní a jinak toxické látky.
Viz také
- Formát souboru
- OpenBabel, JOELib, OELib
- Sada pro vývoj chemie
- Chemický značkovací jazyk
- Software pro molekulární modelování
- Resolver chemických identifikátorů NCI / CADD
Reference
- ^ Chen, V.B .; et al. (2009). „KING (Kinemage, Next Generation): Všestranný interaktivní molekulární a vědecký vizualizační program“. Věda o bílkovinách. 18 (11): 2403–2409. doi:10,1002 / pro.250. PMC 2788294. PMID 19768809.
- ^ Henrick, K .; et al. (2008). „Sanace archivu datové banky proteinů“. Výzkum nukleových kyselin. 36 (Problém s databází): D426 – D433. doi:10.1093 / nar / gkm 937. PMC 2238854. PMID 18073189.
- ^ Brooks, B.M .; et al. (1983). "CHARMM: Program pro makromolekulární energii, minimalizaci a výpočty dynamiky". J. Comput. Chem. 4: 187–217. doi:10.1002 / jcc.540040211.
- ^ Informační systémy MDL 2005
- ^ Domovská stránka Mol2mol
- ^ Domovská stránka Chemical MIME (přístupné 2013-leden-24)
- ^ Rzepa, H. S .; Murray-Rust, P .; Whitaker, B. J. (1998). „Aplikace chemických víceúčelových internetových poštovních rozšíření (Chemical MIME) na elektronické standardy a výměnu informací na webu“. Journal of Chemical Information and Modeling. 38 (6): 976. doi:10.1021 / ci9803233.
- ^ http://packages.debian.org/search?keywords=chemical-mime
- ^ http://downloads.sourceforge.net/chemical-mime/
- ^ Berman, H.M .; et al. (2003). "Vyhlášení celosvětové Protein Data Bank". Přírodní strukturní biologie. 10 (12): 980. doi:10.1038 / nsb1203-980. PMID 14634627.
externí odkazy
- Informační systémy MDL (Červen 2005), Formáty CTFile (PDF), San Leandro, Kalifornie, USA: Informační systémy MDL, archivovány z originál (PDF) dne 30. června 2007
- "Vyřešit identifikátor struktury jako SDF, CML, MRV, PDB". NCI. NIH: CADD Group Chemoinformatics Tools and User Services (CACTUS). Červenec 2009.