Mezinárodní chemický identifikátor - International Chemical Identifier
Vývojáři | Důvěra InChI |
---|---|
První vydání | 15. dubna 2005[1][2] |
Stabilní uvolnění | 1.05 / březen 2017 |
Operační systém | Microsoft Windows a Unixový |
Plošina | IA-32 a x86-64 |
Velikost | 4.3 MB |
K dispozici v | Angličtina |
Licence | Důvěryhodná licence IUPAC / InChI |
webová stránka | https://www.inchi-trust.org/ |
The IUPAC Mezinárodní chemický identifikátor (InChI /ˈɪntʃiː/ V-chee nebo /ˈɪŋkiː/ ING-kee ) je textový identifikátor pro chemické substance, jehož cílem je poskytnout standardní způsob kódování molekulárních informací a usnadnit jejich vyhledání v databázích a na webu. Původně vyvinutý IUPAC (Mezinárodní unie pro čistou a aplikovanou chemii) a NIST (National Institute of Standards and Technology) od roku 2000 do roku 2005, formát a algoritmy jsou nechráněné.
Pokračující vývoj standardu je od roku 2010 podporován neziskovou organizací Důvěra InChI, jehož je IUPAC členem. Aktuální verze softwaru je 1.05 a byla vydána v lednu 2017.
Před verzí 1.04 byl software volně dostupný pod open-source LGPL licence,[3]nyní však používá vlastní licenci nazvanou IUPAC-InChI Trust License.[4]
Přehled
Identifikátory popisují chemické látky ve smyslu vrstvy informací - atomy a jejich vazebná konektivita, tautomerní informace, izotop informace, stereochemie a informace o elektronickém poplatku.[5]Ne všechny vrstvy musí být poskytnuty; vrstvu tautomeru lze například vynechat, pokud tento typ informace není pro konkrétní aplikaci relevantní.
InChIs se liší od široce používaných Registrační čísla CAS ve třech ohledech: za prvé, jsou volně použitelné a nechráněné; zadruhé, mohou být vypočítány ze strukturálních informací a nemusí být přiřazeny nějakou organizací; a za třetí, většina informací v InChI je čitelná pro člověka (s praxí).
InChIs lze tedy považovat za podobný obecné a extrémně formalizované verzi Názvy IUPAC. Mohou vyjádřit více informací než jednodušší ÚSMĚVY notace a liší se v tom, že každá struktura má jedinečný řetězec InChI, který je důležitý v databázových aplikacích. Informace o trojrozměrných souřadnicích atomů nejsou v InChI zastoupeny; pro tento účel formát jako PDB může být použito.
Algoritmus InChI převádí vstupní strukturální informace na jedinečný identifikátor InChI ve tříkrokovém procesu: normalizace (pro odstranění nadbytečných informací), kanonizace (pro vygenerování jedinečného štítku s číslem pro každý atom) a serializace (pro poskytnutí řetězce znaků) .
InChIKey, někdy označovaný jako hashovaný InChI, je zhuštěná digitální reprezentace InChI (27 znaků), která není lidsky srozumitelná. Specifikace InChIKey byla vydána v září 2007 s cílem usnadnit vyhledávání chemických sloučenin na webu, protože u InChI v plné délce byly problematické.[6] Na rozdíl od InChI není InChIKey jedinečný: kolize lze vypočítat jako velmi vzácné, ale vyskytují se.[7]
V lednu 2009 byla vydána finální verze softwaru InChI verze 1.02. To poskytlo prostředek ke generování takzvaného standardního InChI, který neumožňuje uživatelsky volitelné možnosti při řešení stereochemie a tautomerních vrstev řetězce InChI. Standardní InChIKey je pak hašovanou verzí standardního řetězce InChI. Standardní InChI zjednoduší srovnání řetězců a klíčů InChI generovaných různými skupinami a následně k nim bude přistupovat prostřednictvím různých zdrojů, jako jsou databáze a webové zdroje.
Formát a vrstvy
Typ internetového média | chemická látka / x palce |
---|---|
Typ formátu | formát chemického souboru |
Každý InChI začíná řetězcem „InChI =“ následovaným číslem verze, aktuálně 1. Za tímto následuje písmeno S pro standardní InChIs, což je plně standardizovaná příchuť InChI, která udržuje stejnou úroveň pozornosti na detailech struktury a stejné konvence pro vnímání kresby. Zbývající informace jsou strukturovány jako posloupnost vrstev a dílčích vrstev, přičemž každá vrstva poskytuje jeden konkrétní typ informací. Vrstvy a podvrstvy jsou odděleny oddělovačem „/“ a začínají charakteristickým předponovým písmenem (kromě podvrstvy chemického vzorce hlavní vrstvy). Šest vrstev s důležitými podvrstvy je:
- Hlavní vrstva
- Chemický vzorec (bez předpony). Toto je jediná podvrstva, která se musí vyskytnout v každém InChI.
- Atom připojení (předpona: "c"). Atomy v chemickém vzorci (s výjimkou vodíků) jsou číslovány v pořadí; tato podvrstva popisuje, které atomy jsou spojeny vazbami ke kterým dalším.
- Vodík atomy (předpona: „h“). Popisuje, kolik atomů vodíku je připojeno ke každému z ostatních atomů.
- Nabít vrstva
- protonová podvrstva (předpona: „p“ pro „protony“)
- nabitá podvrstva (předpona: „q“)
- Stereochemické vrstva
- dvojné vazby a kumuleny (předpona: „b“)
- čtyřboká stereochemie atomů a allenů (předpony: „t“, „m“)
- typ informací o stereochemii (předpona: „s“)
- Izotopový vrstva (předpony: „i“, „h“ a „b“, „t“, „m“, „s“ pro izotopovou stereochemii)
- Pevná vrstva H (předpona: "f"); obsahuje některé nebo všechny výše uvedené typy vrstev kromě připojení atomů; může končit podvrstvou „o“; nikdy není součástí standardního InChI
- Znovu připojená vrstva (předpona: „r“); obsahuje celý InChI struktury s znovu připojenými atomy kovu; nikdy není součástí standardního InChI
Formát předpony oddělovače má tu výhodu, že uživatel může snadno použít a divoká karta hledat najít identifikátory, které se shodují pouze v určitých vrstvách.
Strukturní vzorec | standardní InChI |
---|---|
InChI = 1S / C2H6O / c1-2-3 / h3H, 2H2,1H3 | |
InChI = 1S / C6H8O6 / c7-1-2 (8) 5-3 (9) 4 (10) 6 (11) 12-5 / h2,5,7-8,10-11H, 1H2 / t2-, 5 + / m0 / s1 |
InChIKey
Zhuštěný, 27 znaků InChIKey je hašováno verze plné InChI (pomocí SHA-256 algoritmus), navržený tak, aby umožňoval snadné vyhledávání chemických sloučenin na webu.[6] The standardní InChIKey je hašovaný protějšek standardní InChI. Většina chemických struktur na webu do roku 2007 byla reprezentována jako Soubory GIF, které nevyhledávají chemický obsah. Ukázalo se, že celý InChI je příliš zdlouhavý pro snadné vyhledávání, a proto byl vyvinut InChIKey. Existuje velmi malá, ale nenulová šance, že dvě různé molekuly budou mít stejný InChIKey, ale pravděpodobnost duplikace pouze prvních 14 znaků byla odhadnuta jako pouze jedna duplikace v 75 databázích, z nichž každá obsahuje jednu miliardu jedinečných struktur. Se všemi databázemi, které mají v současné době méně než 50 milionů struktur, se taková duplikace v současnosti jeví jako nepravděpodobná. Nedávná studie podrobněji studuje rychlost kolizí a zjišťuje, že experimentální rychlost kolizí je v souladu s teoretickými očekáváními.[8]
InChIKey se skládá ze tří částí oddělených pomlčkou, 14, 10 a jednoho znaku (znaků), jako XXXXXXXXXXXXXX-RRRRRRRRRRR-Z
. Prvních 14 znaků je výsledkem hodnoty hash informací o připojení InChI. Druhá část se skládá z 8 znaků vyplývajících z hash zbývajících vrstev InChI, jednoho znaku označujícího druh InChIKey a jediného znaku označujícího použitou verzi InChI. Nakonec označuje jeden znak protonace.[9]
Příklad

Morfium má strukturu zobrazenou vpravo. Standardní InChI pro morfin je InChI = 1S / C17H19NO3 / c1-18-7-6-17-10-3-5-13 (20) 16 (17) 21-15-12 (19) 4-2-9 (14 (15) 17) 8-11 (10) 18 / h2-5,10-11,13,16,19-20H, 6-8H2,1H3 / t10-, 11 +, 13-, 16-, 17- / m0 / s1
a standardní InChIKey pro morfin je BQJCRHHNABKAKU-KBQPJGBKSA-N
.[10]
Řešiče InChI
Protože InChI nelze rekonstruovat z InChIKey, musí být InChIKey vždy propojen s původním InChI, aby se vrátil do původní struktury. Řešitelé InChI fungují jako vyhledávací služba pro vytváření těchto odkazů a prototypové služby jsou k dispozici od Národní onkologický institut, Služba UniChem na Evropský bioinformatický institut, a PubChem. ChemSpider má resolver do července 2015, kdy byl vyřazen z provozu.[11]
název
Formát se původně jmenoval IChI (IUPAC Chemical Identifier), poté se v červenci 2004 přejmenoval na INChI (IUPAC-NIST Chemical Identifier) a v listopadu 2004 se opět přejmenoval na InChI (IUPAC International Chemical Identifier), ochrannou známku IUPAC.
Pokračující vývoj
Vědecké řízení standardu InChI provádí subkomise divize IUPAC VIII a financování podskupin vyšetřujících a definujících rozšíření standardu provádějí oba IUPAC a Důvěra InChI. Trust InChI financuje vývoj, testování a dokumentaci InChI. Probíhá definování aktuálních rozšíření polymery a směsi, Markushovy struktury, reakce[12] a organometallics, a jakmile bude přijat podvýborem divize VIII, bude přidán do algoritmu.
Přijetí
InChI byl přijat mnoha většími a menšími databázemi, včetně ChemSpider, ChEMBL, Databáze metabolomu Golm, OpenPHACTS, a PubChem.[13] Přijetí však není přímé a mnoho databází vykazuje rozpor mezi chemickými strukturami a InChI, které obsahují, což je problém při propojování databází.[14]
Viz také
- Jazyk molekulárních dotazů
- Zjednodušený systém vstupu do molekulové linky (ÚSMĚVY)
- Editor molekul
- SYBYL Line Notation
- Bioclipse generuje InChI a InChIKeys pro nakreslené struktury nebo otevřené soubory
- the Sada pro vývoj chemie používá JNI-InChI ke generování InChI, může převádět InChI na struktury a generovat tautomery na základě algoritmů InChI
Poznámky a odkazy
- ^ „Stránka projektu IUPAC International Chemical Identifier Project“. IUPAC. Archivovány od originál dne 27. května 2012. Citováno 5. prosince 2012.
- ^ Heller, S .; McNaught, A .; Stein, S .; Tchekhovskoi, D .; Pletnev, I. (2013). „InChI - celosvětový standard identifikátoru chemické struktury“. Journal of Cheminformatics. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401.
- ^ McNaught, Alan (2006). „Mezinárodní chemický identifikátor IUPAC: InChl“. Chemistry International. 28 (6). IUPAC. Citováno 2007-09-18.
- ^ http://www.inchi-trust.org/download/104/LICENCE.pdf
- ^ Heller, S.R .; McNaught, A .; Pletnev, I .; Stein, S .; Tchekhovskoi, D. (2015). „InChI, mezinárodní chemický identifikátor IUPAC“. Journal of Cheminformatics. 7: 23. doi:10.1186 / s13321-015-0068-4. PMC 4486400. PMID 26136848.
- ^ A b „Mezinárodní chemický identifikátor IUPAC (InChI)“. IUPAC. 5. září 2007. Archivovány od originál 30. října 2007. Citováno 2007-09-18.
- ^ E.L. Willighagen (17. září 2011). „InChIKey collision: the DIY copy / pastables“. Citováno 2012-11-06.
- ^ Pletnev, I .; Erin, A .; McNaught, A .; Blinov, K .; Tchekhovskoi, D .; Heller, S. (2012). „Odolnost proti kolizi InChIKey: experimentální testování“. Journal of Cheminformatics. 4 (1): 39. doi:10.1186/1758-2946-4-39. PMC 3558395. PMID 23256896.
- ^ „Technické FAQ - důvěra InChI“. inchi-trust.org. Citováno 14. dubna 2018.
- ^ „InChI = 1 / C17H19NO3 / c1-18 ...“ Chemspider. Citováno 2007-09-18.
- ^ InChI Resolver, 27. července 2015, http://www.chemspider.com/InChiResolverDecommissioned.aspx
- ^ Grethe, Guenter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (9. května 2018). "Mezinárodní chemický identifikátor pro reakce (RInChI)". Journal of Cheminformatics. 10 (1): 45. doi:10.1186 / s13321-018-0277-8. PMC 4015173. PMID 24152584.
- ^ Warr, W.A. (2015). "Mnoho InChIs a docela nějaký výkon". Journal of Computer-Aided Molecular Design. 29 (8): 681–694. Bibcode:2015JCAMD..29..681W. doi:10.1007 / s10822-015-9854-3. PMID 26081259.
- ^ Akhondi, S. A .; Kors, J. A .; Muresan, S. (2012). „Konzistence systematických chemických identifikátorů v rámci a mezi databázemi malých molekul“. Journal of Cheminformatics. 4 (1): 35. doi:10.1186/1758-2946-4-35. PMC 3539895. PMID 23237381.
externí odkazy
- Web IUPAC InChI
- Popis algoritmu kanonizace
- Google pro InChIs prezentace na W3C.
- Vydání InChI 1.02 Finální verze InChI 1.02 a vysvětlení Standard InChI, leden 2009
- Resolver chemických identifikátorů NCI / CADD Generuje a řeší InChI / InChIKeys a mnoho dalších chemických identifikátorů
- PubChem online editor molekul který podporuje ÚSMĚVY / SMARTS a InChI
- ChemSpider Compound API ChemSpider ZBYTEK API který umožňuje generování InChI a převod InChI na strukturu (také SMILES a generování dalších vlastností)
- MarvinSketch z ChemAxon, implementace pro kreslení struktur (nebo otevření jiných formátů souborů) a výstup do formátu souboru InChI
- BKchem implementuje svůj vlastní analyzátor InChI a používá implementaci IUPAC ke generování řetězců InChI
- Složené vyhledávání implementuje vyhledávání klíčů InChI a InChI ve spektrálních knihovnách
- SpectraBase implementuje vyhledávání klíčů InChI a InChI ve spektrálních knihovnách
- JSME je bezplatný molekulární editor založený na JavaScriptu, který generuje InChI a InChI klíč ve webovém prohlížeči, který umožňuje snadné webové vyhledávání chemických sloučenin