Cambridge strukturální databáze - Cambridge Structural Database
![]() | |
---|---|
Obsah | |
Popis | |
Kontakt | |
Výzkumné centrum | Cambridge krystalografické datové centrum |
Přístup | |
Datový formát | .cif |
webová stránka | |
webová služba URL | www |
Nástroje | |
Web | WebCSD |
Samostatný |
|
The Cambridge strukturální databáze (CSD) je jak úložiště, tak ověřený a upravený zdroj pro trojrozměrná strukturální data z molekuly obvykle obsahuje alespoň uhlík a vodík, zahrnující širokou škálu organický, kov-organický a organokovový molekuly. Specifické položky se doplňují s ostatními krystalografické databáze tak jako Proteinová datová banka (PDB), Databáze struktur anorganických krystalů a Mezinárodní centrum pro difrakční data. Data obvykle získaná uživatelem Rentgenová krystalografie a méně často elektronová difrakce nebo neutronová difrakce a předložil krystalografové a chemici z celého světa, jsou volně přístupné (uložené autory) na internetu prostřednictvím webových stránek mateřské organizace CSD (CCDC, úložiště)[1]). Na CSD dohlíží nezisková společnost s názvem Cambridge krystalografické datové centrum, CCDC.

CSD je pro vědce široce používaným úložištěm organických a kovově-organických krystalových struktur s malými molekulami. Struktury uložené s Cambridge krystalografické datové centrum (CCDC) jsou veřejně dostupné ke stažení v okamžiku zveřejnění nebo se souhlasem vkladatele. Jsou také vědecky obohaceny a zahrnuty do databáze používané softwarem nabízeným centrem. Cílené podskupiny CSD jsou také volně dostupné na podporu výuky a dalších aktivit.[2]
Dějiny
The CCDC vyrostl z činnosti krystalografické skupiny vedené Olga Kennardová OBE FRS na katedře organické, anorganické a teoretické chemie VŠE Univerzita v Cambridge. Od roku 1965 skupina začala shromažďovat publikovaná bibliografická, chemická a krystalová strukturní data pro všechny malé molekuly, které studoval rentgen nebo neutronová difrakce. S rychlým vývojem v výpočetní probíhající v této době byla tato sbírka zakódována v elektronické podobě a stala se známá jako Cambridge Structural Database (CSD).
CSD byl jednou z prvních numerických vědeckých databází, které začaly fungovat kdekoli na světě, a získal akademické granty od britského Úřadu pro vědecké a technické informace a poté od Velké Británie Rada pro vědecký a technický výzkum. Tyto fondy spolu s dotacemi od národních přidružených center umožnily vývoj CSD a souvisejícího softwaru v 70. a 80. letech. První vydání systému CSD do Spojených států, Itálie a Japonska se objevila na začátku 70. let. Na začátku 80. let byl systém CSD distribuován ve více než 30 zemích. Od roku 2014 byl systém CSD distribuován akademickým pracovníkům v 70 zemích.
V 80. letech byl zájem o systém CSD od farmaceutické a agrochemikálie společnosti výrazně vzrostly. To vedlo k založení Cambridge krystalografické datové centrum (CCDC) jako nezávislá společnost v roce 1987, s právním statusem neziskové charitativní instituce a nad její činností dohlíží mezinárodní správní rada. V roce 1992 se CCDC přestěhovalo do účelových prostor v areálu univerzity.
Kennard odešel z funkce ředitele v roce 1997 a vystřídali jej David Hartley (1997-2002) a Frank Allen (2002-2008). Colin Groom byl jmenován výkonným ředitelem od 1. října 2008[3] do září 2017.[4] A naposledy byl Juergen Harter jmenován generálním ředitelem v červnu 2018.[5]
Softwarové produkty CCDC diverzifikovaly použití krystalografických dat v aplikacích v biologických vědách a krystalografii. Značnou část tohoto vývoje a marketingu softwaru provádí společnost CCDC Software Limited (založena v roce 1998), stoprocentní dceřiná společnost, která zajišťuje veškeré své zisky zpět CCDC.
Přestože je CCDC samosprávnou organizací, udržuje si s ní úzké vazby Univerzita v Cambridge, a je univerzitní partnerskou institucí, která je způsobilá trénovat postgraduální studenty pro vyšší tituly (PhD, MPhil).
CCDC zavedla americké aplikace a podpůrné operace v USA v říjnu 2013,[6][7] původně v Rutgers, Státní univerzita v New Jersey, kde je umístěn společně s RCSB Proteinová datová banka
Obsah

CSD je každý rok aktualizován o přibližně 50 000 nových struktur,[8] a se zlepšením stávajících záznamů. Položky (struktury) v úložišti jsou uvolněny pro veřejný přístup, jakmile se odpovídající položka objeví v recenzované vědecké literatuře. Mezitím mohou být data ukládána a publikována přímo prostřednictvím CSD bez doprovodného vědeckého článku, tzv. A Komunikace CSD.
Pravidelně se vykazují obecné statistiky o šíři podílů centrálních depozitářů cenných papírů, například zpráva z ledna 2014.[9] Od ledna 2019[Aktualizace], souhrnná statistika je následující:[10]
Dotaz | struktur | % z CSD |
---|---|---|
Celkem # struktur | 995,907 | 100.0 |
# různých sloučenin | 900,984 | - |
# literárních zdrojů | 2,004 | - |
Organické struktury | 431,037 | 43.5 |
Přechodný kov je přítomen | 478,138 | 48.2 |
přítomný alkalický kov nebo kov alkalických zemin | 48,056 | 4.8 |
hlavní skupina kovů přítomna | 101,948 | 10.3 |
Jsou přítomny 3D souřadnice | 937,809 | 94.6 |
Bezchybné souřadnice | 926,422 | 98.81 |
Neutronové studie | 2,142 | 0.2 |
Studie práškové difrakce | 4,761 | 0.5 |
Nízká / vysoká teplota studie | 503,368 | 50.8 |
Určena absolutní konfigurace | 28,834 | 2.9 |
Porucha přítomná ve struktuře | 256,019 | 25.8 |
Polymorfní struktury | 29,817 | 3.0 |
R-faktor <0,100 | 935,419 | 94.4 |
R-faktor <0,075 | 845,708 | 85.3 |
R-faktor <0,050 | 553,042 | 55.8 |
R-faktor <0,030 | 121,806 | 12.3 |
Počet atomů s 3D souřadnicemi | 85,791,623 | - |
Od ledna 2019 patřilo mezi nejvýznamnějších 25 vědeckých časopisů z hlediska publikování struktur v úložišti CSD:[11]
- 1. 73,070 struktury byly hlášeny v Inorg. Chem.
- 2. 62,072 struktury byly hlášeny v Dalton a J. Chem. Soc., Dalton Trans.
- 3. 54,160 struktury byly hlášeny v Organometallics
- 4. 48,967 struktury byly hlášeny v J. Am. Chem. Soc.
- 5. 42,422 struktury byly hlášeny v Acta Crystallogr. Sekta. E
- 6. 32,610 struktury byly hlášeny v Chem. Eur. J.
- 7. 29,790 struktury byly hlášeny v J. Organomet. Chem.
- 8. 29,640 struktury byly hlášeny v Angew. Chem. Int. Vyd.
- 9. 28,682 struktury byly hlášeny v Inorg. Chim. Acta
- 10. 28,351 struktury byly hlášeny v Chem. Commun. & J. Chem. Soc.
- 11. 27,328 struktury byly hlášeny v Komunikace CSD
- 12. 26,774 struktury byly hlášeny v Acta Crystallogr. Sekta. C
- 13. 26,734 struktury byly hlášeny v Mnohostěn
- 14. 24,045 struktury byly hlášeny v Eur. J. Inorg. Chem.
- 15. 23,483 struktury byly hlášeny v J. Org. Chem.
- 16. 22,286 struktury byly hlášeny v Cryst. Growth Des.
- 17. 22,011 struktury byly hlášeny v CrystEngComm
- 18. 15,985 struktury byly hlášeny v Organické dopisy
- 19. 15,424 struktury byly hlášeny v Z. Anorg. Allg. Chem.
- 20. 14,864 struktury byly hlášeny v Acta Crystallogr. Sekta. B
- 21. 13,909 struktury byly hlášeny v Čtyřstěn 8,597 struktury byly označeny jako Soukromá komunikace s CSD
- 22. 12,734 struktury byly hlášeny v J. Mol. Struct.
- 23. 11,234 struktury byly hlášeny v Tetrahedron Lett.
- 24. 9,150 struktury byly hlášeny v Eur. J. Org. Chem.
- 25. 8,789 struktury byly hlášeny v New Journal of Chemistry
Těchto 25 časopisů představuje 704 541 z 996 193 neboli 70,7% struktur CSD.
Tato data ukazují, že většina struktur je určena rentgenovou difrakcí, přičemž méně než 1% struktur je určeno pomocí neutronová difrakce nebo prášková difrakce. Počet bezchybných souřadnic byl vzat jako procento struktur, pro které jsou v CSD přítomny 3D souřadnice.
Význam výše zmíněných souborů strukturních faktorů spočívá v tom, že u struktur CSD určených rentgenovou difrakcí, které mají strukturní soubor, může krystalograf ověřit interpretaci pozorovaných měření.
Trend růstu
Historicky vzrostl počet struktur v CSD přibližně exponenciálním tempem, které prošlo mezníkem 25 000 struktur v roce 1977, milníkem 50 000 struktur v roce 1983, milníkem 125 000 struktur v roce 1992, milníkem 250 000 struktur v roce 2001, milníkem 500 000 struktur v 2009,[12][13] [14]a milník 1 000 000 struktur 8. června 2019.[15] Jedna miliontá struktura přidaná k CSD je krystalická struktura 1- (7,9-diacetyl-11-methyl-6H-azepino [1,2-a] indol-6-yl) propan-2-onu.

Počet publikovaných struktur za rok | ||
Rok | # zveřejněno | Celkový |
---|---|---|
2018 | 53429 | 974,653 |
2017 | 55031 | 921,224 |
2016 | 54975 | 866,193 |
2015 | 53610 | 811,218 |
2014 | 50759 | 757,608 |
2013 | 48025 | 706,849 |
2012 | 45199 | 661,121 |
2011 | 43882 | 615,922 |
2010 | 41240 | 572,040 |
2009 | 40627 | 530,800 |
2008 | 36802 | 490,173 |
2007 | 36569 | 453,371 |
2006 | 34713 | 416,802 |
2005 | 31733 | 382,089 |
2004 | 27988 | 350,356 |
2003 | 26287 | 322,368 |
2002 | 24306 | 296,081 |
2001 | 21781 | 271,775 |
2000 | 19998 | 249,994 |
1999 | 18780 | 229,996 |
1998 | 17289 | 211,216 |
1997 | 15896 | 193,927 |
1996 | 15487 | 178,031 |
1995 | 13001 | 162,544 |
1994 | 12290 | 149,543 |
1993 | 12032 | 137,253 |
1992 | 10691 | 125,221 |
1991 | 9941 | 114,530 |
1990 | 8935 | 104,589 |
1989 | 7750 | 95,654 |
1988 | 7644 | 87,904 |
1987 | 7472 | 80,260 |
1986 | 6873 | 72,788 |
1985 | 6911 | 65,915 |
1984 | 6511 | 59,004 |
1983 | 5250 | 52,493 |
1982 | 5233 | 47,243 |
1981 | 4666 | 42,010 |
1980 | 4252 | 37,344 |
1979 | 3876 | 33,092 |
1978 | 3415 | 29,216 |
1977 | 3092 | 25,801 |
1976 | 2735 | 22,709 |
1975 | 2171 | 19,974 |
1974 | 2142 | 17,803 |
1973 | 1991 | 15,661 |
1972 | 1969 | 13,670 |
1971 | 1548 | 11,701 |
1970 | 1261 | 10,153 |
1969 | 1130 | 8,892 |
1968 | 975 | 7,762 |
1967 | 936 | 6,787 |
1966 | 683 | 5,851 |
1965 | 656 | 5,168 |
1923-1964 | 4512 | 4,512 |
Poznámka: údaje za roky 1923-1964 jsou agregovány společně v posledním řádku tabulky.
Formát souboru

Primárním formátem souborů pro depozici struktury CSD, přijatým kolem roku 1991, je "Krystalografický informační soubor" formát, CIF.[16]
Uložené soubory CSD lze stáhnout ve formátu CIF. Ověřené a vybrané soubory CSD lze pomocí nástrojů v systému CSD exportovat v široké škále formátů, včetně CIF, MOL, Mol2, PDB, SHELX a XMol.
The CCDC používá dva různé kódy k rozlišení mezi uloženou datovou sadou a vybraným záznamem CSD. Například jeden konkrétní „Komunikace CSD„Organické molekuly byla uložena s CCDC a přiděleno depozitní číslo „CCDC-991327“. To umožňuje bezplatný veřejný přístup k uloženým datům. Z uložených dat se vybrané informace extrahují za účelem přípravy ověřeného a upraveného záznamu CSD, kterému byl přidělen refcode „MITGUT“. V rámci kurátorského procesu používá CCDC také algoritmus DeCIFer, který editorům pomáhá přiřadit chemii strukturám, když tyto reprezentace (např. Typy vazeb a přiřazení poplatků atd.) Chybí v původních předložených souborech CIF.[17] Ověřený a upravený záznam je zahrnut v distribucích systému CSD a WebCSD, přičemž dostupnost je omezena na ty, kteří přispívají odpovídajícím způsobem.
Prohlížení dat

Každou sadu dat v CSD lze otevřeně prohlížet a načítat pomocí bezplatných dat Struktura přístupu servis. Prostřednictvím této služby založené na webovém prohlížeči mohou uživatelé zobrazit datovou sadu ve 2D a 3D, získat některé základní informace o struktuře a stáhnout uloženou datovou sadu. Pokročilé funkce vyhledávání a vybrané informace jsou k dispozici prostřednictvím předplatného Systém CSD.
Kromě použití Systém CSD, soubory struktury lze prohlížet pomocí jednoho z několik počítačových programů s otevřeným zdrojovým kódem jako Jmol. Některé další bezplatné, ale nikoli otevřené programy zahrnují Zvonkohra MDL, Pymol, UCSF Chimera, Rasmol, WINGX,[18] the CCDC poskytuje bezplatnou verzi svého vizualizačního programu Rtuť.
Od roku 2015, Rtuť od CCDC také poskytuje funkce pro generování 3D tisku připraveného souboru ze struktur v CSD.[19]
Viz také
Reference
- ^ „Formulář žádosti depozitáře CCDC CIF“. Cambridge krystalografické datové centrum. Citováno 2014-09-16.
- ^ „Domovská stránka CCDC“. Cambridge krystalografické datové centrum. Citováno 2014-09-16.
- ^ Ženich C, Allen F (červenec 2009). „CCDC dobře upravené: rozhovor s Colinem Groomem, výkonným ředitelem Cambridge Crystallographic Data Center a Frankem Allenem, emeritním členem“. Journal of Computer-Aided Molecular Design. 23 (7): 391–4. Bibcode:2009JCAMD..23..391W. doi:10.1007 / s10822-009-9272-5. PMID 19421719.
- ^ „Sdělení předsedy jménem správců“. Cambridge krystalografické datové centrum. 11. září 2017. Citováno 2019-05-15.
- ^ „CCDC vítá Jürgena Hartera jako generálního ředitele“. Cambridge Crystallographic Data Center (CCDC). 11. června 2018. Citováno 2019-05-15.
- ^ „CCDC zahajuje provoz v USA“. Cambridge Crystallographic Data Center (CCDC). 30. října 2013. Citováno 2019-05-15.
- ^ „Cambridge Crystallographic Data Center zakládá provoz USA v novém partnerství s Rutgersovým centrem pro integrovaný proteomický výzkum“. Rutgers Office of Research and Economic Development. Citováno 15. května 2019.
- ^ Bruno IJ, Groom CR (říjen 2014). „Krystalografický pohled na sdílení dat a znalostí“. Journal of Computer-Aided Molecular Design. 28 (10): 1015–22. Bibcode:2014JCAMD..28.1015B. doi:10.1007 / s10822-014-9780-9. PMC 4196029. PMID 25091065.
- ^ „Záznamy CSD: Souhrnná statistika“ (PDF). Cambridge krystalografické datové centrum. Archivovány od originál (PDF) dne 11.06.2014. Citováno 2014-09-16.
- ^ „Záznamy CSD: Souhrnná statistika“ (PDF). Cambridge strukturální databáze. 1. ledna 2019. Citováno 15. května 2019.
- ^ A b „Statistiky deníku CSD“ (PDF). Cambridge strukturální databáze. 1. ledna 2019. Citováno 16. května 2019.
- ^ Ženich CR, Allen FH (leden 2014). "Cambridge Structural Database ve zpětném pohledu a perspektivě". Angewandte Chemie. 53 (3): 662–71. doi:10,1002 / anie.201306438. PMID 24382699.
- ^ „Růst Cambridge strukturální databáze (CSD) od roku 1970“. CCDC. Citováno 2014-09-16.
- ^ „Statistiky CSD“. Cambridge Crystallographic Data Center (CCDC). Citováno 2019-05-17.
- ^ Robinson, Philip; Kohoutek, Neil; Pink, Chris; Valsler, Ben. „Cambridge Structural Database zasáhne jeden milion struktur“. Chemický svět. Citováno 2019-06-07.
- ^ Hall SR, Allen FH, Brown ID (1991). „Krystalografický informační soubor (CIF): nový standardní archivní soubor pro krystalografii“. Acta Crystallographica. A47 (6): 655–685. doi:10.1107 / S010876739101067X. Archivovány od originál dne 2006-11-27. Citováno 2014-09-17.
- ^ Bruno IJ, Groom CR (říjen 2014). „Krystalografický pohled na sdílení dat a znalostí“. Journal of Computer-Aided Molecular Design. 28 (10): 1015–22. Bibcode:2014JCAMD..28.1015B. doi:10.1007 / s10822-014-9780-9. PMC 4196029. PMID 25091065.
- ^ Farrugia LJ (1. srpna 1999). "Sada WinGX pro monokrystalickou krystalografii s malou molekulou". Journal of Applied Crystallography. 32 (4): 837–838. doi:10.1107 / S0021889899006020.
- ^ „3D tisk: snadné jako 1, 2, 3!“. Cambridge Crystallographic Data Center (CCDC). 19. srpna 2015. Citováno 2019-05-18.
externí odkazy
- Cambridge Crystallographic Data Center (CCDC) - nadřazený web pro CSD