Apache bere - Apache cTAKES
![]() | |
Vývojáři | Softwarová nadace Apache |
---|---|
Stabilní uvolnění | 4.0.0 / 25. dubna 2017 |
Úložiště | cVezme úložiště |
Napsáno | Jáva, Scala |
Operační systém | Cross-platform |
Typ | Zpracování přirozeného jazyka, Bioinformatika, Dolování textu, Extrakce informací |
Licence | Licence Apache 2.0 |
webová stránka | ctakes |
Apache cTAKES: systém klinické analýzy textu a extrakce znalostí je open-source Zpracování přirozeného jazyka (NLP) systém, který extrahuje klinické informace z elektronický zdravotní záznam nestrukturovaný text. Zpracovává klinické poznámky a identifikuje typy klinicky pojmenovaných entit - léky, nemoci / poruchy, příznaky / projevy, anatomická místa a postupy. Každá pojmenovaná entita má atributy pro rozsah textu, kód mapování ontologie, kontext (rodinná historie, aktuální, nesouvisející s pacientem) a negovaný / negovaný.[1]
cTAKES byl vytvořen pomocí Rámec architektury pro správu nestrukturovaných informací UIMA a OpenNLP sada nástrojů pro zpracování přirozeného jazyka.[2][3]
Součásti
Komponenty cTAKES jsou speciálně vyškoleny pro klinickou oblast a vytvářejí bohaté jazykové a sémantické anotace, které mohou být využity systémy podpory klinického rozhodování a klinickým výzkumem.[4]
Mezi tyto komponenty patří:
- Identifikátor pojmenované sekce
- Detektor hranice věty
- Tokenizer založený na pravidlech
- Naformátovaný identifikátor seznamu
- Normalizátor
- Kontextově závislý tokenizer
- Značkovač části řeči
- Frázový blok
- Slovníkový anotátor vyhledávání
- Kontextový anotátor
- Detektor negace
- Detektor nejistoty
- Detektor předmětu
- Analyzátor závislostí
- identifikátor stavu kouření pacienta
- Anotátor zmínky o drogách
Dějiny
Vývoj cTAKES začal na Klinika Mayo v roce 2006. Vývojový tým vedený Dr. Guerganou Savovou a Dr. Christopher Chute, včetně lékařů, počítačových vědců a softwarových inženýrů. Po nasazení se cTAKES stal nedílnou součástí Mayo infrastruktury pro správu klinických dat a zpracoval více než 80 milionů klinických poznámek.[5]
Když se doktorka Savova přestěhovala do Bostonská dětská nemocnice počátkem roku 2010 se základní vývojový tým rozrostl o členy. Mezi další externí spolupráce patří:[5]
- University of Colorado
- Brandeis University
- University of Pittsburgh
- Kalifornská univerzita v San Diegu
Taková spolupráce rozšířila možnosti cTAKES do dalších oblastí, jako je dočasné uvažování, odpověď na klinické otázky a řešení koreference pro klinickou doménu.[5]
V roce 2010 přijal cTAKES i2b2 programu a je ústřední součástí Oblast SHARP 4.[5]
V roce 2013 vydala společnost cTAKES své první vydání jako projekt inkubátoru Apache: cTAKES 3.0.
V březnu 2013 se společnost cTAKES stala projektem nejvyšší úrovně Apache (TLP).[5]
Viz také
Reference
- ^ Denecke, Kerstin (2015-08-31). „Nástroje a zdroje pro extrakci informací“. Health Web Science: Data sociálních médií pro zdravotnictví. Springer. str.67. ISBN 978-3-319-20582-3 - prostřednictvím Knih Google.
- ^ Khalifa, Abdulrahman; Meystre, Stéphane (01.12.2015). „Přizpůsobení stávajících zdrojů zpracování přirozeného jazyka pro identifikaci kardiovaskulárních rizikových faktorů v klinických poznámkách“. Časopis biomedicínské informatiky. Sborník sdílených úkolů i2b2 / UTHealth z roku 2014 a workshop o výzvách ve zpracování přirozeného jazyka pro klinická data. 58 (Dodatek): S128 – S132. doi:10.1016 / j.jbi.2015.08.002. PMC 4983192. PMID 26318122.
- ^ Khudairi, Sally (2017-04-25). „Nadace Apache Software Foundation oznamuje Apache® cTAKES ™ v4.0“ (Tisková zpráva). Forest Hill, MD: Softwarová nadace Apache. Globe Newswire. Citováno 2017-09-20.
- ^ Savova, Guergana K; Masanz, James J; Ogren, Philip V; Zheng, Jiaping; Sohn, Sunghwan; Kipper-Schuler, Karin C; Žlab, Christopher G (2010). „Systém Mayo Clinical Text Analysis and Extraction System (cTAKES): architektura, hodnocení komponent a aplikace“. Journal of the American Medical Informatics Association. 17 (5): 507–513. doi:10.1136 / jamia.2009.001560. ISSN 1067-5027. PMC 2995668. PMID 20819853.
- ^ A b C d E "Dějiny". Apache cTAKES ™ - systém pro extrakci znalostí z klinické analýzy textu. 2015-06-22. Citováno 2018-01-11.
externí odkazy
- cTAKES oficiální webové stránky
- Apache ZAČÍNÁ stránku s informacemi o projektu z ASF
- Abstrakt (JAMIA)
- Konsorcium pro otevřené zpracování přirozeného jazyka (OHNLP)
- Program strategických zdravotnických IT pokročilých výzkumných projektů (SHARP)
- Oblast SHARP 4 - Sekundární použití údajů EHR
- Automatizovaná vyhledávací konzola (ARC)
- Extrakce textu se zdravotními informacemi (HITEx) ) byl vyvinut jako součást projektu i2b2. Jedná se o plynovod NLP založený na pravidlech založený na rámci GATE vyvinutém společností Informatika pro integraci biologie a postele.
- Sada nástrojů pro výpočetní a jazykový výzkum (cleartk) (Již není udržováno) byl vyvinut na University of Colorado v Boulderu a poskytuje rámec pro vývoj statistických komponent NLP v Javě. Je postaven na vrcholu Apache UIMA.
- NegEx - je nástroj vyvinutý na University of Pittsburgh pro detekci negovaných výrazů z klinického textu. Systém využívá termíny spouštění jako metodu k určení pravděpodobných scénářů negace ve větě.
- Kontext ): rozšíření NegEx a je také vyvíjeno University of Pittsburgh. ConText rozšiřuje NegEx nejen na detekci negovaných konceptů, ale také na vyhledání časových (nedávné, historické nebo hypotetické scénáře) a toho, kdo je subjektem (zkušeností) (pacientem nebo jiným).
- MetaMap (podle United States National Library of Medicine ): je komplexní systém označování konceptů, který je postaven na vrcholu Jednotný systém lékařských jazyků. Vyžaduje aktivní Licenční smlouva UMLS Metathesaurus (a účet) k použití.
- MedEx - nástroj pro získávání informací o léčbě z klinického textu. MedEx zpracovává volné textové klinické záznamy, aby rozpoznal názvy léků a podpisové informace, jako je dávka léku, frekvence, cesta a doba trvání. Použití je zdarma s licencí UMLS. Je to samostatná aplikace pro Linux a Windows.
- SecTag (hierarchie značení sekcí): rozpoznává záhlaví sekcí not pomocí technik NLP, Bayesian, opravy pravopisu a skórování. Použití je zdarma buď s licencí UMLS, nebo LOINC.
- (Stanfordský rozpoznávač jmenovaných entit (NER) ): Stanford's NER je podmíněný model sekvence náhodných polí spolu s dobře vyvinutými funkcemi pro rozpoznávání pojmenovaných entit v angličtině a němčině.
- (Stanford CoreNLP ) je integrovaná sada nástrojů pro zpracování přirozeného jazyka pro angličtinu v Javě, včetně tokenizace, značení části řeči, rozpoznávání pojmenovaných entit, analýza a koreference.