Těžba biomedicínského textu - Biomedical text mining
Těžba biomedicínského textu (počítaje v to biomedicínské zpracování přirozeného jazyka nebo BioNLP) odkazuje na metody a studium jak dolování textu lze použít na texty a literaturu biomedicínské a molekulární biologie domén. Jako oblast výzkumu zahrnuje biomedicínská těžba textů myšlenky z zpracování přirozeného jazyka, bioinformatika, lékařská informatika a výpočetní lingvistika. Strategie vyvinuté studiemi v této oblasti jsou často aplikovány na biomedicínské a molekulární biologie literatura dostupná prostřednictvím služeb, jako je PubMed.
Úvahy
Použití přístupů k dolování textu na biomedicínský text vyžaduje specifické úvahy společné doméně.
Dostupnost anotovaných textových dat

Velká poznámka korpusy používá se při vývoji a tréninku obecných metod těžby textu (např. sady filmových dialogů,[2] recenze produktů,[3] nebo text článku na Wikipedii) nejsou specifické pro biomedicínský jazyk. I když mohou poskytnout důkazy o obecných vlastnostech textu, jako jsou části řeči, zřídka obsahují koncepty, které zajímají biologové nebo lékaři. Vývoj nových metod pro identifikaci vlastností specifických pro biomedicínské dokumenty proto vyžaduje sestavení specializovaných korpusů.[4] Prostředky určené na pomoc při vytváření nových metod těžby biomedicínských textů byly vyvinuty prostřednictvím výzev Informatika pro integraci biologie a postele (i2b2)[5][6][7] a výzkumní pracovníci v biomedicínské informatice.[8][9] Výzkumníci textové těžby tyto korpusy často kombinují s řízené slovníky a ontologie k dispozici prostřednictvím Národní lékařská knihovna Unified Medical Language System (UMLS) a Lékařské předměty (MeSH).
Strojové učení Metody založené na metodách často vyžadují velmi velké datové sady jako tréninková data pro vytváření užitečných modelů.[10] Ruční anotace velkých textových korpusů není realisticky možná. Údaje o školení proto mohou být produkty slabého dohledu[11][12] nebo čistě statistické metody.
Variace datové struktury
Stejně jako ostatní textové dokumenty obsahují i biomedicínské dokumenty nestrukturovaná data.[13] Publikace výzkumu se řídí různými formáty, obsahují různé typy informací a jsou proložené obrázky, tabulkami a dalším netextovým obsahem. Jak nestrukturovaný text, tak polostrukturované prvky dokumentu, jako jsou tabulky, mohou obsahovat důležité informace, které by se měly těžit z textu.[14] Klinické dokumenty se mohou lišit ve struktuře a jazyku mezi odděleními a místy. Jiné typy biomedicínského textu, například štítky s léky,[15] může postupovat podle obecných strukturálních pokynů, ale postrádají další podrobnosti.
Nejistota
Biomedicínská literatura obsahuje výroky o pozorováních, která nemusí být výroky skutečnosti. Tento text může vyjadřovat nejistotu nebo skepticismus ohledně nároků. Bez konkrétních úprav by přístupy k dolování textu určené k identifikaci nároků v textu mohly nesprávně charakterizovat tato „zajištěná“ tvrzení jako fakta.[16]
Podpora klinických potřeb
Aplikace biomedicínského dolování textu vyvinuté pro klinické použití by měly ideálně odrážet potřeby a požadavky lékařů.[4] To je problém v prostředích, kde podpora klinického rozhodování se očekává, že bude informativní a přesný.
Interoperabilita s klinickými systémy
Nové systémy pro těžbu textu musí pracovat se stávajícími standardy, elektronickými lékařskými záznamy a databázemi.[4] Metody propojení s klinickými systémy, jako je LOINC byly vyvinuty[17] ale vyžadují rozsáhlé organizační úsilí k implementaci a údržbě.[18][19]
Soukromí pacientů
Systémy pro těžbu textu pracující se soukromými lékařskými daty musí respektovat jeho bezpečnost a zajistit, aby byly v případě potřeby anonymizovány.[20][21][22]
Procesy
Při zpracování biomedicínského textu jsou zvláště důležité konkrétní dílčí úkoly.[13]
Rozpoznání pojmenované entity
Vývoj v těžbě biomedicínských textů zahrnoval identifikaci biologických entit s uznání pojmenované entity, nebo NER. Názvy a identifikátory biomolekul, jako např bílkoviny a geny,[23] chemické sloučeniny a léky,[24] a názvy chorob[25] všechny byly použity jako entity. Většina metod rozpoznávání entit je podporována předdefinovanými lingvistickými rysy nebo slovníky, ačkoli tyto metody zahrnují hluboké učení a vkládání slov byli také úspěšní v biomedicínském NER.[26]
Klasifikace dokumentů a shlukování
Biomedicínské dokumenty mohou být klasifikovaný nebo seskupený na základě jejich obsahu a témat. V klasifikaci jsou kategorie dokumentů specifikovány ručně,[27] při klastrování tvoří dokumenty odlišné skupiny závislé na algoritmu.[28] Tyto dva úkoly jsou reprezentativní pro pod dohledem a bez dozoru metod, respektive, cílem obou je vytvořit podmnožiny dokumentů na základě jejich rozlišovacích znaků. Metody pro shlukování biomedicínských dokumentů se spoléhaly k- znamená shlukování.[28]
Objevování vztahů
Biomedicínské dokumenty popisují souvislosti mezi koncepty, ať už se jedná o interakce mezi biomolekulami, události, které se vyskytují následně v průběhu času (tj. temporální vztahy), nebo kauzální vztahy. Metody dolování textu mohou provádět zjišťování vztahů k identifikaci těchto spojení, často ve shodě s rozpoznáváním pojmenovaných entit.[29]
Detekce živého tága
Výzva identifikovat nejisté nebo „zajištěné“ výroky byla řešena detekcí hedge cue v biomedicínské literatuře.[16]
Detekce reklamace
Několik vědců vyvinulo metody k identifikaci konkrétních vědeckých tvrzení z literatury.[30][31] V praxi tento proces zahrnuje izolaci frází a vět označujících základní argumenty autorů dokumentu (proces známý jako těžba argumentů, využívající nástroje používané v oblastech, jako je politologie) a porovnávání tvrzení za účelem nalezení potenciálních rozporů mezi nimi.[31]
Extrakce informací
Extrakce informací nebo IE, je proces automatické identifikace strukturovaných informací z nestrukturovaný nebo částečně strukturovaný text. Procesy IE mohou zahrnovat několik nebo všechny výše uvedené činnosti, včetně rozpoznávání pojmenovaných entit, zjišťování vztahů a klasifikace dokumentů, s celkovým cílem překládat text do strukturovanější formy, jako je obsah šablony nebo znalostní báze. V biomedicínské doméně se IE používá ke generování vazeb mezi pojmy popsanými v textu, například gen A inhibuje gen B. a gen C se podílí na nemoci G.[32] Biomedicínské znalostní základny obsahující tento typ informací jsou obecně produkty rozsáhlé ruční kurace, takže nahrazení manuálního úsilí automatizovanými metodami zůstává přesvědčivou oblastí výzkumu.[33][34]
Získávání informací a zodpovídání otázek
Těžba biomedicínského textu podporuje aplikace pro identifikaci dokumentů a koncepcí odpovídajících vyhledávacím dotazům. Vyhledávače jako např PubMed vyhledávání umožňuje uživatelům dotazovat se v databázích literatury pomocí slov nebo frází obsažených v obsahu dokumentu, metadata nebo indexy jako Pletivo. Podobné přístupy lze použít pro vyhledávání lékařské literatury. Pro jemnější výsledky některé aplikace umožňují uživatelům vyhledávat pomocí dotazy přirozeného jazyka a identifikovat konkrétní biomedicínské vztahy.[35]
Dne 16. Března 2020 se Národní lékařská knihovna a další spustili datový soubor COVID-19 Open Research Dataset (CORD-19) dolování textu současné literatury o novém viru. Datová sada je hostována v projektu Semantic Scholar[36] z Allenův institut pro AI.[37] Mezi další účastníky patří Google, Microsoft Research, Centrum pro bezpečnostní a vznikající technologie a Iniciativa Chan Zuckerberg.[38]
Zdroje
Korpusy
V následující tabulce je uveden seznam korpusů biomedicínského textu a jejich obsahu. Mezi tyto položky patří anotované korpusy, zdroje literatury o biomedicínském výzkumu a zdroje často používané jako odkazy na slovní zásobu a / nebo ontologii, například Pletivo. Položky označené „Ano“ v části „Volně dostupné“ lze stáhnout z veřejně přístupného místa.
Název korpusu | Autoři nebo skupina | Obsah | Volně k dispozici | Citace |
---|---|---|---|---|
Výzva k identifikaci a kouření i2b2 z roku 2006 | i2b2 | 889 deidentifikovaných souhrnů lékařských výtoků s poznámkami pro identifikaci pacientů a rysy stavu kouření. | Ano, s registrací | [39][40] |
2008 Výzva obezity i2b2 | i2b2 | 1 237 deidentifikovaných souhrnů o propuštění z lékařství s poznámkami o přítomnosti nebo nepřítomnosti komorbidity z obezita. | Ano, s registrací | [41] |
Výzva k léčbě i2b2 z roku 2009 | i2b2 | 1 243 deidentifikovaných souhrnů o propuštění z lékařství s poznámkami o názvech a podrobnostech léků, včetně dávkování, režimu, frekvence, trvání, důvod a přítomnost v seznamu nebo narativní struktuře. | Ano, s registrací | [42][43] |
Výzva vztahů i2b2 z roku 2010 | i2b2 | Souhrny lékařských propuštění anotované pro zdravotní problémy, testy, ošetření a vztahy mezi těmito pojmy. Z důvodu omezení IRB je k dispozici pro výzkumné účely pouze podmnožina těchto datových záznamů. | Ano, s registrací | [5] |
Výzva Coreference 2011 i2b2 | i2b2 | 978 deidentifikovaných souhrnů lékařských výtoků, poznámek o pokroku a dalších klinických zpráv anotovaných pojmy a koreference. Zahrnuje korpus ODIE. | Ano, s registrací | [44] |
Výzva dočasných vztahů 2012 i2b2 | i2b2 | 310 deidentifikovaných souhrnů o propuštění z lékařství anotovaných pro události a temporální vztahy. | Ano, s registrací | [6] |
Výzva k identifikaci z roku 2014 i2b2 | i2b2 | 1 304 deidentifikovaných podélných lékařských záznamů anotovaných pro chráněné zdravotní informace (PHI). | Ano, s registrací | [45] |
Výzva rizikových faktorů srdečních chorob 2014 i2b2 | i2b2 | 1 304 deidentifikovaných podélných lékařských záznamů s poznámkami o rizikových faktorech pro onemocnění srdeční tepny. | Ano, s registrací | [46] |
Zaměřené | Bunescu et al. | 200 abstraktů anotovaných pro interakce protein-protein, stejně jako negativní příklady abstraktů, které neobsahují žádné interakce protein-protein. | Ano | [47] |
BioC-BioGRID | BioKREATIVITA | 120 článků s plným textem pro anotaci interakce protein-protein. | Ano | [48] |
BioCreAtIvE 1 | BioKREATIVITA | 15 000 vět (10 000 tréninků a 5 000 testů) komentovaných pro názvy proteinů a genů. 1 000 článků o biomedicínském výzkumu s plným textem s poznámkami s názvy proteinů a Genová ontologie podmínky. | Ano | [49] |
BioCreAtIvE 2 | BioKREATIVITA | 15 000 vět (10 000 tréninků a 5 000 testů, liší se od prvního korpusu) komentovaných názvy proteinů a genů. 542 abstraktů spojených s EntrezGene identifikátory. Řada výzkumných článků komentovaných pro rysy interakce protein-protein. | Ano | [50] |
Korpus úloh BioCreative V CDR (BC5CDR) | BioKREATIVITA | 1 500 článků (název a abstrakt) publikovaných v roce 2014 nebo novějších, komentovaných pro 4 409 chemikálií, 5 818 nemocí a 3116 interakcí chemicko-nemocné. | Ano | [51] |
BioInfer | Pyysalo et al. | 1100 vět z biomedicínského výzkumu obsahuje anotace vztahů, pojmenovaných entit a syntaktických závislostí. | Ne | [52] |
BioScope | Vincze et al. | 1 954 klinických zpráv, 9 článků a 1 273 abstraktů anotovaných pro lingvistický rozsah a termíny označující negaci nebo nejistotu. | Ano | [53] |
BioText rozpoznávající definice zkratek | Projekt BioText | 1 000 abstraktů na téma „droždí“ s poznámkami o zkratkách a jejich významu. | Ano | [54] |
Údaje o interakci proteinu a proteinu BioText | Projekt BioText | 1322 popisujících vět interakce protein-protein mezi HIV-1 a lidské proteiny, anotované typy interakcí. | Ano | [55] |
Srovnávací databáze toxikogenomiky | Davise et al. | Databáze ručně ošetřených asociací mezi chemickými látkami, genovými produkty, fenotypy, chorobami a expozicemi prostředí. | Ano | [56] |
ŘEMESLO | Verspoor et al. | 97 plnotextových biomedicínských publikací anotovaných lingvistickými strukturami a biologickými koncepty | Ano | [57] |
GENIA Corpus | Projekt GENIA | 1 999 biomedicínských výzkumů abstraktů na téma „člověk“, „krevní buňky“ a „transkripční faktory“, anotované pro části řeči, syntaxi, termíny, události, vztahy a koreference. | Ano | [58][59] |
FamPlex | Bachman et al. | Názvy a rodiny proteinů spojené s jedinečnými identifikátory. Zahrnuje připevnit sady. | Ano | [60] |
FlySlip Abstrakty | FlySlip | 82 výzkumných abstraktů Drosophila s poznámkami s názvy genů. | Ano | [61] |
FlySlip Full Papers | FlySlip | 5 výzkumných prací na Drosophila s poznámkou anaforický vztahy mezi podstatnými frázemi odkazujícími na geny a biologicky příbuzné entity. | Ano | [62] |
Spekulativní věty FlySlip | FlySlip | Více než 1 500 vět označených jako spekulativní nebo nespekulativní. Zahrnuje anotace klauzulí. | Ano | [63] |
IEPA | Ding et al. | 486 vět z biomedicínského výzkumu anotuje anotace pro páry společně se vyskytujících chemikálií, včetně proteinů. | Ne | [64] |
Korpus JNLPBA | Kim et al. | Rozšířená verze verze 3 korpusu GENIA pro úkoly NER. | Ne | [65] |
Učit se jazyk logicky (LLL) | Nédellec et al. | 77 vět z výzkumných článků o bakterii Bacillus subtilis, komentovaný pro interakce protein-gen. | Ano | [66] |
Lékařské předměty (MeSH) | Národní lékařská knihovna | Hierarchicky organizovaná terminologie pro indexování a katalogizaci biomedicínských dokumentů. | Ano | [67] |
Metatezaurus | Národní lékařská knihovna / UMLS | 3,67 milionu konceptů a 14 milionů názvů konceptů, mapovaných mezi více než 200 zdroji biomedicínského slovníku a identifikátorů. | Ano, s licenční smlouvou UMLS | [68][69] |
MIMIC-III | Laboratoř MIT pro výpočetní fyziologii | de-identifikované údaje spojené s 53 423 odlišnými hospitalizacemi pro dospělé pacienty. | Vyžaduje školení a formální žádost o přístup | [70] |
ODIE Corpus | Savova et al. | 180 klinických poznámek s poznámkami 5 992 koreference páry. | Ne | [71] |
OHSUMED | Hersh et al. | 348 566 abstraktů biomedicínského výzkumu a indexování informací z MEDLINE, včetně MeSH (od roku 1991). | Ano | [72] |
PMC Otevřete podmnožinu přístupu | Národní lékařská knihovna / PubMed Central | Více než 2 miliony výzkumných článků, aktualizovaných každý týden. | Ano | [73] |
RxNorm | Národní lékařská knihovna / UMLS | Normalizované názvy pro klinické léky a balíčky léků s kombinovanými složkami, silnými stránkami a formou a přiřazené typy ze Sémantické sítě. | Ano, s licenční smlouvou UMLS | [74] |
Sémantická síť | Národní lékařská knihovna / UMLS | Seznamy 133 sémantických typů a 54 sémantických vztahů pokrývající biomedicínské koncepty a slovní zásobu. | Ano, s licenční smlouvou UMLS | [75][76] |
SPECIALIST Lexikon | Národní lékařská knihovna / UMLS | Syntaktik Lexikon biomedicínské a obecné angličtiny. | Ano | [77][78] |
Word Sense Disambiguation (WSD) | Národní lékařská knihovna / UMLS | 203 nejednoznačných slov a 37 888 automaticky extrahovaných případů jejich použití v publikacích o biomedicínském výzkumu. | Ano, s licenční smlouvou UMLS | [79][80] |
Yapex | Franzén et al. | 200 biomedicínských výzkumných anotací anotovaných názvy proteinů. | Ne | [81] |
Vkládání slov
Několik skupin vyvinulo sady biomedicínského slovníku namapovaného na vektory reálných čísel, známé jako slovní vektory nebo vkládání slov. Zdroje předem vyškolených vložení specifických pro biomedicínský slovník jsou uvedeny v tabulce níže. Většinu tvoří výsledky word2vec model vyvinutý společností Mikolov et al[82] nebo varianty word2vec.
Nastavit název | Autoři nebo skupina | Obsah a zdroj | Citace |
---|---|---|---|
BioASQword2vec | BioASQ | Vektory produkované word2vec od 10 876 004 anglicky PubMed abstrakty. | [83] |
zdroje bio.nlplab.org | Pyysalo et al. | Sbírka slovních vektorů vytvořená různými přístupy, procvičená na textu z PubMed a PubMed Central. | [84] |
BioVec | Asgari a Mofrad | Vektory pro genové a proteinové sekvence, trénované s použitím Swiss-Prot. | [85] |
RadiologyReportEmbedding | Banerjee et al. | Vektory produkované word2vec z textu 10 000 radiologických zpráv. | [86] |
Aplikace

Aplikace pro těžbu textu v biomedicínské oblasti zahrnují výpočetní přístupy, které pomáhají se studiemi v dokování bílkovin,[87] proteinové interakce,[88][89] a asociace protein-nemoc.[90]
Identifikace genového klastru
Metody pro stanovení asociace genové shluky získané microarray byly vyvinuty experimenty s biologickým kontextem poskytnuté v příslušné literatuře.[91]
Interakce proteinů
Automatická extrakce proteinových interakcí[92] a asociace proteinů k funkčním konceptům (např. genová ontologie podmínky) byl prozkoumán.[Citace je zapotřebí ] Vyhledávací modul PIE byl vyvinut k identifikaci a vrácení zmínek o interakci protein-protein MEDLINE -indexované články.[93] Extrakce kinetických parametrů z textu nebo subcelulární umístění bílkovin byly také řešeny technologií extrakce informací a těžby textu.[Citace je zapotřebí ]
Sdružení genových chorob
Těžba textu může pomoci při stanovení priorit genů nebo identifikaci genů, ke kterým pravděpodobně přispěje genetické onemocnění. Jedna skupina porovnávala několik slovníků, reprezentací a algoritmy hodnocení vyvinout měřítka pro stanovení priorit genů.[94]
Asociace genových vlastností
Skupina zemědělské genomiky identifikovala geny související s hovězí reprodukční vlastnosti mimo jiné využívající dolování textu.[95]
Sdružení protein-nemoc
Dolování textu umožňuje nezaujaté vyhodnocení vztahů mezi bílkovinami a chorobami v obrovském množství nestrukturovaná textová data.[96]
Aplikace frázové těžby na asociace chorob
Studie těžby textu shromáždila sbírku 709 jádra proteiny extracelulární matrix a přidružené proteiny založené na dvou databázích: MatrixDB (matrixdb.univ-lyon1.fr ) a UniProt. Tato sada proteinů měla zvládnutelnou velikost a bohaté množství souvisejících informací, takže je vhodná pro použití nástrojů pro dolování textu. Vědci provedli analýzu těžby frází, aby křížově zkoumali jednotlivé proteiny extracelulární matrice v biomedicínské literatuře, která se týkala šesti kategorií kardiovaskulární choroby. Použili kanál těžby frází, sémantický s vědomím kontextu Online analytické zpracování (CaseOLAP),[97] poté sémanticky skórovalo všech 709 proteinů podle jejich integrity, popularity a odlišnosti pomocí potrubí CaseOLAP. Studie textového dolování potvrdila existující vztahy a informovala dříve nerozpoznané biologické procesy v kardiovaskulární patofyziologii.[90]
Softwarové nástroje
Vyhledávače
Vyhledávače navržené pro získat biomedicínskou literaturu relevantní pro dotaz poskytnutý uživatelem se často spoléhají na přístupy k dolování textu. Mezi veřejně dostupné nástroje specifické pro výzkumnou literaturu patří PubMed Vyhledávání, Evropa PubMed Central hledat, GeneView,[98] a APSE[99] Podobně byly vyvinuty vyhledávače a indexovací systémy specifické pro biomedicínská data, včetně DataMed[100] a OmicsDI.[101]
Některé vyhledávače, například Essie,[102] OncoSearch,[103] PubGene,[104][105] a GoPubMed[106] byly dříve veřejné, ale od té doby byly přerušeny, zastarány nebo integrovány do komerčních produktů.
Systémy pro analýzu lékařských záznamů
Elektronické lékařské záznamy (EMR) a elektronické zdravotní záznamy (EHR) jsou shromažďovány klinickým personálem v průběhu diagnostiky a léčby. Ačkoli tyto záznamy obecně obsahují strukturované komponenty s předvídatelnými formáty a datovými typy, zbývající části sestav jsou často ve volném textu. Pro analýzu těchto částí volného textu byla vyvinuta celá řada kompletních systémů a nástrojů.[107] Systém MedLEE byl původně vyvinut pro analýzu hrudníku radiologie zprávy, ale později rozšířena o další témata zpráv.[108] The systém klinické analýzy textu a extrakce znalostí, nebo cTAKES, komentuje klinický text pomocí slovníku pojmů.[109] Systém CLAMP nabízí podobné funkce s uživatelsky přívětivým rozhraním.[110]
Rámce
Výpočtové rámce byly vyvinuty k rychlému vytvoření nástrojů pro úkoly těžby biomedicínského textu. SwellShark[111] je rámec pro biomedicínské NER, který nevyžaduje žádná data označená člověkem, ale využívá zdroje pro slabý dohled (např. UMLS sémantické typy). Rámec SparkText[112] používá Apache Spark datové proudy, a NoSQL databáze a základní strojové učení metody stavět prediktivní modely z vědeckých článků.
API
Některé nástroje pro těžbu biomedicínského textu a zpracování přirozeného jazyka jsou k dispozici prostřednictvím aplikační programovací rozhraní nebo API. NOBLE Coder provádí rozpoznávání konceptů prostřednictvím API.[113]
Konference
Následující akademické konference a workshopy pořádají diskuse a prezentace týkající se pokroků v těžbě biomedicínských textů. Většina publikuje řízení.
Název konference | Zasedání | Řízení |
---|---|---|
Sdružení pro výpočetní lingvistiku (ACL) výroční zasedání | na plenárním zasedání a v rámci workshopu BioNLP | |
Workshop ACL BioNLP | [114] | |
Americká asociace lékařské informatiky (AMIA) výroční zasedání | na plenárním zasedání | |
Inteligentní systémy pro molekulární biologii (ISMB) | na plenárním zasedání a na workshopech BioLINK a Bio-ontologies | [115] |
Mezinárodní konference o bioinformatice a biomedicíně (BIBM) | [116] | |
Mezinárodní konference o řízení informací a znalostí (CIKM) | v rámci Mezinárodního workshopu o dolování dat a textů v biomedicínské informatice (DTMBIO) | [117] |
Severoamerická asociace pro výpočetní lingvistiku (NAACL) výroční zasedání | na plenárním zasedání a v rámci workshopu BioNLP | |
Pacifické symposium o biopočítačích (PSB) | na plenárním zasedání | [118] |
Praktické aplikace výpočetní biologie a bioinformatiky (PACBB) | [119] | |
Text REtrieval Conference (TREC) | dříve jako součást TREC Genomics dráha; od roku 2018 součást Precision Medicine Track | [120] |
Časopisy
Různé akademické časopisy vydávání rukopisů z biologie a medicíny zahrnuje témata v oblasti těžby textu a softwaru pro zpracování přirozeného jazyka. Některé časopisy, včetně časopisů Journal of the American Medical Informatics Association (JAMIA) a Časopis biomedicínské informatiky jsou populární publikace k těmto tématům.
Reference
- ^ Westergaard D, Stærfeldt HH, Tønsberg C, Jensen LJ, Brunak S (únor 2018). „Komplexní a kvantitativní srovnání těžby textu v 15 milionech plnotextových článků oproti odpovídajícím abstraktům“. PLOS výpočetní biologie. 14 (2): e1005962. Bibcode:2018PLSCB..14E5962W. doi:10.1371 / journal.pcbi.1005962. PMC 5831415. PMID 29447159.
- ^ Danescu-Niculescu-Mizil C, Lee L (2011). Chameleoni ve imaginárních rozhovorech: nový přístup k porozumění koordinaci lingvistického stylu v dialogech. CMCL '11. str. 76–87. arXiv:1106.3077. Bibcode:2011arXiv1106.3077D. ISBN 978-1-932432-95-4.
- ^ McAuley J, Leskovec J (2013-10-12). Skryté faktory a skrytá témata: pochopení dimenzí hodnocení pomocí textu recenze. ACM. str. 165–172. doi:10.1145/2507157.2507163. ISBN 978-1-4503-2409-0. S2CID 6440341.
- ^ A b C Ohno-Machado L, Nadkarni P, Johnson K (2013). „Zpracování přirozeného jazyka: algoritmy a nástroje k získání vypočítatelných informací z EHR a z biomedicínské literatury“. Journal of the American Medical Informatics Association. 20 (5): 805. doi:10.1136 / amiajnl-2013-002214. PMC 3756279. PMID 23935077.
- ^ A b Uzuner Ö, South BR, Shen S, DuVall SL (2011). „Výzva i2b2 / VA 2010 na koncepty, tvrzení a vztahy v klinickém textu“. Journal of the American Medical Informatics Association. 18 (5): 552–6. doi:10.1136 / amiajnl-2011-000203. PMC 3168320. PMID 21685143.
- ^ A b Sun W, Rumshisky A, Uzuner O (2013). „Hodnocení časových vztahů v klinickém textu: výzva 2012 i2b2“. Journal of the American Medical Informatics Association. 20 (5): 806–13. doi:10.1136 / amiajnl-2013-001628. PMC 3756273. PMID 23564629.
- ^ Stubbs A, Kotfila C, Uzuner Ö (prosinec 2015). „Automatizované systémy pro identifikaci longitudinálních klinických narativů: Přehled sdíleného úkolu 2014 i2b2 / UTHealth, stopa 1“. Časopis biomedicínské informatiky. 58 Suppl: S11–9. doi:10.1016 / j.jbi.2015.06.007. PMC 4989908. PMID 26225918.
- ^ Albright D, Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK (2013). „Směrem ke komplexním syntaktickým a sémantickým anotacím klinického příběhu“. Journal of the American Medical Informatics Association. 20 (5): 922–30. doi:10.1136 / amiajnl-2012-001317. PMC 3756257. PMID 23355458.
- ^ Bada M, Eckert M, Evans D, Garcia K, Shipley K, Sitnikov D, Baumgartner WA, Cohen KB, Verspoor K, Blake JA, Hunter LE (červenec 2012). „Anotace konceptu v CRAFT corpus“. BMC bioinformatika. 13 (1): 161. doi:10.1186/1471-2105-13-161. PMC 3476437. PMID 22776079.
- ^ Holzinger A, Jurisica I (2014), „Discovery Knowledge and Data Mining in Biomedical Informatics: The Future Is in Integrative, Interactive Machine Learning Solutions“, Interaktivní získávání znalostí a dolování dat v biomedicínské informaticeSpringer Berlin Heidelberg, str. 1–18, doi:10.1007/978-3-662-43968-5_1, ISBN 9783662439678
- ^ Ratner A, Bach SH, Ehrenberg H, Fries J, Wu S, Ré C (listopad 2017). „Snorkel: Rapid Training Data Creation with Weak Supervision“. Sborník nadace VLDB. 11 (3): 269–282. arXiv:1711.10160. Bibcode:2017arXiv171110160R. doi:10.14778/3157794.3157797. PMC 5951191. PMID 29770249.
- ^ Ren X, Wu Z, He W, Qu M, Voss CR, Ji H, Abdelzaher TF, Han J (2017-04-03). „Co Typ". CoType: Společná extrakce zadaných entit a vztahy se znalostními bázemi. Řídící výbor pro mezinárodní konference na webu. str. 1015–1024. doi:10.1145/3038912.3052708. ISBN 9781450349130. S2CID 1724837.
- ^ A b Erhardt RA, Schneider R, Blaschke C (duben 2006). "Stav technik těžby textu aplikovaných na biomedicínský text". Objev drog dnes. 11 (7–8): 315–25. doi:10.1016 / j.drudis.2006.02.011. PMID 16580973.
- ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (únor 2019). "Rámec pro extrakci informací z tabulek v biomedicínské literatuře". Mezinárodní deník o analýze a uznávání dokumentů. 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007 / s10032-019-00317-0. S2CID 62880746.
- ^ Demner-Fushman D, Shooshan SE, Rodriguez L, Aronson AR, Lang F, Rogers W, Roberts K, Tonning J (leden 2018). „Soubor dat 200 strukturovaných štítků produktů s poznámkami o nežádoucích účincích léků“. Vědecké údaje. 5: 180001. Bibcode:2018NatSD ... 580001D. doi:10.1038 / sdata.2018.1. PMC 5789866. PMID 29381145.
- ^ A b Agarwal S, Yu H (prosinec 2010). „Detekce zajišťovacích tág a jejich rozsahu v biomedicínském textu s podmíněnými náhodnými poli“. Časopis biomedicínské informatiky. 43 (6): 953–61. doi:10.1016 / j.jbi.2010.08.003. PMC 2991497. PMID 20709188.
- ^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). „Implementace a správa biomedicínského pozorovacího slovníku ve velkém zdravotnickém informačním systému“. Journal of the American Medical Informatics Association. 20 (5): 940–6. doi:10.1136 / amiajnl-2012-001410. PMC 3756262. PMID 23635601.
- ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (červen 2017). „The Georges Pompidou University Hospital Clinical Data Warehouse: 8-years follow-up experience“. International Journal of Medical Informatics. 102: 21–28. doi:10.1016 / j.ijmedinf.2017.02.006. PMID 28495345.
- ^ Levy B. „Výzva sémantiky zdravotní péče“. www.fortherecordmag.com. Great Valley Publishing Company. Citováno 2018-10-04.
- ^ Goodwin LK, Prather JC (2002). "Ochrana soukromí pacientů při těžbě klinických dat". Journal of Healthcare Information Management. 16 (4): 62–7. PMID 12365302.
- ^ Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (červenec 2016). „Ochrana soukromí pacientů při sdílení údajů z klinických studií na úrovni pacientů“. Metodika lékařského výzkumu BMC. 16 Suppl 1 (S1): 77. doi:10.1186 / s12874-016-0169-4. PMC 4943495. PMID 27410040.
- ^ Graves S (2013). "Důvěrnost, elektronické zdravotní záznamy a lékař". Perspektivy v biologii a medicíně. 56 (1): 105–25. doi:10,1353 / pbm.2013.0003. PMID 23748530. S2CID 25816887.
- ^ Leser U, Hakenberg J (01.01.2005). "Co dělá jméno genu? Rozpoznání pojmenované entity v biomedicínské literatuře". Briefings in Bioinformatics. 6 (4): 357–369. doi:10.1093 / bib / 6.4.357. ISSN 1467-5463. PMID 16420734.
- ^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. "Přehled úlohy chemické sloučeniny a názvu léčiva (CHEMDNER)" (PDF). Proceedings of the Fourth BioCreative Challenge Evaluation Workshop. 2: 6–37.
- ^ Jimeno A, Jimenez-Ruiz E, Lee V, Gaudan S, Berlanga R, Rebholz-Schuhmann D (duben 2008). „Posouzení uznání pojmenované entity na korpusu komentovaných vět“. BMC bioinformatika. 9 Suppl 3 (Suppl 3): S3. doi:10.1186 / 1471-2105-9-s3-s3. PMC 2352871. PMID 18426548.
- ^ Habibi M, Weber L, Neves M, Wiegandt DL, Leser U (červenec 2017). „Hluboké učení pomocí vkládání slov zlepšuje rozpoznávání biomedicínských pojmenovaných entit“. Bioinformatika. 33 (14): i37 – i48. doi:10.1093 / bioinformatika / btx228. PMC 5870729. PMID 28881963.
- ^ Cohen AM (2006). „Efektivní obecný přístup k automatizované klasifikaci biomedicínských dokumentů“. AMIA ... Sborník výročních sympozií. AMIA Symposium: 161–5. PMC 1839342. PMID 17238323.
- ^ A b Xu R, Wunsch DC (2010). "Algoritmy shlukování v biomedicínském výzkumu: recenze". Recenze IEEE v biomedicínském inženýrství. 3: 120–54. doi:10.1109 / rbme.2010.2083647. PMID 22275205. S2CID 206522771.
- ^ Rodriguez-Esteban R (prosinec 2009). „Těžba biomedicínských textů a její aplikace“. PLOS výpočetní biologie. 5 (12): e1000597. Bibcode:2009PLSCB ... 5E0597R. doi:10.1371 / journal.pcbi.1000597. PMC 2791166. PMID 20041219.
- ^ Blake C (duben 2010). „Kromě genů, proteinů a abstraktů: Identifikace vědeckých tvrzení z plnotextových biomedicínských článků“. Časopis biomedicínské informatiky. 43 (2): 173–89. doi:10.1016 / j.jbi.2009.11.001. PMID 19900574.
- ^ A b Alamri A, Stevensony M (2015). Automatická identifikace potenciálně protichůdných tvrzení na podporu systematických kontrol. 2015 Mezinárodní konference IEEE o bioinformatice a biomedicíně (BIBM). IEEE. doi:10.1109 / bibm.2015.7359808. ISBN 978-1-4673-6799-8. S2CID 28079483.
- ^ Fleuren WW, Alkema W (březen 2015). "Aplikace dolování textu v biomedicínské doméně". Metody. 74: 97–106. doi:10.1016 / j.ymeth.2015.01.015. PMID 25641519.
- ^ Karp PD (01.01.2016). „Můžeme nahradit kuraci softwarem pro extrakci informací?“. Databáze. 2016: baw150. doi:10.1093 / databáze / baw150. PMC 5199131. PMID 28025341.
- ^ Krallinger M, Valencia A, Hirschman L (2008). „Propojení genů s literaturou: těžba textu, extrakce informací a aplikace pro vyhledávání v biologii“. Genome Biology. 9 Suppl 2 (Suppl 2): S8. doi:10.1186 / gb-2008-9-s2-s8. PMC 2559992. PMID 18834499.
- ^ Neves M, Leser U (březen 2015). "Odpověď na otázky pro biologii". Metody. 74: 36–46. doi:10.1016 / j.ymeth.2014.10.023. PMID 25448292.
- ^ Schéma sémantiky. (2020) „Cut through the harbour: [Open Access] Download the Coronavirus Open Research Dataset“. Web Semantics Scholar Vyvolány 30 March 2020
- ^ Brennanová, Patti. (24. března 2020). „Blog: Jak knihovna reaguje na globální krizi zdraví?“. Web National Library of Medicine Vyvolány 30 March 2020.
- ^ Brainard, Jeffrey (13. května 2020). „Vědci se topí v novinách COVID-19. Mohou je nové nástroje udržet nad vodou?“. Věda | AAAS. Citováno 17. května 2020.
- ^ Uzuner O, Luo Y, Szolovits P (2007-09-01). „Hodnocení nejnovějšího stavu automatické de-identifikace“. Journal of the American Medical Informatics Association. 14 (5): 550–63. doi:10.1197 / jamia.m2444. PMC 1975792. PMID 17600094.
- ^ Uzuner O, Goldstein I, Luo Y, Kohane I (2008-01-01). „Identifikace stavu kouření pacienta z lékařských propouštěcích záznamů“. Journal of the American Medical Informatics Association. 15 (1): 14–24. doi:10.1197 / jamia.m2408. PMC 2274873. PMID 17947624.
- ^ Uzuner O (2009). „Rozpoznávání obezity a komorbidit v řídkých datech“. Journal of the American Medical Informatics Association. 16 (4): 561–70. doi:10.1197 / jamia.M3115. PMC 2705260. PMID 19390096.
- ^ Uzuner O, Solti I, Xia F, Cadag E (2010). „Experiment s anotací komunity pro generování základní pravdy pro medikační výzvu i2b2“. Journal of the American Medical Informatics Association. 17 (5): 519–23. doi:10.1136 / jamia.2010.004200. PMC 2995684. PMID 20819855.
- ^ Uzuner O, Solti I, Cadag E (2010). „Extrahování informací o lécích z klinického textu“. Journal of the American Medical Informatics Association. 17 (5): 514–8. doi:10.1136 / jamia.2010.003947. PMC 2995677. PMID 20819854.
- ^ Uzuner O, Bodnari A, Shen S, Forbush T, Pestian J, South BR (2012). „Hodnocení stavu techniky v rozlišení koreference pro elektronické lékařské záznamy“. Journal of the American Medical Informatics Association. 19 (5): 786–91. doi:10.1136 / amiajnl-2011-000784. PMC 3422835. PMID 22366294.
- ^ Stubbs A, Uzuner Ö (prosinec 2015). „Anotace podélných klinických narativů pro deidentifikaci: korpus i2b2 / UTHealth z roku 2014“. Časopis biomedicínské informatiky. 58 Suppl: S20–9. doi:10.1016 / j.jbi.2015.07.020. PMC 4978170. PMID 26319540.
- ^ Stubbs A, Uzuner Ö (prosinec 2015). „Anotace rizikových faktorů pro srdeční choroby v klinických příbězích pro diabetiky“. Časopis biomedicínské informatiky. 58 Suppl: S78–91. doi:10.1016 / j.jbi.2015.05.009. PMC 4978180. PMID 26004790.
- ^ Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, Wong YW (únor 2005). "Srovnávací experimenty na učení extraktorů informací o proteinech a jejich interakcích". Umělá inteligence v medicíně. 33 (2): 139–55. CiteSeerX 10.1.1.10.2168. doi:10.1016 / j.artmed.2004.07.016. PMID 15811782.
- ^ Islamaj Dogan R, Kim S, Chatr-Aryamontri A, Chang CS, Oughtred R, Rust J, Wilbur WJ, Comeau DC, Dolinski K, Tyers M (2017-01-01). „Korpus BioC-BioGRID: články s plným textem komentované pro léčení protein-protein a genetické interakce“. Databáze. 2017: baw147. doi:10.1093 / databáze / baw147. PMC 5225395. PMID 28077563.
- ^ Hirschman L, Yeh A, Blaschke C, Valencia A (2005). "Přehled BioCreAtIvE: kritické hodnocení extrakce informací pro biologii". BMC bioinformatika. 6 Suppl 1: S1. doi:10.1186 / 1471-2105-6-S1-S1. PMC 1869002. PMID 15960821.
- ^ Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A (2008). „Hodnocení systémů pro těžbu textu pro biologii: přehled druhé výzvy komunity BioCreative“. Genome Biology. 9 Suppl 2 (Suppl 2): S1. doi:10.1186 / gb-2008-9-s2-s1. PMC 2559980. PMID 18834487.
- ^ Li J, Sun Y, Johnson RJ, Sciaky D, Wei CH, Leaman R, Davis AP, Mattingly CJ, Wiegers TC, Lu Z (2016). „Corpus úkolu BioCreative V CDR: zdroj pro extrakci vztahu chemických chorob“. Databáze. 2016: baw068. doi:10.1093 / databáze / baw068. PMC 4860626. PMID 27161011.
- ^ Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, Salakoski T (únor 2007). „BioInfer: korpus pro extrakci informací v biomedicínské doméně“. BMC bioinformatika. 8 (1): 50. doi:10.1186/1471-2105-8-50. PMC 1808065. PMID 17291334.
- ^ Vincze V, Szarvas G, Farkas R, Móra G, Csirik J (listopad 2008). „Korpus BioScope: biomedicínské texty s poznámkami o nejistotě, negaci a jejich rozsahu“. BMC bioinformatika. 9 Suppl 11 (Suppl 11): S9. doi:10.1186 / 1471-2105-9-s11-s9. PMC 2586758. PMID 19025695.
- ^ Schwartz AS, Hearst MA (2003). "Jednoduchý algoritmus pro identifikaci zkratkových definic v biomedicínském textu". Tichomořské symposium o biopočítačích. Pacifické symposium o biopočítačích: 451–62. PMID 12603049.
- ^ Rosario B, Hearst MA (06.10.2005). "Vícesměrná klasifikace vztahů". Klasifikace vícecestných vztahů: aplikace na interakce protein-protein. HLT '05. Sdružení pro výpočetní lingvistiku. str. 732–739. doi:10.3115/1220575.1220667. S2CID 902226.
- ^ Davis, Allan Peter; Grondin, Cynthia J; Johnson, Robin J; Sciaky, Daniela; McMorran, Roy; Wiegers, Jolene; Wiegers, Thomas C; Mattingly, Carolyn J (01.01.2019). „Srovnávací databáze toxikogenomiky: aktualizace 2019“. Výzkum nukleových kyselin. 47 (D1): D948 – D954. doi:10.1093 / nar / gky868. ISSN 0305-1048. PMC 6323936. PMID 30247620.
- ^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (srpen 2012). „Korpus plnotextových článků v časopisech je robustní hodnotící nástroj pro odhalení rozdílů ve výkonu biomedicínských nástrojů pro zpracování přirozeného jazyka“. BMC bioinformatika. 13 (1): 207. doi:10.1186/1471-2105-13-207. PMC 3483229. PMID 22901054.
- ^ Kim JD, Ohta T, Tateisi Y, Tsujii J (2003-07-03). „GENIA corpus - sémanticky anotovaný korpus pro biotextovou těžbu“. Bioinformatika. 19 (Suppl 1): i180 – i182. doi:10.1093 / bioinformatika / btg1023. PMID 12855455.
- ^ „Projekt GENIA“. www.geniaproject.org. Citováno 2018-10-06.
- ^ Bachman JA, Gyori BM, Sorger PK (červen 2018). „FamPlex: zdroj pro rozpoznávání entit a řešení vztahů lidských proteinových rodin a komplexů při těžbě biomedicínských textů“. BMC bioinformatika. 19 (1): 248. doi:10.1186 / s12859-018-2211-5. PMC 6022344. PMID 29954318.
- ^ Vlachos A, Gasperin C (2006). „Bootstrapping a vyhodnocení rozpoznávání pojmenovaných entit v biomedicínské doméně“. BioNLP '06 Sborník workshopů o propojení zpracování přirozeného jazyka a biologie: směrem k hlubší analýze biologické literatury. BioNLP '06: 138–145. doi:10.3115/1567619.1567652.
- ^ Gasperin C, Karamanis N, Seal R (2007). "Anotace anaforických vztahů v biomedicínských plnotextových článcích využívajících schéma relevantní pro doménu". Sborník DAARC 2007: 19–24.
- ^ Medlock B, Briscoe T (2007). „Slabě kontrolované učení pro klasifikaci živých plotů ve vědecké literatuře“ (PDF). Sborník ze 45. výročního zasedání Asociace počítačové lingvistiky: 992–999.
- ^ Ding J, Berleant D, Nettleton D, Wurtele E (2001). Těžba MEDLINE: Abstrakty, věty nebo fráze?. Biocomputing 2002. SVĚT VĚDECKÝ. str.326–337. CiteSeerX 10.1.1.385.6071. doi:10.1142/9789812799623_0031. ISBN 9789810247775. PMID 11928487.
- ^ Kim, Jin-Dong; Ach, Tomoko; Tsuruoka, Yoshimasa; Tateisi, Yuka; Collier, Nigel (2004). „Úvod do úlohy rozpoznávání bio-entit na JNLPBA“. Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications - JNLPBA '04: 70. doi:10.3115/1567594.1567610.
- ^ "LLLchallenge". genome.jouy.inra.fr. Citováno 2018-10-06.
- ^ "Medical Subject Headings - Home Page". www.nlm.nih.gov. Citováno 2018-10-06.
- ^ Bodenreider O (January 2004). "The Unified Medical Language System (UMLS): integrating biomedical terminology". Výzkum nukleových kyselin. 32 (Database issue): D267–70. doi:10.1093/nar/gkh061. PMC 308795. PMID 14681409.
- ^ "Metathesaurus". www.nlm.nih.gov. Citováno 2018-10-07.
- ^ Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Celi LA, Mark RG (May 2016). "MIMIC-III, a freely accessible critical care database". Vědecké údaje. 3: 160035. Bibcode:2016NatSD...360035J. doi:10.1038/sdata.2016.35. PMC 4878278. PMID 27219127.
- ^ Savova GK, Chapman WW, Zheng J, Crowley RS (2011). "Anaphoric relations in the clinical narrative: corpus creation". Journal of the American Medical Informatics Association. 18 (4): 459–65. doi:10.1136/amiajnl-2011-000108. PMC 3128403. PMID 21459927.
- ^ Hersh W, Buckley C, Leone TJ, Hickam D (1994). OHSUMED: An Interactive Retrieval Evaluation and New Large Test Collection for Research. Springer London. pp. 192–201. doi:10.1007/978-1-4471-2099-5_20. ISBN 9783540198895. S2CID 15094383.
- ^ "Open Access Subset". www.ncbi.nlm.nih.gov. Citováno 2018-10-06.
- ^ Nelson SJ, Zeng K, Kilbourne J, Powell T, Moore R (2011). "Normalized names for clinical drugs: RxNorm at 6 years". Journal of the American Medical Informatics Association. 18 (4): 441–8. doi:10.1136/amiajnl-2011-000116. PMC 3128404. PMID 21515544.
- ^ McCray AT (2003). "An upper-level ontology for the biomedical domain". Comparative and Functional Genomics. 4 (1): 80–4. doi:10.1002/cfg.255. PMC 2447396. PMID 18629109.
- ^ "The UMLS Semantic Network". semanticnetwork.nlm.nih.gov. Citováno 2018-10-07.
- ^ McCray AT, Srinivasan S, Browne AC (1994). "Lexical methods for managing variation in biomedical terminologies". Řízení. Symposium on Computer Applications in Medical Care: 235–9. PMC 2247735. PMID 7949926.
- ^ "The SPECIALIST NLP Tools". lexsrv3.nlm.nih.gov. Citováno 2018-10-07.
- ^ Jimeno-Yepes AJ, McInnes BT, Aronson AR (June 2011). "Exploiting MeSH indexing in MEDLINE to generate a data set for word sense disambiguation". BMC bioinformatika. 12 (1): 223. doi:10.1186/1471-2105-12-223. PMC 3123611. PMID 21635749.
- ^ "Word Sense Disambiguation (WSD) Test Collections". wsd.nlm.nih.gov. Citováno 2018-10-07.
- ^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (December 2002). "Protein names and how to find them". International Journal of Medical Informatics. 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183. doi:10.1016/s1386-5056(02)00052-7. PMID 12460631.
- ^ Mikolov T, Chen K, Corrado G, Dean J (2013-01-16). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL ].
- ^ "BioASQ Releases Continuous Space Word Vectors Obtained by Applying Word2Vec to PubMed Abstracts | bioasq.org". bioasq.org. Citováno 2018-11-07.
- ^ "bio.nlplab.org". bio.nlplab.org. Citováno 2018-11-07.
- ^ Asgari E, Mofrad MR (2015-11-10). „Kontinuální distribuované zastoupení biologických sekvencí pro hlubokou proteomiku a genomiku“. PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371 / journal.pone.0141287. PMC 4640716. PMID 26555596.
- ^ Banerjee I, Madhavan S, Goldman RE, Rubin DL (2017). "Intelligent Word Embeddings of Free-Text Radiology Reports". AMIA ... Annual Symposium Proceedings. AMIA Symposium. 2017: 411–420. arXiv:1711.06968. Bibcode:2017arXiv171106968B. PMC 5977573. PMID 29854105.
- ^ A b Badal VD, Kundrotas PJ, Vakser IA (December 2015). "Text Mining for Protein Docking". PLOS výpočetní biologie. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
- ^ Papanikolaou N, Pavlopoulos GA, Theodosiou T, Iliopoulos I (March 2015). "Protein-protein interaction predictions using text mining methods". Metody. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. PMID 25448298.
- ^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (January 2017). "The STRING database in 2017: quality-controlled protein-protein association networks, made broadly accessible". Výzkum nukleových kyselin. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. PMC 5210637. PMID 27924014.
- ^ A b Liem DA, Murali S, Sigdel D, Shi Y, Wang X, Shen J, Choi H, Caufield JH, Wang W, Ping P, Han J (October 2018). "Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease". American Journal of Physiology. Fyziologie srdce a oběhu. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. PMC 6230912. PMID 29775406.
- ^ Kankar P, Adak S, Sarkar A, Murari K, Sharma G (11 April 2002). MedMeSH summarizer: text mining for gene clusters. InProceedings of the 2002 SIAM International Conference on Data Mining. Společnost pro průmyslovou a aplikovanou matematiku. pp. 548–565. CiteSeerX 10.1.1.215.6230. doi:10.1137/1.9781611972726.32. ISBN 978-0-89871-517-0.
- ^ Pyysalo S, Airola A, Heimonen J, Björne J, Ginter F, Salakoski T (April 2008). "Comparative analysis of five protein-protein interaction corpora". BMC bioinformatika. 9 Suppl 3 (Suppl 3): S6. doi:10.1186/1471-2105-9-s3-s6. PMC 2349296. PMID 18426551.
- ^ Kim S, Kwon D, Shin SY, Wilbur WJ (February 2012). "PIE the search: searching PubMed literature for protein interaction information". Bioinformatika. 28 (4): 597–8. doi:10.1093/bioinformatics/btr702. PMC 3278758. PMID 22199390.
- ^ Yu S, Van Vooren S, Tranchevent LC, De Moor B, Moreau Y (August 2008). "Comparison of vocabularies, representations and ranking algorithms for gene prioritization by text mining". Bioinformatika. 24 (16): i119–25. doi:10.1093/bioinformatics/btn291. PMID 18689812.
- ^ Hulsegge I, Woelders H, Smits M, Schokker D, Jiang L, Sørensen P (May 2013). "Prioritization of candidate genes for cattle reproductive traits, based on protein-protein interactions, gene expression, and text-mining". Fyziologická genomika. 45 (10): 400–6. doi:10.1152/physiolgenomics.00172.2012. PMID 23572538.
- ^ Krallinger M, Leitner F, Valencia A (2010). "Analysis of biological processes and diseases using text mining approaches". Bioinformatics Methods in Clinical Research. Metody v molekulární biologii. 593. pp. 341–82. doi:10.1007/978-1-60327-194-3_16. ISBN 978-1-60327-193-6. PMID 19957157.
- ^ Tao F, Zhuang H, Yu CW, Wang Q, Cassidy T, Kaplan LR, Voss CR, Han J (2016). "Multi-Dimensional, Phrase-Based Summarization in Text Cubes" (PDF). IEEE Data Eng. Býk. 39 (3): 74–84.
- ^ Thomas P, Starlinger J, Vowinkel A, Arzt S, Leser U (July 2012). "GeneView: a comprehensive semantic search engine for PubMed". Výzkum nukleových kyselin. 40 (Web Server issue): W585–91. doi:10.1093/nar/gks563. PMC 3394277. PMID 22693219.
- ^ Brown P, Zhou Y (September 2017). "Biomedical literature: Testers wanted for article search tool". Příroda. 549 (7670): 31. Bibcode:2017Natur.549...31B. doi:10.1038/549031c. PMID 28880292.
- ^ Ohno-Machado L, Sansone SA, Alter G, Fore I, Grethe J, Xu H, Gonzalez-Beltran A, Rocca-Serra P, Gururaj AE, Bell E, Soysal E, Zong N, Kim HE (May 2017). "Finding useful data across multiple biomedical data repositories using DataMed". Genetika přírody. 49 (6): 816–819. doi:10.1038/ng.3864. PMC 6460922. PMID 28546571.
- ^ Perez-Riverol Y, Bai M, da Veiga Leprevost F, Squizzato S, Park YM, Haug K, et al. (Květen 2017). "Discovering and linking public omics data sets using the Omics Discovery Index". Přírodní biotechnologie. 35 (5): 406–409. doi:10.1038/nbt.3790. PMC 5831141. PMID 28486464.
- ^ Ide NC, Loane RF, Demner-Fushman D (2007-05-01). "Essie: a concept-based search engine for structured biomedical text". Journal of the American Medical Informatics Association. 14 (3): 253–63. doi:10.1197/jamia.m2233. PMC 2244877. PMID 17329729.
- ^ Lee HJ, Dang TC, Lee H, Park JC (July 2014). "OncoSearch: cancer gene search engine with literature evidence". Výzkum nukleových kyselin. 42 (Web Server issue): W416–21. doi:10.1093/nar/gku368. PMC 4086113. PMID 24813447.
- ^ Jenssen TK, Laegreid A, Komorowski J, Hovig E (May 2001). "A literature network of human genes for high-throughput analysis of gene expression". Genetika přírody. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
- ^ Masys DR (May 2001). "Linking microarray data to the literature". Genetika přírody. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
- ^ Doms A, Schroeder M (July 2005). "GoPubMed: exploring PubMed with the Gene Ontology". Výzkum nukleových kyselin. 33 (Web Server issue): W783–6. doi:10.1093/nar/gki470. PMC 1160231. PMID 15980585.
- ^ Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N, Liu S, Zeng Y, Mehrabi S, Sohn S, Liu H (January 2018). "Clinical information extraction applications: A literature review". Journal of Biomedical Informatics. 77: 34–49. doi:10.1016/j.jbi.2017.11.011. PMC 5771858. PMID 29162496.
- ^ Friedman C (1997). "Towards a comprehensive medical language processing system: methods and issues". Řízení: 595–9. PMC 2233560. PMID 9357695.
- ^ Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, Chute CG (2010). "Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications". Journal of the American Medical Informatics Association. 17 (5): 507–13. doi:10.1136/jamia.2009.001560. PMC 2995668. PMID 20819853.
- ^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (2018). "CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines". Journal of the American Medical Informatics Association. 25 (3): 331–336. doi:10.1093/jamia/ocx132. PMC 7378877. PMID 29186491.
- ^ Fries J, Wu S, Ratner A, Ré C (2017-04-20). "SwellShark: A Generative Model for Biomedical Named Entity Recognition without Labeled Data". arXiv:1704.06360 [cs.CL ].
- ^ Ye Z, Tafti AP, He KY, Wang K, He MM (2016-09-29). "SparkText: Biomedical Text Mining on Big Data Framework". PLOS ONE. 11 (9): e0162721. Bibcode:2016PLoSO..1162721Y. doi:10.1371/journal.pone.0162721. PMC 5042555. PMID 27685652.
- ^ Tseytlin E, Mitchell K, Legowski E, Corrigan J, Chavan G, Jacobson RS (January 2016). "NOBLE - Flexible concept recognition for large-scale biomedical natural language processing". BMC bioinformatika. 17 (1): 32. doi:10.1186/s12859-015-0871-y. PMC 4712516. PMID 26763894.
- ^ "BioNLP - ACL Anthology". aclanthology.coli.uni-saarland.de. Citováno 2018-10-17.
- ^ "ISMB Proceedings". www.iscb.org. Citováno 2018-10-18.
- ^ "IEEE Xplore - Conference Home Page". ieeexplore.ieee.org. Citováno 2018-11-08.
- ^ "dblp: CIKM". dblp.uni-trier.de. Citováno 2018-10-17.
- ^ "PSB Proceedings". psb.stanford.edu. Citováno 2018-10-18.
- ^ "dblp: Practical Applications of Computational Biology & Bioinformatics". dblp.org. Citováno 2018-10-17.
- ^ "Text REtrieval Conference (TREC) Proceedings". trec.nist.gov. Citováno 2018-10-17.
Další čtení
- Krallinger M, Valencia A (2005). "Text-mining and information-retrieval services for molecular biology". Genome Biology. 6 (7): 224. doi:10.1186/gb-2005-6-7-224. PMC 1175978. PMID 15998455.
- Hoffmann R, Krallinger M, Andres E, Tamames J, Blaschke C, Valencia A (May 2005). "Text mining for metabolic pathways, signaling cascades, and protein networks". Věda STKE. 2005 (283): pe21. doi:10.1126/stke.2832005pe21. PMID 15886388. S2CID 15301069.
- Krallinger M, Erhardt RA, Valencia A (March 2005). "Text-mining approaches in molecular biology and biomedicine". Objev drog dnes. 10 (6): 439–45. doi:10.1016/S1359-6446(05)03376-3. PMID 15808823.
- Biomedical Literature Mining Publications (BLIMP) Archivováno 2004-08-29 at the Wayback Machine: A comprehensive and regularly updated index of publications on (bio)medical text mining