Přibíjení textu - Text nailing
![]() | tento článek poskytuje nedostatečný kontext pro ty, kteří danému tématu nejsou obeznámeni.Listopad 2017) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |


Přibíjení textu (TN) je extrakce informací metoda poloautomatického extrakce strukturovaných informací z nestrukturovaných dokumentů. Metoda umožňuje člověku interaktivně kontrolovat malé objekty BLOB textu z velké sbírky dokumentů a identifikovat potenciálně informativní výrazy. Identifikované výrazy lze použít k vylepšení výpočetních metod, které se spoléhají na text (např. Regulární výraz ) i pokročilé zpracování přirozeného jazyka (NLP) techniky. TN kombinuje dva koncepty: 1) interakce člověka s narativním textem k identifikaci vysoce převládajících nezáporných výrazů a 2) převod všech výrazů a poznámek do nezáporných reprezentací pouze v abecedním pořadí za účelem vytvoření homogenních reprezentací. [1][2]
V tradičním strojové učení přístupy pro klasifikace textu, je odborník na člověka povinen označit fráze nebo celé poznámky a poté a učení pod dohledem algoritmus se pokusí zobecnit asociace a použít je na nová data. Naproti tomu použití nezáporných odlišných výrazů eliminuje potřebu další výpočetní metody k dosažení zobecnění.[3][4][5]
Dějiny
TN byl vyvinut v Massachusetts General Hospital a byl testován v několika scénářích, včetně extrakce kuřáckého stavu, rodinné anamnézy ischemické choroby srdeční, identifikace pacientů s poruchami spánku,[6] zlepšit přesnost Framinghamské skóre rizika pro pacienty s nealkoholické ztučnění jater a klasifikovat nedodržování diabetu typu 2. Komplexní přehled týkající se získávání informací z textových dokumentů v elektronický zdravotní záznam je k dispozici.[7][8]
Důležitost použití nezáporných výrazů k dosažení vyšší přesnosti textových klasifikátorů byla zdůrazněna v dopise zveřejněném ve sdělení ACM v říjnu 2018.[9]
Zdrojový kód
Ukázkový kód pro extrakci stavu kouření z narativních poznámek pomocí „přibitých výrazů“ je k dispozici v GitHub.[10]
TN jako progresivní kyber-lidská inteligence
V červenci 2018 vědci z Virginia Tech a University of Illinois v Urbana – Champaign označil TN jako příklad progresivní cyber-lidské inteligence (PCHI).[11]
Kritika strojového učení ve zdravotnictví
Chen & Asch 2017 napsal: „S tím, jak se strojové učení nachází na vrcholu nadměrných očekávání, můžeme zmírnit následný náraz do„ koryta deziluze “tím, že podpoříme silnější zhodnocení schopností a omezení této technologie.“[12]
Dopis zveřejněný v Komunikace ACM „Beyond brute force“ zdůraznil, že přístup hrubou silou může při použití na text fungovat lépe než tradiční algoritmy strojového učení. V dopise bylo uvedeno: „... algoritmy strojového učení se při použití na text opírají o předpoklad, že jakýkoli jazyk obsahuje nekonečné množství možných výrazů. Naproti tomu jsme u různých zdravotních stavů pozorovali, že lékaři mají tendenci používat stejné výrazy popisující stav pacientů. “[13]
Ve svém stanovisku zveřejněném v červnu 2018, které se týkalo pomalého přijímání poznatků založených na datech v medicíně, Uri Kartoun, spolutvůrce Text Nailing uvádí, že „... Text Nailing zvýšil skepsi u recenzentů časopisů lékařské informatiky, kteří tvrdili, že se spoléhá na jednoduché triky ke zjednodušení textu a do značné míry se opírá o lidskou anotaci. TN se na první pohled může zdát jako trik světla, ale ve skutečnosti jde o poměrně sofistikovanou metodu, která nakonec upoutala pozornost odvážnějších recenzentů a editorů, kteří nakonec přijali to k publikaci. “[14]
Kritika
Proces lidské smyčky je způsob, jak generovat funkce pomocí odborníků na doménu. Využití funkcí doménových odborníků není nový koncept. Specifická rozhraní a metoda, která pomáhá odborníkům na doménu vytvářet funkce, jsou však s největší pravděpodobností nové.
V tomto případě jsou funkce, které experti vytvářejí, ekvivalentní regulárním výrazům. Odebrání neabecedních znaků a shoda na „smokesppd“ se rovná regulárnímu výrazu / smokes [^ a-zA-Z] * ppd /. Použití regulárních výrazů jako funkcí pro klasifikaci textu není nové.
Vzhledem k těmto vlastnostem je klasifikátor ručně nastavenou prahovou hodnotou autorů, o které rozhoduje výkon sady dokumentů. Toto je klasifikátor, je to jen to, že parametry klasifikátoru, v tomto případě prahové hodnoty, se nastavují ručně. Vzhledem ke stejným funkcím a dokumentům by téměř každý algoritmus strojového učení měl být schopen najít stejnou prahovou hodnotu (nebo pravděpodobnější) lepší.
Autoři poznamenávají, že používání podpůrných vektorových strojů (SVM) a stovek dokumentů poskytuje horší výkon, ale nespecifikuje, na které funkce nebo dokumenty byl SVM vyškolen / testován. Spravedlivé srovnání by používalo stejné funkce a sady dokumentů jako ty, které používá manuální klasifikátor prahových hodnot.
Reference
- ^ Kartoun, Uri (2017). "Přibíjení textu". Interakce. 24 (6): 44–9. doi:10.1145/3139488. S2CID 29010232.
- ^ Barbosa, Simone; Cockton, Gilbert (2017). "Vyvarujte se zaujatosti vůči agendě s promyšleným designem". Interakce. 24 (6): 5. doi:10.1145/3151556. S2CID 657561.
- ^ Beam, Andrew L; Kartoun, Uri; Pai, Jennifer K; Chatterjee, Arnaub K; Fitzgerald, Timothy P; Shaw, Stanley Y; Kohane, Isaac S (2017). „Prediktivní modelování dynamiky mezi lékařem a pacientem, které ovlivňuje předepisování léků na spánek a klinické rozhodování“. Vědecké zprávy. 7: 42282. Bibcode:2017NatSR ... 742282B. doi:10.1038 / srep42282. PMC 5299453. PMID 28181568.
- ^ Simon, Tracey G; Kartoun, Uri; Zheng, Hui; Chan, Andrew T; Chung, Raymond T; Shaw, Stanley; Corey, Kathleen E (2017). „Model pro konečné stadium onemocnění jater Na Score předpovídá závažné kardiovaskulární příhody u pacientů s nealkoholickým tukovým onemocněním jater“. Hepatologická komunikace. 1 (5): 429–438. doi:10.1002 / hep4.1051. PMC 5659323. PMID 29085919.
- ^ Corey, Kathleen E; Kartoun, Uri; Zheng, Hui; Chung, Raymond T; Shaw, Stanley Y (2016). „Využití databáze elektronických lékařských záznamů k identifikaci netradičních kardiovaskulárních rizikových faktorů u nealkoholických mastných onemocnění jater“. The American Journal of Gastroenterology. 111 (5): 671–6. doi:10.1038 / ajg.2016.44. PMC 4864030. PMID 26925881.
- ^ Kartoun, Uri; et al. (2018). „Vývoj algoritmu pro identifikaci pacientů s nespavostí dokumentovanou lékařem“. Vědecké zprávy. 8 (1): 7862. Bibcode:2018NatSR ... 8.7862K. doi:10.1038 / s41598-018-25312-z. PMC 5959894. PMID 29777125.
- ^ Meystre, S.M; Savova, G. K; Kipper-Schuler, K. C; Překážka, J. F (2008). „Extrahování informací z textových dokumentů do elektronického zdravotního záznamu: přehled nedávného výzkumu“. Ročenka lékařské informatiky: 128–44. PMID 18660887.
- ^ Wang, Yanshan; Wang, Liwei; Rastegar-Mojarad, Majid; Měsíc, Sungrim; Shen, Feichen; Afzal, Naveed; Liu, Sijia; Zeng, Yuqun; Mehrabi, Saeed; Sohn, Sunghwan; Liu, Hongfang (2018). „Aplikace extrakce klinických informací: přehled literatury“. Časopis biomedicínské informatiky. 77: 34–49. doi:10.1016 / j.jbi.2017.11.011. PMC 5771858. PMID 29162496.
- ^ Zaměstnanci CACM (2018). "Přesnější analýza textu pro lepší výsledky pacientů". Komunikace ACM. 61 (10): 6–7. doi:10.1145/3273019. S2CID 52901757.
- ^ „GitHub - kartoun / přibití textu“. 2018-01-07.
- ^ https://dl.acm.org/citation.cfm?id=3231559
- ^ Chen, Jonathan H; Asch, Steven M (2017). „Strojové učení a predikce v medicíně - nad rámec nafouknutých očekávání“. New England Journal of Medicine. 376 (26): 2507–9. doi:10.1056 / NEJMp1702071. PMC 5953825. PMID 28657867.
- ^ Zaměstnanci CACM (2017). "Mimo hrubou sílu". Komunikace ACM. 60 (10): 8–9. doi:10.1145/3135241.
- ^ Kartoun, Uri (2018). „Směrem k urychlenému přijetí poznatků založených na datech v medicíně“. Medicína, zdravotní péče a filozofie. 22 (1): 153–157. doi:10.1007 / s11019-018-9845-r. PMID 29882052. S2CID 46973857.