中科院自動化所語言與知識計算聯(lián)合實驗室三篇論文被 ACL 2020收錄
日前,自然語言處理領(lǐng)域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結(jié)果公布。大會共收到 3429篇投稿論文,投稿數(shù)量創(chuàng)下新高。作為計算語言學和自然語言處理領(lǐng)域最重要的頂級國際會議,ACL錄取論文代表了自然語言處理領(lǐng)域在過去一年最新和最高的科技水平以及未來發(fā)展潮流。

本屆大會,云知聲-中科院自動化所“語言與知識計算聯(lián)合實驗室”共有3篇論文被收錄,分別在醫(yī)療對話的自動信息抽取、國際疾病分類(ICD)自動編碼,以及 ICD自動編碼可解釋性等領(lǐng)域取得突破。這些最新的自然語言處理算法將為后續(xù)研究提供極具價值的經(jīng)驗和方向,已在云知聲醫(yī)療業(yè)務率先應用。
一種面向醫(yī)學對話的醫(yī)學信息提取器
MIE: A Medical Information Extractor towards Medical Dialogues
如今,電子病歷已經(jīng)成為現(xiàn)代醫(yī)療的重要組成部分,但是目前書寫電子病歷費時費力,已經(jīng)成為醫(yī)生的沉重負擔。如果能夠從醫(yī)療對話中自動地抽取醫(yī)學信息,將極大緩解醫(yī)生書寫病歷的壓力。
本文提出一個面向醫(yī)患對話文本的信息抽取系統(tǒng),它可以從對話中抽取出癥狀、檢查、手術(shù)、一般信息及其相應的狀態(tài)。這些抽取出的信息將有助于醫(yī)生書寫病歷,或者更進一步地應用于病歷的自動生成。研究團隊收集并標注了1120段在線問診的醫(yī)患對話作為數(shù)據(jù)集,采用滑動窗口形式進行標注,和序列標注相比,減緩了標注難度。在此基礎(chǔ)上,針對醫(yī)療問診對話文本的特點和難點,提出一種基于深度匹配的神經(jīng)網(wǎng)絡模型,能夠考慮到對話的多輪結(jié)構(gòu),利用注意力機制捕捉對話中不同輪次之間的交互信息,從而完善醫(yī)學信息的抽取。
HyperCore:基于雙曲空間和共現(xiàn)圖表示的 ICD自動編碼
HyperCore: Hyperbolic and Co-graph Representation for Automatic ICDCoding
國際疾病分類(International Classification of Dieases,ICD)是由世界衛(wèi)生組織發(fā)起的,針對各種疾病做出的國際通用的統(tǒng)一分類方法,這種方法賦予每種疾病一個獨特的編碼。ICD編碼的普及和應用能夠極大促進世界范圍內(nèi)疾病的信息共享和臨床研究,并對健康狀況研究、保險索賠、發(fā)病率和死亡率統(tǒng)計產(chǎn)生積極的影響。
長期以來,ICD編碼一直由專業(yè)編碼員人工完成。人工編碼耗時費力,而且非常容易出錯,同時不斷更新 ICD代碼版本會導致代碼數(shù)量大幅度增加,對編碼人員的要求越來越高。數(shù)據(jù)顯示,在美國每年因為編碼錯誤以及用于提升編碼質(zhì)量的相關(guān)成本超過250億美元。
為了緩解人工編碼的問題,一些工作開始嘗試利用機器自動完成 ICD編碼任務。但是現(xiàn)有的方法獨立地預測每個編碼,而忽略了編碼的兩個重要特征——層級性和共現(xiàn)性。
在本文中,研究團隊提出了使用雙曲空間和共現(xiàn)圖卷積神經(jīng)網(wǎng)絡針對性地建模上述兩種性質(zhì)。具體來說,提出了一種雙曲線表示方法來利用編碼的層次結(jié)構(gòu)。此外,提出了一種共現(xiàn)圖卷積網(wǎng)絡來利用編碼的共現(xiàn)性。在國際公開數(shù)據(jù)集上的實驗取得了最好的效果。
Clinical-Coder:面向中文臨床記錄的 ICD-10自動編碼
Clinical-Coder: Assigning Interpretable ICD-10 Codes to Chinese Clinical Notes
國際疾病分類(ICD)作為世衛(wèi)組織成員國在衛(wèi)生統(tǒng)計中共同采用的對疾病進行編碼的標準分類方法,是目前國際上通用的疾病分類方法。目前廣泛使用的國際疾病分類第十次修訂版(簡稱 ICD-10)的編碼數(shù)量達到了72,184個,是以前版本(ICD-9)的五倍多。
為了緩解人工編碼耗時、費力、容易出錯的問題,很多工作開始研究利用機器進行自動的 ICD編碼。這些方法雖然取得了很大的成功,但仍然面臨著預測結(jié)果可解釋性問題的嚴峻挑戰(zhàn),可解釋的結(jié)果對臨床醫(yī)學決策具有重要意義。
針對此問題,并結(jié)合中文的語言特點,研究團隊提出了一種基于空洞卷積和N-gram語言模型的ICD自動編碼方法,利用空洞卷積捕獲非嚴格匹配的語義片段證據(jù),利用 N-gram捕獲嚴格匹配的語義片段證據(jù),進而二者聯(lián)合使用,共同提升預測結(jié)果的可解釋性。實驗結(jié)果顯示,該方法不僅能在中文數(shù)據(jù)集上取得顯著的效果,在國際公開的英文數(shù)據(jù)集上也有不錯的效果。
值得一提的是,在醫(yī)療領(lǐng)域,云知聲-中科院自動化所語言與知識計算聯(lián)合實驗室基于自然語言處理技術(shù)構(gòu)建的醫(yī)療知識圖譜已儲備約 50萬醫(yī)學概念,超過 169萬醫(yī)學術(shù)語庫和 398萬醫(yī)學關(guān)系庫,涵蓋了絕大部分藥品、疾病、科室與檢查,規(guī)模達國際領(lǐng)先水準,并在語音病歷,病歷生成、病歷質(zhì)控、輔助診斷系統(tǒng)等具體應用中發(fā)揮了重要支撐作用。
關(guān)于 ACL:ACL是自然語言處理領(lǐng)域頂級國際學術(shù)會議,由計算語言學學會(Association for Computational Linguistics)主辦,每年舉辦一次。其接收的論文覆蓋了語言模型、句法分析、語義分析、篇章分析等計算語言學基礎(chǔ)研究以及信息抽取、問答系統(tǒng)、對話生成、機器翻譯、自動文摘、情感分析、社會計算等自然語言處理應用研究等眾多方向。第 58屆 ACL年會 ACL 2020原定于 7月 5日-10日在美國華盛頓西雅圖舉行,因疫情影響今年將改為在線會議。

本屆大會,云知聲-中科院自動化所“語言與知識計算聯(lián)合實驗室”共有3篇論文被收錄,分別在醫(yī)療對話的自動信息抽取、國際疾病分類(ICD)自動編碼,以及 ICD自動編碼可解釋性等領(lǐng)域取得突破。這些最新的自然語言處理算法將為后續(xù)研究提供極具價值的經(jīng)驗和方向,已在云知聲醫(yī)療業(yè)務率先應用。
一種面向醫(yī)學對話的醫(yī)學信息提取器
MIE: A Medical Information Extractor towards Medical Dialogues
如今,電子病歷已經(jīng)成為現(xiàn)代醫(yī)療的重要組成部分,但是目前書寫電子病歷費時費力,已經(jīng)成為醫(yī)生的沉重負擔。如果能夠從醫(yī)療對話中自動地抽取醫(yī)學信息,將極大緩解醫(yī)生書寫病歷的壓力。
本文提出一個面向醫(yī)患對話文本的信息抽取系統(tǒng),它可以從對話中抽取出癥狀、檢查、手術(shù)、一般信息及其相應的狀態(tài)。這些抽取出的信息將有助于醫(yī)生書寫病歷,或者更進一步地應用于病歷的自動生成。研究團隊收集并標注了1120段在線問診的醫(yī)患對話作為數(shù)據(jù)集,采用滑動窗口形式進行標注,和序列標注相比,減緩了標注難度。在此基礎(chǔ)上,針對醫(yī)療問診對話文本的特點和難點,提出一種基于深度匹配的神經(jīng)網(wǎng)絡模型,能夠考慮到對話的多輪結(jié)構(gòu),利用注意力機制捕捉對話中不同輪次之間的交互信息,從而完善醫(yī)學信息的抽取。
HyperCore:基于雙曲空間和共現(xiàn)圖表示的 ICD自動編碼
HyperCore: Hyperbolic and Co-graph Representation for Automatic ICDCoding
國際疾病分類(International Classification of Dieases,ICD)是由世界衛(wèi)生組織發(fā)起的,針對各種疾病做出的國際通用的統(tǒng)一分類方法,這種方法賦予每種疾病一個獨特的編碼。ICD編碼的普及和應用能夠極大促進世界范圍內(nèi)疾病的信息共享和臨床研究,并對健康狀況研究、保險索賠、發(fā)病率和死亡率統(tǒng)計產(chǎn)生積極的影響。
長期以來,ICD編碼一直由專業(yè)編碼員人工完成。人工編碼耗時費力,而且非常容易出錯,同時不斷更新 ICD代碼版本會導致代碼數(shù)量大幅度增加,對編碼人員的要求越來越高。數(shù)據(jù)顯示,在美國每年因為編碼錯誤以及用于提升編碼質(zhì)量的相關(guān)成本超過250億美元。
為了緩解人工編碼的問題,一些工作開始嘗試利用機器自動完成 ICD編碼任務。但是現(xiàn)有的方法獨立地預測每個編碼,而忽略了編碼的兩個重要特征——層級性和共現(xiàn)性。
在本文中,研究團隊提出了使用雙曲空間和共現(xiàn)圖卷積神經(jīng)網(wǎng)絡針對性地建模上述兩種性質(zhì)。具體來說,提出了一種雙曲線表示方法來利用編碼的層次結(jié)構(gòu)。此外,提出了一種共現(xiàn)圖卷積網(wǎng)絡來利用編碼的共現(xiàn)性。在國際公開數(shù)據(jù)集上的實驗取得了最好的效果。
Clinical-Coder:面向中文臨床記錄的 ICD-10自動編碼
Clinical-Coder: Assigning Interpretable ICD-10 Codes to Chinese Clinical Notes
國際疾病分類(ICD)作為世衛(wèi)組織成員國在衛(wèi)生統(tǒng)計中共同采用的對疾病進行編碼的標準分類方法,是目前國際上通用的疾病分類方法。目前廣泛使用的國際疾病分類第十次修訂版(簡稱 ICD-10)的編碼數(shù)量達到了72,184個,是以前版本(ICD-9)的五倍多。
為了緩解人工編碼耗時、費力、容易出錯的問題,很多工作開始研究利用機器進行自動的 ICD編碼。這些方法雖然取得了很大的成功,但仍然面臨著預測結(jié)果可解釋性問題的嚴峻挑戰(zhàn),可解釋的結(jié)果對臨床醫(yī)學決策具有重要意義。
針對此問題,并結(jié)合中文的語言特點,研究團隊提出了一種基于空洞卷積和N-gram語言模型的ICD自動編碼方法,利用空洞卷積捕獲非嚴格匹配的語義片段證據(jù),利用 N-gram捕獲嚴格匹配的語義片段證據(jù),進而二者聯(lián)合使用,共同提升預測結(jié)果的可解釋性。實驗結(jié)果顯示,該方法不僅能在中文數(shù)據(jù)集上取得顯著的效果,在國際公開的英文數(shù)據(jù)集上也有不錯的效果。
值得一提的是,在醫(yī)療領(lǐng)域,云知聲-中科院自動化所語言與知識計算聯(lián)合實驗室基于自然語言處理技術(shù)構(gòu)建的醫(yī)療知識圖譜已儲備約 50萬醫(yī)學概念,超過 169萬醫(yī)學術(shù)語庫和 398萬醫(yī)學關(guān)系庫,涵蓋了絕大部分藥品、疾病、科室與檢查,規(guī)模達國際領(lǐng)先水準,并在語音病歷,病歷生成、病歷質(zhì)控、輔助診斷系統(tǒng)等具體應用中發(fā)揮了重要支撐作用。
關(guān)于 ACL:ACL是自然語言處理領(lǐng)域頂級國際學術(shù)會議,由計算語言學學會(Association for Computational Linguistics)主辦,每年舉辦一次。其接收的論文覆蓋了語言模型、句法分析、語義分析、篇章分析等計算語言學基礎(chǔ)研究以及信息抽取、問答系統(tǒng)、對話生成、機器翻譯、自動文摘、情感分析、社會計算等自然語言處理應用研究等眾多方向。第 58屆 ACL年會 ACL 2020原定于 7月 5日-10日在美國華盛頓西雅圖舉行,因疫情影響今年將改為在線會議。
我要收藏
點個贊吧
轉(zhuǎn)發(fā)分享
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:電子病歷微信群、語言與知識計算微信群、自然語言處理微信群、醫(yī)療信息化微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語
微信聯(lián)盟:電子病歷微信群、語言與知識計算微信群、自然語言處理微信群、醫(yī)療信息化微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 查看各品牌在細分領(lǐng)域的定位宣傳語


評論排行