福建水产设备联盟

ACL2017 | 波茨坦大学:生物医学领域的问答系统应用Olelo介绍

读芯术 2021-09-12 08:39:24

你和“懂AI”之间,只差了一篇论文


很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。


为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。


同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。


读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。

这是读芯术解读的第3篇论文



ACL 2017 System Demonstrations

Olelo:一个生物医学领域的问答系统应用

Olelo:AQuestion Answering Application for Biomedicine

波茨坦大学哈索•普拉特纳研究所

Hasso Plattner Institute at University of Potsdam


【摘要】尽管生物医学领域非常重要,但是很少有可靠的应用能够支持研究人员和医生检索出符合他们需求的特定结果。用户通常依赖于只支持关键字和基于过滤器的搜索。我们提出了一个生物医学的问答(QA)系统Olelo。Olelo建立在内存数据库之上,集成了领域资源,例如文档集合和术语,并使用各种自然语言处理组件。Olelo速度快,直观,易于使用。我们对两种用例系统进行了评估:在BioASQ基准测试上基础上,回答与某一特定基因相关的问题。


Olelo获取地址:http://hpi.de/plattner/olelo


1 引言


生物医学研究者和医生定期查询科学文献以了解特定事实,如一种由特殊基因引起的综合症,或某种疾病的治疗方法。为了达到这个目的,用户通常依赖PubMed搜索引擎,它在Medline数据库中索引了数以百万计的出版物。与传统的信息检索系统(IR)类似,输入PubMed的通常是关键字,或者是医学主题(MeSH)概念,而输出的通常是文档的列表。


例如,在寻找可能由CFTR基因突变引起的疾病时,用户只需在PubMed的输入栏中写入基因名称。在这个例子中,他将得到一个有9227份可能与其相关的出版物的清单(截至到2017年2月)。


在(Lu, 2011)的调查中,科学生物医学文献还有很多其他的网络应用程序可以搜索和导航。然而,大多数系统依赖于简单的自然语言处理技术(NLP),例如分词和命名实体识别(NER)。它们的功能仅限于在领域术语的支持下对文档进行排序,以概念丰富出版物,并聚类相似文档。


问答(QA)支持生物医学专业人士通过输入自然问题,并提供准确的答案和定制的简短总结作为反馈结果(Athenikos and Han, 2010; Neves and Leser,2015)。我们已经了解了生物医学的三个系统(参见第2节),然而,目前的解决方案仍然不能满足用户的需要:(i) 在大多数情况下,没有对问题进行理解。(ii) 那些使用更复杂的NLP技术的系统(例如,HONQA(Cruchet et al., 2009))无法实时输出答案。(iii) 输出通常以文档列表的形式出现,而不是简单的答案。(iv) 他们没有提供任何创新的或基于NLP的方法来进一步探索科学文献。


我们提出了Olelo,一个生物医学领域的问答(QA)系统。它索引生物医学文摘和全文,依赖于一个快速的内存数据库(IMDB)用于存储和文档索引,并执行各种自然语言处理技术(NLP)程序,如特定领域的命名实体识别(NER)、问题类型检测、应答类型检测和应答提取。我们评估了Olelo在BioASQ挑战(Tsatsaronis et al., 2015)的范围内的方法,这是生物医学问答(QA)最广泛的共享任务。我们参与了最后三个挑战,并在最后两个版本中获得了片段检索的最高结果和理想答案(定制摘要) (Neves, 2014, 2015; Schulze et al., 2016) 。


Olelo为上面列出的缺点提供了解决方案: (i) 它检测问题类型和答案类型。(ii) 它包括各种NLP组件,并实时输出答案。(见第5节)(iii) 它总是输出一个简短的回答,准确的答案或简短的摘要,同时也允许用户探索符合的文档。(iv) 用户可以浏览答案及其相应的语义类型,检查医学主题(MeSH)定义的术语,创建文档集合,生成定制的摘要,并在其他任务中查询类似文档。最后,Olelo是一个开放访问系统,不需要登录。我们在多个Web浏览器中测试了它,但是为了获得最佳结果我们推荐谷歌浏览器(Chrome)。


2 相关工作


MEDIE是第一个基于问答(QA)的生物医学系统(Miyao et al., 2006)。它允许用户以主宾动(SOV)结构的形式提出问题。例如,“53页触发了什么?”这个问题需要被分裂成诸部分:“p53”(主语),“activate”(动词),没有宾语(即,预期的答案)。MEDIE依赖于领域本体、解析和预测参数结构(PAS)来搜索Medline。然而,鉴于许多生物医学用户对语言学没有高级知识,SOV结构并不是一个友好的输入。


我们知道三个其他的生物医学问答(QA)系统:AskHermes, EAGLi和HONQA。所有这些系统都支持以问题形式的输入,但以不同的方式输出结果。


AskHermes(Cao et al., 2011)输出了一些代码片段和一系列术语,但结果页面往往太长。他们的方法包括对问题理解的正则表达式、问题目标分类、概念识别和基于BM25模型的通道排名。文件收集包括Medline文章和维基百科文档。


EAGLi(Gobeill et al.,2015)提供了基于基因本体(GO)概念的答案。即使没有找到问题的答案,EAGLi总是会输出相关的出版物列表。它在Terrier IR平台上对Medline文档进行索引,并使用Okapi BM25进行排序文档。


HONQA(Cruchet et al.,2009)从健康在线(HON)上考虑认证网站的文件,除英语外,还支持法语和意大利语。答案类型检测基于UMLS数据库,系统的架构遵循典型的问答(QA)工作流。然而,在他们的出版物中没有详细描述。


3 系统架构


图1 Olelo问答系统的自然语言处理组件


Olelo的架构遵循了问答(QA)系统(Athenikos and Han, 2010)的通常组成部分,即:文档索引、问题处理、段落检索和应答处理(见图1)。在本节中,我们将简要介绍这些组件中的许多任务。我们之前发表了我们的多文档摘要的方法(Schulze and Neves, 2016),我们不仅应用于生物医学QA,也适用于特定于基因的摘要。最后,我们对BioASQ挑战的参与也为我们系统的方法提供了见解(Neves, 2014, 2015; Schulze et al., 2016)。


文献索引: 我们将文档集合和问题索引为IMDB(Plattner,2013),即SAP HANA数据库。该数据库将数据存储在主内存中,并包括在线QA系统的其他理想特性,如多核处理、并行化、轻量级压缩和分区。我们的文档集合目前由来自Medline和PubMed中心开放存取子集的全文出版物组成。文件收集定期更新,以解释新的出版物。


当在数据库中建立索引时,文档和问题将使用IMDB内置的文本分析程序进行处理,即句子拆分、分词、词干提取、词性(POS)标记和指定实体识别(NER)(见表1)。


表1  有关文件、句子和命名实体的统计数据(截止到2017年2月)


我们编写基于两个领域资源:医学主题标题(MeSH)和统一的医学语言系统(UMLS),后者是基于生物医学领域的定制词典。


问题处理: Olelo目前支持三种类型的问题:(i)仿真陈述;(2)定义;(3)总结。一个仿真陈述问题需要一个或多个简短的回答,如疾病名称列表、定义问题查询,以及一个概念的特定定义,而摘要问题则是关于一个主题的简短摘要。这个步骤中的组件包括通过简单的正则表达式检测问题类型,然后在仿真陈述问题的情况下检测答案类型。这一步骤还包括通过正则表达式来检测词目,并在之前检测到的命名实体的支持下识别其语义类型。语义类型对应于UMLS语义类型定义的语义类型(Bodenreider,2004)。最后,基于标记的表面形式,以及之前检测到的医学主题(MeSH)和UMLS术语构建了一个查询。


段落检索: 该系统根据IMDB的内置特性对文档和段落进行排序。它以近似的方式将查询中的关键字与文档匹配,包括语言变体。我们首先考虑查询中的所有关键字,如果没有找到匹配的文档,我们将删除其中一些关键字。


答案处理: 答案取决于问题类型。在定义问题的情况下,系统简单地显示了相应的医学主题(MeSH)项和它的定义,最初包括在医学主题(MeSH)术语中。在仿真陈述问题的情况下,Olelo返回的医学主题(MeSH)术语属于先前检测到的相应的语义类型。最后,系统根据检索到的文档和查询对摘要问题构建一个自定义摘要。


4 用例


在本节中,我们将展示两个获取特定问题的精确答案的用例。这些例子包括一个与特定基因有关的问题,以及两个来自BioASQ基准的问题。同样将我们的系统与其他三个生物医学问答(QA)应用做了一个初步比较。


Olelo中的“教程”页面包含了更多关于系统功能的细节。可以在“设置”页面上设置一些参数,比如最小的发布年份摘要(根据句子的数量,默认值是5)和生成摘要时考虑的文档数量(默认值为20)。


基因相关问题: 这个用例关注的是基因CFTR,这是一个在Twitter上通过基因组合数据库#GeneOfTheWeek活动推广中的一个选择。基因突变是导致疾病的常见原因,因此,用户可以向Olelo提出以下问题:“CFTR基因突变与哪些疾病有关?”Olelo给出了一个关于这个问题的潜在答案的列表(见图2),的确,“囊性纤维化”与所提到的基因有关。通过点击“囊性纤维化”,可以看到MeSH的定义,Olelo告诉我们找到了349份相关文档(底部的蓝色按钮)。点击这个按钮会显示一个文档并且这的确是相关的,因为我们可以通过阅读它的第一个摘要来确认。在这一点上,用户有很多方法可以在主题上进一步导航,例如:(a)浏览其余的文件; (b) 为这个文档集合创建一个摘要;(c)点击“蓝色”的术语来了解更多的信息;(d)在出版物上看到完整的细节(除了标题之外的小图标);(e)浏览列出的囊性纤维化的语义类型;或(f) 点击另一个疾病名称,即“哮喘”。


BioASQ基准问题: 目前,BioASQ(Tsatsaroniset al., 2015)是生物医学问答(QA)系统最全面的基准。我们选择了一个摘要和一个仿真陈述问题来说明Olelo为不同的问题类型返回的结果。“巴氏小体是什么?”(标识符55152c0a46478f2f2c000004),系统返回一个简短的摘要,它的第一个句子确实包含了这个问题的答案:“巴氏小体是一个女性体细胞中的不活跃的X染色体。”(PubMed中第21416650个文章)。另一方面,对于factoid问题,“在文献中与ArnoldChiari综合症有关联的染色体”。Olelo给出了一个染色体名称的列表。实际上,以下是BioASQ基准测试的官方答案:“1”,“3”,“5”,“6”,“8”,“9”,“12”,“13”,“15”,“16”,“18”,“22”,“X”,“Y”。对于这个特殊的例子,Olelo输出的是比BioASQ更全面的答案,因为医学主题(MeSH)术语包括单词“chomosome”。


初步评估: 我们最近将Olelo与另外三种生物医学问答(QA)系统(见第2节)进行了比较,通过人工随机抽取10个来自BioASQ的仿真陈述问题。我们人工记录了每个系统的响应时间,并在我们研究所的网络之外进行了实验。由于系统中出现了错误,HONQA没有提供任何问题的结果。Olelo找到了四个问题的正确答案(在返回的摘要中),EAGLi对其中的两个问题(在返回的文档的标题中),并询问了其中一个(在许多返回的句子中)。在响应时间上,Olelo是最快的(平均为8.8秒),其次是AskHermes(平均10.1秒)和EAGLi(平均58.6秒)。


5 结论和未来工作


我们展示了生物医学领域的Olele问答(QA)系统。Olelo依靠内置的自然语言处理(NLP)程序对各种问答(QA)组件进行内存数据库和SQL过程,例如多文档汇总和应答类型检测。我们已经展示了Olelo在获取某一特定基因的信息,以及从BioASQ基准测试两个问题的答案时所提供的输出示例。


然而,Olelo背后的方法仍然有改进的余地:(a)系统并不总是正确地检测出事实问题,因为它使用的简单规则用于问题类型检测。在这些情况下,Olelo从相应的相关文档生成一个简短的摘要(b)答案仅限于现有的医学主题(MeSH)词,这也支持我们的系统进行进一步的导航(见图2和图3)。事实上,我们的实验表明,我们无法为许多期待一个基因或足球直播免费高清无插件直播名称的问题提供答案,它们都在医学主题(MeSH)中得到了微弱的支持,但在BioASQ(Nevesand Kraus, 2016)中却很常见。(c)我们的文档和段落检索组件目前依赖分词和命名实体的近似匹配,但不考虑像TF-IDF这样的最先进的IR方法。(d)属于总结的句子可以被更好的安排。总结的流畅性不是最佳的。并且我们不处理相关的内容,比如代词(如“我们”)在原句中经常出现。然而,与其他生物医学QA系统相比,Olelo的执行速度更快,并为大多数问题提供了集中的答案,而不是一长串的文档。


最后,为进一步探索生物医学文献提供了手段。


图2 由CFTR基因(在左边)引起的答案列表,以及包含答案的相关出版物的概述(在右边)


图3 从BioASQ数据集的一个简单的问题(左边)和答案列表(在右边)的简短段落


Olelo正处于长期发展中,已经在多个层面上实施了改进: (a)整合更高级的自然语言处理(NLP)组件,如组块和语义角色标记; (b)支持yes / no问题,并改进基于深度学习的确切答案; (c)将额外的生物医学文件纳入其中,例如临床试验,以及其他语言的文件。


最后,在它的当前状态下,我们对新领域方法的适应不需要大的改变。在问题处理步骤(依赖于特定的本体)以及为指定实体识别(NER)组件创建新字典时,需要进行细微的更改。综上所述,本系统的适应主要包括新文件集合和特定术语的集成。


论文下载链接:

http://www.aclweb.org/anthology/P/P17/P17-4011.pdf


留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里


长按识别二维码可添加关注

读芯君爱你