生物医学命名实体识别AIO新模式?带飞一众基模型,吊打多任务学习?

AIONER: all-in-one scheme-based biomedical named entity recognition using deep learning

Bioinformatics, 2023, 39(5), btad310

源文章链接:https://doi.org/10.1093/bioinformatics/btad310IF: 4.4 Q1

开源项目:https://github.com/ncbi/AIONER

1、生物医学命名实体识别(BioNER)

理解:生物医学命名实体识别(BioNER),顾名思义,旨在自动识别自然语言文本中的生物医学实体。就像新能源汽车产业链,没有上游的锂矿业怎么实践电池技术?没有中游的电池技术,怎么造新能源汽车?类似的,没有实体识别就无法完成关系提取、知识图谱、智能问答系统等下游文本挖掘任务,BioNER是必要基础。

存在的不足

(1)由于准确注释所需的重要领域专业知识,手动标记BioNER任务的训练数据是昂贵的。

(2)由此产生的数据稀缺性导致当前的BioNER模型方法易于过度拟合,具有有限的可推广性,并且BIONER一次只能解决单个实体类型(例如基因或疾病)。

(3)在单个语料库上训练的模型在应用于独立语料库时,由于单个语料库捕获的实体相关特征的可推广性有限,其准确性显着降低。

2、多任务学习(MTL)

理解:最近,已经提出了几种基于多任务学习(MTL)的BioNER方法(Crichton et al. 2017; Wang et al. 2019; Giorgi and Bader 2020; Zuo and Zhang 2020; Rodriguez et al. 2022),这些方法通过利用各种公开可用的数据集来提高模型的通用性。这些方法通常在相关任务之间共享深度学习模型的隐藏层,并具有特定于每个任务的输出层。特别是,MTL可以通过利用相关任务的训练信号发现的特定领域信息来提高模型的泛化能力。

存在的不足

(1)与某些数据集上的单任务学习相比,MTL可以提高性能,但并不普遍(不稳定性)。

(2)此外,基于MTL的方法(Wang et al. 2019; Chai et al. 2022)通常需要复杂的模型架构。

3、文章贡献:

(1)文章提出了一种新的一体化(AIO)模式,AIO模式提出一种新的以数据为中心的视角,通过面向任务的标签,将多个数据集合并到一个任务中,以提高BioNER模型的准确性和鲁棒性。AIO方法可以比MTL更一致地实现更好的性能,并且适用于各种机器学习模型。

(2)AIONER:一种基于尖端深度学习和AIO模式的通用BioNER工具。利用最近多个实体类型注释的小数据集[例如BioRED]作为桥梁,以集成用实体类型子集注释的多个数据集,从而一次识别多个实体,提高准确性和鲁棒性。

文章在14个BioNER基准任务上评估了AIONER,并表明AIONER是有效的,鲁棒的,并且与其他最先进的方法(如多任务学习)相比毫不逊色。同时进一步证明了AIONER在三个独立任务中的实际效用,以识别以前在训练数据中没有看到的实体类型,以及AIONER在大规模处理生物医学文本(例如整个PubMed数据)的现有方法中的优势。

4、灵丹妙药的炼制:

  • AIONER整体架构:

图片

(1)收集了BioRED数据集中注释的六种目标实体类型(即基因、疾病、化学物质、物种、变体和细胞系)的多个资源;

(2)提出了一个有效的all-inone策略,将不同的资源合并到一个单一的序列标记任务;

(3)使用此BioNER任务的合并数据集训练尖端的深度学习模型;

(4)训练好的模型被用来从未登录文档中识别多个生物医学实体。

  • 数据:

图片

文章定义了两个标准来过滤不一致的数据集:

(1)所选的数据集应该一致地注释可互换的实体。有些概念非常相关,通常可以互换使用。例如,药物是一种影响生物功能的化学物质,通常由化学物质表示。此外,基因及其产物(如RNA和蛋白质)通常命名相同。还有其他一些重叠的概念,如疾病的表型和变异的残基。

(2)数据集应该通过相同的资源注释实体的概念标识符(例如,基因/蛋白质的NCBI Gene和化学的MESH),这保证了策划实体的定义是一致的。

其余处理:

(1)BioID数据集中的注释在内部不一致。大约30%的细胞系跨度具有后缀“cell(s)",为了使其更加一致,文章在培训和评估之前删除了所有后缀;

(2)此外,未注释种属相关临床术语(例如,患者);

(3)物种800排除了属名(例如拟南芥)和分类系统中较高级别的物种名称(例如真菌),尽管这些名称在BioRED中有注释;

(4)GNormPlus和NLM-基因将基因/蛋白质家族(例如Dilps)与特定基因名称(例如Dilp 6)区分开来,但BioRED没有区分这两种类型的实体。文章将家族名称合并到基因实体类型中。

  • AIO方案:

基本的:文章将BioNER视为一项序列标记任务,与主流研究一致,但具体策略不再使用BIO(BIO:开始标记B、内部标记I、背景标记O)策略。

AIO策略:

(1)在输入句子周围应用附加的一对标签来指示任务,表示任务标签的特殊记号被添加到输入句子的开头和结尾;

(2)对于标签集Y,定义了三种类型的标签,包括“B-EntityType”、“IEntityType”和“O-Task”。“B”和“I”与传统定义相同,但灵活地重新设计了“O”背景(外部)标签。(例如,在识别疾病的场景中,为了识别化学实体的任务,将原来的“O”标签修改为“O-疾病”,这与“O-化学”标签可以清楚地区分开来)

(3)标签集中定义了19个标签:label set Y ={B-Gene, I-Gene, O-Gene, B-Disease, I-Disease, O-Disease, .. ., B-CellLine, I-CellLine, O- CellLine, O-ALL}。

注释示例:

图片

  • AIONER:

BioNER任务已经通过AIO方案被调制为序列标记任务。

应用了尖端的生物医学预训练语言模型(PLM)例如PubmedBERT来作为基模型与AIO模式融合,模型旨在map the token sequence 到 corresponding sequence of the labe

(1)首先使用PLM将输入编码为隐藏状态向量序列,然后使用具有ReLU激活的全连接层计算网络得分。最后,增加CRF输出层,优化生物实体的边界检测。

评分定义为:

图片

其中P是来自最后一个全连接层的输出的得分矩阵,T是CRF层的转移矩阵。Ti,j表示从第i个标签到第j个标签的转换的分数。

(2)在训练阶段,模型的目标是最大化正确标签序列的对数概率:

图片

其中y~表示所有可能的标签路径。

(3)在推理时,预测获得最大分数的标记路径,由下式给出:

图片

(4)随机分割20%的数据集作为评估模型的测试集

(5)应用了默认的PLM参数设置,并将主要的超参数设置如下:learning rate of 5e–6, batch size of 32, and max input length of 256 tokens (如果句子长度超过最大长度,则分为多个句子). To determine the optimal number of training epochs, we set the patience parameter to 5 with a maximum of 50 epochs. 如果在连续五个时期内没有显著的准确性改进,则训练过程将终止。

根据2022年研究的评价,PubMedBERT-CRF模型达到了最新技术水平(SOTA)性能,并且与BioRED数据集上的BiLSTM-CRF和BioBERT-CRF模型等其他方法相比具有优势。

因此,我们将PubMedBERT-CRF模型用作AIONER和MTL架构中的默认模型。

  • 结果对比:

(1)基于PubMedBERT-CRF模型准备了一个强大的基线,该模型在原始BioRED训练集上进行训练。

(2)通过AIO方案合并每个外部数据集和BioRED训练集,分别训练模型。

(3)将所有数据集集成为一个联合训练集,并训练AIONER模型[即BioREDITALITY All(AIONER)]。

还实现了另外两个选项来整合数据集进行比较:

(4)BioREDITARY All(w/o AIONER):在所有训练数据集的朴素级联上训练的模型。

(5)BioREDITAL All(MTL):在所有数据集上训练的多任务学习模型,其中每个数据集都被视为单个任务。

表2 显示了在BioRED测试集上评估模型的结果。

图片

此外,文章测试了在部分BioRED训练数据上训练的AIONER模型的性能。文章设置了七种不同数量的摘要(10,50,100,200,300,400和500摘要)作为BioRED训练子集。结果如图所示。这里,基线是仅在BioRED上训练的模型。

结果表明,AIONER和MTL模型在BioRED训练子集的所有配置中表现出相似的性能,并且优于基线。此外,值得注意的是,即使只有10篇文章,AIONER的表现也明显优于MTL,与在全部500篇文章上训练的基线模型相比,它仍然可以实现具有竞争力的性能(86.91%对89.34%)。

图片

与SOTA技术碰一碰:

图片

除了训练已涵盖的六种实体之外,未知实体类别识别测试:

拿新数据碰一碰?

图片

(1)DMCB_Plant(Cho et al. 2017)包含3985个植物名称(例如“Trichosanthes kirilowii”)。

(2)AnEM(Pyysalo and Ananiadou 2014)包含分子和整个生物体之间的解剖实体和生物体部分,共有11种实体类型(例如多组织结构)。

(3)BEAR(Wuhrl and Klinger 2022)在Twitter上注释了七组生物医学实体(例如医疗条件,诊断和环境因素)。

最后来看看不同的基模型在AIO模式的加持下的数据表现吧:

图片

优于基线模型的三种情况:

(1)更精确的实体类型分类:AIONER可以根据上下文更好地对实体类型进行分类。在PMID:15464247中,“HCV基因型1感染”被基线错误地识别为一种物种,但AIONER可以正确地将其检测为一种疾病。

(2)更好的边界检测:AIONER在检测实体边界时也具有更高的准确性。例如,在“Vogt-Koyanagi-Harada(VKH)综合征”的情况下,基线检测到错误的边界,并将其错误地识别为两个实体,“Vogt-Koyanagi-Harada”和“(VKH)综合征”,而AIONER正确地识别了它。

(3)略高的召回率:一些未在训练集中显示的实体跨度可能会被基线遗漏,但AIONER可以更好地处理这些未显示的实体。

不足之处:

(1)边界错误(36.0%):大多数错误是由提取的提及中的边界错误引起的。在这种错误类型中,最关键的问题是哪些前导或尾随标记落在提及边界内。例如,“坏死性筋膜炎”(MeSH:D 019115)是应检测的疾病,但我们的方法遗漏了第一个标记“坏死”,这有助于更具体地缩小实体范围。

(2)实体类型不明确(26.6%):此错误类型包含两个主要错误。第一,同一实体提及在文本中可能具有不同的实体类型。例如,生长激素是由基因编码的蛋白质,即生长激素/催乳素家族的成员,其在生长控制中起重要作用,并且也是用于治疗生长激素缺乏的药物(化学品)。在不同的上下文中,它可以有不同的注释。第二,不同的实体可能会被含糊地命名。例如,BMD基因是Becker肌营养不良症(BMD)的相应基因。这种基因和疾病都被称为BMD。

(3)自然语言提及(10.4%):预先训练的语言模型是在大型自然语言文本上训练的。然而,准确鉴定以描述性自然语言书写的实体(例如,“外显子6中密码子482处的极性亲水性半胱氨酸的苯丙氨酸”的变体)仍然非常困难。

(4)类似地,复合跨度--涉及多个实体--也会混淆模型(例如D1或D2多巴胺受体)。这样的自然语言提及在训练集中是罕见的,并且是单独的,这使得识别具有挑战性。

(5)其他较小的错误类型包括:遗漏实体(多为定义不足的缩写)、错误检测到的不在识别范围内的实体、不一致地检测到同一实体的多个跨度等。

图片

        总的来说,此项目在以上成就之外,主要还有一体化的生态,上游的数据输入(近三百万篇公开文献的半结构化数据json或者XML格式),包括下游的数据渲染API都给你提供好了,单单对于实践型的项目开发而言,魅力十足。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值