多分类—微调DistilBERT对生物医学文本进行实验方法多分类:Automated Text Mining of Experimental Methodologies from Biomedical

Automated Text Mining of Experimental Methodologies from Biomedical Literature

从生物医学文献中自动挖掘实验方法文本

paper:https://arxiv.org/abs/2404.13779

github:

本文做的就是微调DistilBERT去做多分类任务,训练自己的数据集,分类每个句子对应的实验方法。没有什么讲的。

1.背景动机

介绍目前生物医学文本挖掘的限制:

将NLP方法直接应用于生物医学文本挖掘还存在一些限制:

  • 首先,当代词表示模型主要是在包含一般领域文本的数据集上进行训练的,因此在生物医学文本的数据集上评估最新词表示模型的有效性是一项重大挑战。
  • 此外,已知公共语料库和生物医学数据库之间的词分布差异也会给生物医学文本挖掘模型带来挑战。。

介绍本工作的研究:

本研究提出了经过微调的 DistilBERT,这是一种针对特定方法的预训练生成分类语言模型,用于挖掘生物医学文本。本文精心构建了超过 20,000 个从本体中提取的不同方法标记的语料库,用于微调 DistilBERT模型。结果表明,微调后的 DistilBERT模型实现了较低的评估和训练损耗。

2.Model

1.Pre-processing,预处理:

一个内容可能标注了一种或多种方法,这取决于该内容是否在本体中定义了众多标签。本文采用了一种新颖的预处理方法,即导入预训练的标记器来格式化输入序列。为了建立聚类视图,使用SciPy 首先通过二进制标签矩阵将不同行连接起来,然后绘制每组之间的距离。在分层聚类的情况下,该算法将每个数据点视为一个独立的聚类。然后,它根据相似度合并一个聚类,直到所有数据点都成为一个聚类。聚类合并后,会创建一个新的聚类,并赋予不同的标识符,如索引或分支,以区别于其他聚类。

2.模型选择:

使用 DistilBERT 架构对生物医学文献进行多标签分类,输入文本包括文章摘要或全文细节

3.Fine-tune,微调:

所有任务输入都是填充到最大句子长度(512 个标记)的序列,使用最大学习率为 10^{-5}$ 的 AdamW 优化器,并使用 BCEWithLogitsLoss 作为损失函数,在 10 个 epochs 的基础上对 DistilBERT 进行了微调。

3.原文阅读

Abstract

生物医学文献是一个迅速发展的科技领域。生物医学文本的分类是生物医学研究的重要组成部分,尤其是在生物学领域。本研究提出了经过微调的DistilBERT,这是一种用于挖掘生物医学文本的方法学专用预训练生成式分类语言模型。该模型已证明了其在语言理解能力方面的有效性,并将 BERT 模型的规模缩小了 40%,但速度却提高了 60%。本项目的主要目标是改进该模型,并评估该模型与未经精细调整的模型相比的性能。我们使用 DistilBert 作为支持模型,并在 32,000 篇摘要和完整文本文章的语料库上进行了预训练;我们的结果令人印象深刻,超过了使用 RNN 或 LSTM 的传统文献分类方法。我们的目标是将这一高度专业化的特定模型融入不同的研究行业。

1 Introduction

随着生物医学文献数量的快速增长,人们对生物医学文献文本提取的兴趣也与日俱增。自 1996 年以来,已经发表了至少 6400 万篇学术论文,而且新发表的论文数量还在稳步增长。截至 2023 年 5 月,根据 PubMed 的统计,已发表的学术论文约有 3.51 亿篇,包括短篇调查报告、综述和会议论文集。据有关资料显示,在同行评审的英文学术期刊上发表的新文章约有 3000 篇,这还不包括各种档案中的预印本和技术报告,如临床试验报告等[7]。因此,生物医学文献文本挖掘已成为一项基本要求。

介绍目前生物医学文本挖掘的限制:

然而,将自然语言处理(NLP)方法直接应用于生物医学文本挖掘还存在一些限制。首先,Context2Vec[10]、ELMo[13]、CoVe[14]、GloVe[15]和FastText[16]等当代词表示模型(LMS)主要是在包含一般领域文本的数据集上进行训练和评估的,因此在包含生物医学文本的数据集上评估最新词表示模型的有效性是一项重大挑战。此外,已知公共语料库和生物医学数据库之间的词分布差异也会给生物医学文本挖掘模型带来挑战[18]。除了不同语料库之间的差异,上述因素也增加了文本挖掘和表征学习的难度。文本分析不仅需要理解语义和语法,理解上下文也同样重要[21]。

近年来,GPT-3 [25] 和 BERT 等预训练模型在自然语言处理(NLP)中发挥了有效作用。以前,大型语言模型(LLM)需要针对各种任务进行训练和微调。如今,类似于 GPT 的模型可以通过几个语境中的例子概括出以前无法预见的场景,提供了许多以前被认为是人类独有的新技术可能性(自回归语言建模)。因此,这种模型经常被用于语言生成工作中。然而,与 BERT 相关的模型主要侧重于序列分类或语义理解任务。GLUE 基准[24]包括九个语言理解问题,涉及广泛的领域,为研究人员分析 NLP 模型提供了便利。通过对排行榜的分析,特别是在分类任务中,BERT 模型已经显示出其执行分类任务的能力,但当直接应用于生物任务时,其性能却有所欠缺。

介绍本工作的研究:

本研究提出了经过微调的 DistilBERT,这是一种针对特定方法的预训练生成分类语言模型,用于挖掘生物医学文本。在此之前,BioBert和 BioGPT 这两个最著名的上下文相关词语表述模型都是在庞大的生物医学语料库中训练出来的,其中包含了数十亿的词语和短语,而这些词语和短语并不是针对文章方法分类的。上下文相关的词语表征已经证明了它们的有效性;然而,由于它们只在一般领域的语料库中进行训练,因此在生物医学语料库中的表现并不令人满意。以前的大部分工作都是通过蒸馏来构建特定任务模型。然而,DistilBERT 预训练模型已经证明了其在语言理解能力方面的有效性,并将 BERT 模型的规模缩小了 40%,但速度却提高了 60%。为了更好地模拟文章方法分类任务,我们精心构建了超过 20,000 个从本体中提取的不同方法标记的语料库,用于微调 DistilBERT模型。结果表明,微调后的 DistilBERT模型实现了较低的评估和训练损耗。

1.1.Aim and Objectives

介绍本项目的主要目标:

该项目的主要目的是对模型进行微调,使其明确用于序列分类任务–生物医学文献方法学分类,并评估该模型与未微调模型的性能比较。

本项目的主要目标如下:

1.审查 GPT和transformer,研究类 BERT 模型在文档分类及其下游项目中的性能。在对有关自然语言处理的各种文章语料库进行深入调查后,分析和比较模型的优缺点,使最终选择的模型更加准确。
2.从 NCBO 本体中提取所有实验室技术和实验设计术语我们的重点是方法论技术,以便从文章中提取有价值的见解。本体推荐器 2.0(NCBO)在注释生物医学文本数据时会推荐适当的本体。这种方法要求模型了解生物医学领域使用的各种策略,并找出最相关的技术,以获得准确可靠的结果。
3.构建流式管道,检索摘要、方法和结果的摘要、方法和结果。根据提取的术语,构建的词典包括文章的全文和多个标签。各种预处理重塑为结构化和机器可读的二进制矩阵序列,通过标注树枝图说明聚类的接近性。
4.将预处理后的数据输入模型,并使用基于提示的策略重新训练模型。该模型的目标之一是自学分辨哪些论文属于哪个聚类,以及包含哪些与该方法相关的术语。这使得数据分类更加高效和准确,从而获得有价值的信息并得出有意义的结论。
5.评估未见文章中的方法学分类结果,该模型分析之前尚未分类的文章样本(原始文本),并根据多种方法学分类标准生成 logits。这样可以深入了解可靠性和一致性,并帮助研究人员快速确定哪些方法已在该领域使用。

1.2.Structure of Dissertation

本文的结构如下

  • Background Research:本节探讨了transformer架构、生物医学文本提取策略以及当前面临的挑战和机遇。此外,它还回顾了当前最先进的模型,以及之前为解决相同或类似问题而提出或实施的方法和途径。
  • Methods:本节介绍了研究多标签序列分类问题、数据采集、数据预处理和可视化所使用的方法。此外,还说明了数据流管道架构,包括模型微调和参数调整。
  • 结果与讨论:在本节中,我们阐述了数据流实现所面临的挑战,并评估了模型在生物医学文献分类方法上的性能。本文讨论了该项目的下游扩展,并将我们的微调模型与最新的最先进模型进行了比较。
  • Conclusion:本节回顾了已完成的工作,重新评估了目标和目的,并为研究人员和未来工作提出了潜在的可用性建议。

2 Background Research

2.1.Related Work

随着近期公共卫生事件的发生,生物医学文献的数量不断扩大,人工编目方法承受着极大的压力[30]。例如,根据最近的一项研究,COVID-19 相关文章的平均接受期为 6 天。与埃博拉病毒有关的文章的平均接受期分别为 15 天和 102 天,尽管这些都是不受欢迎的主题[29]。这一现象反映在生物医学文献热点话题数据库中,即最新的 SARS-CoV-2 和 COVID-19,其数量激增,每月新增约 10,000 篇文章。

Andriopoulos 及其同事认为,目前的词嵌入算法可以在多标签上下文中有效地实现生物医学文本分类[30]。他们报告并显示了每个模型在每个词性下的 F1 分数。为生物和医学文献手动编制索引是一项耗时且具有挑战性的工作。研究小组比较了使用网络本体语言(OWL)结构化语义表征进行多标签分类的预训练模型和迁移学习模型。[52].

Mikolov 及其同事比较了各种模型的研究结果,包括向量空间词模型[19]。研究得出的 F 分数从 0.34 到 0.77 不等,取决于所测试的模型和类别总数。这些结果优于或等同于目前的技术水平,这是因为在当前的多标签分类基准中使用的类数极少。例如,GLUE 由语言接受(COLA)文件语料库组成[31]。下一个目标是根据语句是否符合语法将其分为两类。在考虑医学主题词表(MeSH)时,分类得分介于 0.61 和 0.69 之间[32, 39]。因此,最好通过预训练模型进行迁移学习,将全连接分类层扩展到预训练模型可显著提高分类准确率。

DeepMeSH [39]利用深度语义信息创建大规模的 MeSH 索引。它同时解决了标引和分类两方面的问题。一种新的深度语义表征(D2V-TFIDF)解决了结合稀疏和密集语义表征的标引方面的难题。MeSHLabeler 的 "learning-to-rank "架构结合了从新语义表征中生成的各种证据,实现了 0.6323 的 micro-F 测量值,解决了 MeSH 术语方面的难题[32]。

BioWordVec[40]是一套生物医学词嵌入,它将未标记的生物医学文本中的子词信息与名为MeSH的生物医学控制词汇结合在一起。它在多个生物 NLP 任务(如相似性句对、蛋白质-蛋白质相互作用提取和药物-药物相互作用提取)中进行了评估,F 点从 0.687 提高到 0.724。

LitMC-BERT [43] 是一种基于转换器的生物医学文献多标签分类模型,它以 BioBERT 为基础模型,并增加了两个模块:标签模块和标签对模块。该模型在两组数据中进行了评估:LitCovid BioCreative 和 HoC(癌症标志),并与 ML-NET、二元 BERT 和线性 BERT 进行了比较。结果显示,基于实例的 F1 和准确率分别比 BERT 基线高出 3% 和 8%。

2.2.Natural Language Processing

在这里插入图片描述

自然语言处理(文本分类)旨在预测特定文本的一个或多个标签。在传统的分类任务中,假定每篇文档都被贴上一个类别的标签[11]。另一方面,多标签分类意味着文档可以同时独立地被分配到多个标签或类别中。Huggingface [42] 为标准自然语言处理管道提供了最先进的转换器工具包。HuggingFace 转换器库为每个模型定义了以下三个要素,如图 1 所示:(i) 对原始文本进行标记化,(ii) 转换低索引编码,(iii) 将低索引转换为上下文索引,以及使用上下文索引确定特定任务预测。大多数文本分类都可以通过这三个部分来完成。有各种转换器模型可用于各种 NLP 应用。这些模型专为理解、生成和条件生成等任务而设计。此外,还为特殊应用创建了模型,如快速结论或多语言应用。标记化器可以为用户实现更多有价值的功能,并为消费者提供更多有益的功能。它的范围从序列分类情况下的标记类型指数到最大序列截断,考虑到特定模型增加的唯一标记,因为大多数预成形转换器模型都有一个最大序列长度。头部通常是通过迁移学习添加到预训练的变换器模型中,使其适应特定任务。每个变换器模型都可以与几种现成的头部中的一种结合使用,其输出与常见任务兼容。此外,"Huggingface"为模型的访问和下载提供了便利,使研究人员和开发人员能够轻松使用。它还提供了基于社区的方法,允许用户贡献自己的模型或改进现有模型。使用模型集线器,开发人员可以省时省力地使用预先训练好的模型,而不用从头开始。

2.3.Typical Large Pre-trained Language Model

在这里插入图片描述

下表 1 列出了 2013 年以来的模型[30]。但在本文中,我们只关注 BioGPT 和 BioBERT,因为这些模型主要是在生物医学文本语料库中训练的,在生物医学回归任务中具有更高的准确率。

BioGPT是一个用于生成和提取生物医学文本的生成式转换语言模型,采用GPT-2作为基础模型,并在1,500万PubMed摘要语料库中进行了预训练。在将经过预训练的 BioGPT 应用于下游任务(包括文档分类任务)时,BioGPT 团队对提示和目标序列格式进行了精心设计和研究。他们采用了与迁移学习评估相同的训练/测试分离方法 [13]。我们使用长度=1的连续嵌入作为指示器,并按照之前的描述将标签格式化为目标序列,并对 GPT-2 medium 和 BioGPT 进行了微调,在 HoC(Hallmarks of Cancer 的语料库)[17]中进行了 20,000 步最大学习率为 1 0 − 5 10^{-5} 105 和 1000 步升温,F-1 得分为 85.12。

BERT是一个强大的语言表征模型,已在维基百科和BooksCorpus上进行了预训练,但由于生物医学领域使用的域名和术语特殊,它在提取生物医学文本时可能会遇到困难。为了解决这个问题,Peng 和他的团队创建了 BioBERT,这是一款专门用于 PubMed 摘要和 PubMed Central 全文的定制工具。他们尝试了不同的预训练结构,发现增加训练步骤的数量可以提高模型的性能。在 BioBERT v1.0 (PubMed)中,F1 分数比其他高级模型高出 2.80,证明了它在提取生物医学文本方面的有效性[7]。

3 Material and Methods

3.1.Prerequisite

本节将讨论模型背后的算法、本体检索和 BioPython 模块。

算法 根据我们的方案,我们选择 DistilBERT作为进一步训练的骨干模型。该模型继承了transformer架构,这是一种处理序列到序列任务的新方法,还能轻松处理长距离依赖关系。变换器方法不同于利用 RNN 或卷积进行序列比对的传统方法。相反,它完全依靠自我注意来生成输入和输出的表示。

介绍注意力机制:

我们模型中的Self-attention允许我们关注输入序列的某些部分来预测输出词。以下代码片段映射了基于人类乳头瘤病毒(HPV)、信使核糖核酸(mRNA)和孤立收缩期高血压(ISH)的诊断,表明这些术语之间存在很强的相关性。在输入序列中加入Self-attention时,它包括序列中的所有单词,而在输出序列中,它需要限制在特定单词之前的单词,以便准确关注。这样,通过隐藏每一步之后出现的单词,可以防止模型训练过程中的任何信息泄露。

HPV mRNA ISH contributes to the accurate diagnosis and grading
ofCIN and has better specificity than IHC staining of p16.
diagnosis => HPV mRNA ISH

处理文本时,我们使用查询向量 (1)

q = X ∗ W q (1) q=X*Wq \tag{1} q=XWq(1)
键向量 (k)

k = X ∗ W k (2) k=X*Wk \tag{2} k=XWk(2)
值向量 (3)。

v = X ∗ W v (3) v=X*Wv \tag{3} v=XWv(3)
通过计算关键字和查询的值,模型使用 softmax 函数来确保词的所有可能性都是positive的。

Attention ( Q , K , V ) = s o f t m a x Q K T d k V (4) \text{Attention}(Q,K,V)=softmax\frac{QK^{T}}{\sqrt{d_{k}}}V \tag{4} Attention(Q,K,V)=softmaxdk QKTV(4)

多头注意力的使用使模型能够同时对来自不同位置的各种表征子空间的信息做出反应,而由于平均效应,单个注意力头是不可能做到这一点的。

介绍本体检索:

本体检索 :NCBO本体推荐器的新版本被称为本体推荐器2.0,它采用一种独特的方法,根据表[28]中描述的四个标准来评估本体与生物医学文本数据的相关性。

改进后的promoter比原始方法提供了更好的建议,提供了更多的输入数据覆盖范围、更详细的概念信息、输入数据领域更专业化,以及社区内更高的接受度和使用率。此外,它还为用户使用单个本体和本体组提供了更多解释和建议,同时允许定制以适应各种本体推荐场景。与 NCBO 注释方法不同,NCBO 本体推荐器 2.0 使用单独的推荐方法来评估本体与生物医学文本数据的相关性。新流程由注释驱动,但评估基于一个评分系统,该系统使用特定公式计算每个注释的分数[28]。

在我们的项目中,我们需要从图本体中提取实验设计和实验室技术,以完成未来的分类任务,如图 5所示。

因此,Python 的 proto库可以操作和检查本体网络语言(OWL)和开放生物与生物医学本体(Open Biological and Biomedical Ontologies)格式文件。使用该工具,对分析代表不同领域知识的本体非常有用。在下面的代码片段中,我们循环使用 EDAM 本体集,并提取实验设计和实验室技术的所有子集。

Biopython 设置 Bio-python中的模块已大幅扩展,专为计算生物学或生物信息学领域的程序员设计,可用于我们的脚本或集成到我们自己的数据流管道中。

3.2.Data Acquisition

pmids5包括 30,000 多篇与疾病基因关联研究相关的学术论文。我们的出发点是检索所有生物医学科学文章的摘要和全文。我们的主要资源是 BioBer和 BioGPT这两篇文章,它们介绍了生物医学特定领域的 NLP 方法。Entrez 提供了搜索和摘要功能,可以轻松获取目标文章的摘要和详细信息。不过,在全文提取任务中,我们只提取了论文的方法和结果部分。在结果部分,实验结果存在显著差异。这可以从数据以逻辑顺序呈现的特点中发现,小标题用于区分不同的实验结果。同样,方法部分倾向于描述在经验或整体架构中使用了哪些方法。因此,方法和结果部分能准确反映论文的主要内容。我们使用 NCBO 本体论[28]为每种方法提供的一组有代表性的搜索词,搜索了生物医学子领域(如成像、RNA 序列和细胞计量学)中与方法学研究和 PubMed 期刊相关的摘要。检索词的选择基于特定领域的技术,最初设定为 42 个词,我们使用子类别词(方法的同义词)将标签扩展到 188 个。我们舍弃了没有摘要的文章。同时,我们将所提供的数据集缩小到 3200 篇文章,以识别文章中使用的方法。在 Entrez API 中,每次调查的结果限制为 10,000 条,以确保不会一次性返回大量数据[37]。因此,每种方法检索到的摘要数量从一百多到几千不等,而且我们只下载了 XML 格式。由于 PubMed 数据集的限制,我们只能通过访问 BioC [22] 提供的 PubMed 子集来提取文章全文。子集使我们能够专注于数据库的特定部分,为了帮助我们进行搜索,PubMed详细介绍了两种可用的子集,即处理状态子集和 AID 主题子集,以及进行检索时应使用的相应子集标签。因此,我们将 Entrez 关键词搜索与 BioC 全文检索工具相结合,检索出了包括摘要、方法和结果在内的最终数据集。

3.3.Pre-processing

为了通过提取的摘要和全文数据训练模型,我们需要为每篇文本贴标签,以确保我们的模型处于监督学习状态。通过这样做,我们为每个摘要或全文标注了不同的方法。一个内容可能标注了一种或多种方法,这取决于该内容是否在本体中定义了众多标签。即使 HuggingFace 管道提供了训练器函数来训练 Python 字典类型的原始数据,我们也需要瞥见整体数据的分散情况。因此,我们首先将 Python 字典转换为 pandas 数据帧,然后使用过滤函数将不同类型的内容映射为数字。为了使原始数据易于理解,我们通过数据流管道分类器实施了数据预处理技术。通过消除不那么重要的数据特征并提高准确性,我们没有使用传统的 NLP 工具包 NLTK,而是采用了一种新颖的预处理方法,即导入预训练的标记器来格式化输入序列。为了建立聚类视图,SciPy提供了一个树枝图功能,以直观地显示每个聚类之间的密切关系。SciPy 首先通过二进制标签矩阵将不同行连接起来,然后绘制每组之间的距离。在分层聚类的情况下,该算法将每个数据点视为一个独立的聚类。然后,它根据相似度合并一个聚类,直到所有数据点都成为一个聚类。聚类合并后,会创建一个新的聚类,并赋予不同的标识符,如索引或分支,以区别于其他聚类。

数据集中的文本在进入学习流程之前经过了多个阶段,包括小写、标记化、清理和词法化。事实上,我们使用了较小尺寸的无标点符号化器,以便为 GPU 的使用节省更多空间;因此,小写是不必要的。标记化器将文本分解成更小的单位,即标记,这被称为标记化,对于准备文本数据以用于转换器模型中的自然语言处理任务至关重要。它有助于我们的模型理解文本的结构并处理语言变化。最后,词法化可以去除转折词。完成前一步后,我们将数据集分成两部分–一部分用于 “学习”,另一部分留给 “测试”。为此,我们将 80% 的数据分配给训练集,剩余的 20% 用于测试。

3.4.Model Selection

BERT 模型的独特之处在于它是双向的,而以前的模型是单向的,只从特定方向阅读文本 [13]。BERT 由多个层组成,这些层构成了一个 “转换器”,可以学习文本中单词之间的上下文关系。转换器努力分析复杂问题的术语,将它们更好地联系起来,以理解短语的语义和整体含义。提高转换器速度和效率的方法之一是利用 TPU 云,即加速其工作负载的集成电路。与现代 GPU 或 CPU 相比,TPU 的平均速度大约快 15-30 倍,而其 TOPS/Watt 大约快 30-80 倍[12]。在我们的建议中,由于本地训练环境的限制和 TPU 单元的高成本,我们使用 DistilBERT 架构对生物医学文献进行多标签分类,输入文本包括文章摘要或全文细节。为了排除优化模型,我们需要将模型的问题解决类型设置为多标签分类,并使用预处理的标签号指定标签。

3.5.Fine-tune

所有任务输入都是填充到最大句子长度(512 个标记)的序列。由于 DistilBERT 是在大型自然语言语料库上预先训练的,因此我们将标签转换为自然语言序列,而不是之前 BERT 模型中使用的结构化格式,这与 [49, 50] 中使用的标记不同。我们使用最大学习率为 10^{-5}$ 的 AdamW 优化器,并使用 BCEWithLogitsLoss 作为损失函数(BCEloss 和 sigmoid 的组合),在 10 个 epochs 的基础上对 DistilBERT 进行了微调。由于我们进行的是多标签预测训练,因此我们使用原始 Pytorch 对输出 logits 进行了定制,以便进一步预测。

3.6.Challenges

数据规模 管理大量文件是一项艰巨的任务,尤其是当其中一些文件难以理解或不再相关时。要从 20,000 多篇文章中筛选出哪些可以丢弃或存档,既耗时又具有挑战性。此外,处理一些神秘的文件,例如 Hong 及其同事的动物研究[20],也会增加整个过程的复杂性。必须将数据扩展到 20,000 个,以便有效管理训练数据短缺的问题。

预处理 在处理原始 Python 字典数据时,由于数据的非结构化性质,计算机可能难以对其进行解释。这样就很难从数据中提取有意义的见解和模式。此外,数据中可能包含错误或不一致之处,需要在模型中有效使用前加以解决。要应对这些挑战,就需要对数据进行仔细的预处理和清理,以确保数据格式正确,随时可用于分析。通过花时间解决这些难题,我们可以确保模型的准确性和有效性,从而获得更好的结果并更有效地利用我们的资源。

4 Results and Discussion

4.1.Experimental Results

在这里插入图片描述

在使用 DistilBERT-base 模型[26]处理多标签文本分类任务之前,我们深入研究了 DL,并尝试了训练约束。我们的方法包括自动收集与从 NCBO 本体论[28]中提取的所有方法相关的生物医学论文。我们开始自行训练、培训数据加载器并评估数据加载器,其中包括 20568 篇和 5143 篇生物医学科学论文,均匀分布在 188 个不同类别中。为了使现有的 DistilBERT 模型符合我们的具体要求,我们对其进行了修改,并在我们的数字化标签上对其进行了训练。为了提高学习成本,我们将 DistilBERT 开箱基础模型与 RTX 2070 Super Q Design 图形处理器(GPU)结合使用。我们还改进了训练超参数,如批次大小、最大长度、学习率、种子值和周期数,同时密切监控验证和训练损失。我们根据验证集选择了最佳模型。

利用我们的微调模型,我们通过输入一篇未见过的生物医学文章的结果部分,成功地预测了多标签方法。我们选择了预先提取的全文文章,并通过指定文章的唯一 ID(19030899)挑选出一个结果。我们将文章转换为标记化格式,并通过标记化输入和注意力掩码评估了模型输出。结果显示这篇文章有四个方法标签,证明了我们的模型在准确分类多标签样本方面的有效性。

5 Conclusion

在本项目中,我们利用功能强大的 DistilBERT 预训练模型成功实现了多标签分类模型,并开发了我们的生物医学文献分类模型,该模型只关注生物医学文献的方法分类。我们使用 DistilBert 作为支持模型,并在 32,000 篇摘要和完整文本文章的语料库上进行了预训练,结果令人印象深刻,超过了使用 RNN 或 Wiki 的传统文献分类方法。我们的目标是将这一高度专业化的特定模型融入不同的研究行业,尤其是生物医学文献研究领域。未来,我们计划通过掩码语言模型,利用更大的文本语料库对预训练语言模型进行微调,并扩展模型以适应综合方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值