DS4DH at MEDIQA-Chat 2023: Leveraging SVM and GPT-3 Prompt Engineering for Medical Dialogue

题目

MEDIQA-Chat 2023 上的 DS4DH:利用 SVM 和 GPT-3 快速工程进行医疗对话分类和摘要
在这里插入图片描述

论文地址:https://aclanthology.org/2023.clinicalnlp-1.57/
项目地址:https://github.com/tinaboya/MEDIQA-Chat-2023-ds4dh

摘要

    本文介绍了 Data Science for Digital Health (DS4DH) 小组在 ACL-ClinicalNLP 2023 的 MEDIQA-Chat 任务中的结果。我们的研究结合了经典机器学习方法的力量,支持矢量机,用于对医学诊断语言进行分类,以及使用 GPT-3.5 实施一枪提示。我们使用对话和来自同一类别的摘要作为提示,为小说对话生成摘要。我们的研究结果超过了基准分数的平均值,为评估该领域的表现提供了可靠的参考。

    电子健康记录中前所未有的文本数据量导致了信息过载现象,这干扰了医护人员的信息处理能力,降低了他们的工作效率,并阻碍了他们及时获取知识。复杂患者(例如慢性病患者)的记录特别难以组织和简洁呈现,要求医生在定期就诊期间阅读许多临床记录,而这通常是不可行的。研究表明,信息超载会增加任务需求和脑力劳动,这可能会损害医护人员对患者医疗状况的了解并阻碍最佳医疗决策,有时会导致致命的后果。

    为了解决信息过载现象,临床文本摘要方法被提出来支持医护人员的文本数据工作流程交互。临床文本摘要使用 NLP 方法生成文档的简明表示。通过这样做,它可以帮助医护人员专注于相关信息,从而提高医疗决策,从而提高医疗质量。事实上,与医生进行的 EHR 总结可用性研究表明,与原始记录相比,阅读自动生成的摘要的有效性。

    为了支持高效的医生决策,在本文中,我们研究了一种新颖的方法,该方法将传统的机器学习方法支持向量机 (SVM)与尖端语言模型 GPT-3.5 相结合,有效提取有价值的信息以创建医患对话摘要。我们实现了一个用于简短医疗对话分类的 SVM 模型,探索其在区分不同类别的医患接触的新任务中的潜力。先进的生成语言模型在文本生成和推理方面表现出了卓越的能力。我们将 GPT-3.5 与一次性提示结合起来,使用来自同一类别的对话和摘要作为提示来生成新对话的摘要。

    我们讨论当前技术水平的两个关键方面:(1)文本分类,特别是医学对话分类,以及(2)摘要,特别关注抽象摘要。文本分类。文本分类是自然语言处理中一个经过充分研究的问题,针对不同领域提出了各种算法和技术。传统的机器学习方法,例如朴素贝叶斯、决策树、k-最近邻和 SVM 已广泛用于文本分类任务。在医学领域,这些技术已用于对临床笔记、医学对话和其他类型的健康相关文本进行分类。

    深度学习方法,如卷积神经网络、循环神经网络(RNN)、长短期记忆网络(LSTM)和基于 Transformer 的架构,包括预训练的语言模型,例如 BERT、RoBERTa和 XL-Net,已在多个领域展示了最先进的功效。利用文档的层次结构,图神经网络(GNN)也被有效地提出来为生物医学文档分配类别。与深度学习模型相比,SVM 需要更少的计算资源和训练时间,对于某些应用来说是更有效的选择。

    自动文本摘要包括抽取式摘要和抽象摘要。提取摘要从原始文本中识别并选择重要的短语或句子。抽象摘要通过创建捕获核心信息的新颖句子来生成摘要。抽象总结有助于生成临床记录、医学对话和科学文章的简洁表示。利用 RNN和 Transformer 架构的序列到序列(seq2seq)模型抽象概括。预训练语言模型的开发,例如 Transformers 的双向编码器表示 (BERT)、生成预训练 Transformer(GPT)和文本到文本传输转换器( T5)进一步推进了该领域的最新技术。最近的研究探索了基于 GPT 模型的微调版本在医学文本中的使用总结,显示出有希望的结果。我们的工作通过采用 GPT-3.5 和一次性提示进行医学对话摘要来扩展这一研究方向,旨在提高性能和实用性。

    最近,医学对话总结开始获得发展势头。使用知识密集型方法,结合本体论、指南和知识图来创建对话摘要系统。提取的三元组用于创建类似主客观评估计划 (SOAP) 的报告。该模型实现了相对较高的精度,但相关摘要项的召回率较低。尝试通过首先提取和聚类值得注意的话语,然后利用 LSTM 和 Transformer 模型从每个聚类生成单个句子摘要,从医患对话中生成完整的 SOAP 注释。 表明,可以通过鼓励指针生成器网络中的老化复制来提高生成摘要的质量。最后,描述了一种基于 BART 的抽象方法,其中创建了两阶段摘要模型。由此产生的模型大大超越了普通人类注释者的表现以及之前发布的该任务工作的质量。

方法

    我们解决 MEDIQA-Chat 2023 的任务 A,其重点是短对话分类和摘要中的对话笔记摘要。任务 A 的目标是准确预测给定测试集实例的摘要和节标题。预测是根据对话中可用的信息进行的,训练集的标记计数如下图所示。 MTS-Dialog 数据集是全面且多样化的医学对话集合来自医患的接触。我们在比赛中获得了包含 1201 个训练实例、100 个验证实例和 200 个测试实例的数据集。数据集中的每个实例都包含标识符、节标题、对话和摘要。我们将 SVM 文本分类器与 scikit-learn结合使用。我们使用 CountVectorizer 将文本转换为标记计数矩阵,考虑最大文档频率为 0.5,最小文档频率为 5,以及一元组和二元组。然后,将标记计数矩阵转换为术语频率-逆文档频率(TF-IDF)表示形式。我们采用随机梯度下降 (SGD)优化算法,具有铰链损失、L2 惩罚和 1e-5 的 alpha 值。最后,我们使用校准分类器 CV 包装器校准分类器,从而能够提供概率估计。

在这里插入图片描述

    运行 1 :在第一次运行中,我们使用 OpenAI 的 GPT-3.5 模型“gpt-3.5-turbo”2 的 1750 亿个参数来生成基于分类对话。我们选择了一个随机训练实例,其预测部分标题与测试集中的实例相同。然后,我们构建了三个消息作为 GPT-3.5 模型的输入。

在这里插入图片描述

• 内容为“总结”的用户消息,后跟所选训练行的对话。
• 包含所选训练行的部分文本的助理消息。
• 内容为“总结”的用户消息,后跟当前测试行的对话。

在这里插入图片描述

该实现基于 OpenAI Chat API3 并提供构建的消息作为输入。 API 返回生成的摘要作为其响应的一部分。对于第二次运行,我们在训练集上微调了 GPT-3 curie 模型(3.45 亿个参数)。对于每个测试实例,我们提取对话文本作为提示。我们使用 OpenAI Chat API 和经过微调的 Curie 模型。输出长度是通过根据输入文本调整摘要长度来确定的。我们为每个输入提示生成一个补全,其令牌长度上限为在这里插入图片描述

在我们的训练数据集中,对话中的平均令牌数量是摘要中的 2.5 倍。我们将上限变换为通过应用以 2 为底的对数来计算最接近的 2 的较高次方。总之,两次运行都涉及集成对话分类和对话摘要的两阶段管道,如图下所示。

在这里插入图片描述

实验

    下面,我们展示我们在 MEDIQA-Chat 2023 任务 A 上实验的官方结果。上表显示了我们的对话分类流程的结果。我们的模型达到了 0.70 的准确度。尽管这个结果低于最佳参与者的准确度 0.78,但超过了平均参与者的准确度 0.56。 在对话摘要中,我们的模型的性能使用 ROUGE-1、BERTScore F1和 BLEURT 指标进行评估。每个评估指标都反映了摘要质量的不同方面。 ROUGE-1 测量生成的摘要和参考摘要之间一元组的重叠,重点关注内容相似性。 BERTScore F1 评估生成的摘要和参考摘要的上下文嵌入,捕获内容和语义相似性。 BLEURT 通过使用预先训练的语言模型将生成的摘要与参考摘要进行比较来衡量摘要质量,旨在捕获更复杂的语义关系。总分计算为这三个指标的平均值。

    将我们的两次运行与 ROUGE1、BERTScore F1、BLEURT 和总分指标的最佳和平均参与者得分进行了比较。结果表明,与运行 2 相比,运行 1 中采用的策略产生了更好的性能(ROUGE-1:0.3080、BERTScore F1:0.6644 和 BLEURT:0.5206),总分为 0.4977,这也优于运行 2 的平均性能。任务参与者增加了 2.4 个百分点。这表明该模型在内容、语义和复杂关系方面与参考摘要具有相对良好的一致性。第 2 轮得分较低,ROUGE-1 为 0.2937,BERTScore F1 为 0.6179,BLEURT 为 0.3887,总分为 0.4334。尽管如此,我们最好的模型比排名最高的模型跑赢了 8 个百分点,与分类结果类似,我们的模型也跑赢了 8 个百分点。

在这里插入图片描述

    我们使用验证集分析了文本分类模型的性能,因为测试集的真实标签无法用于事后分析。在验证集中,该模型取得了 67% 的性能,比测试集上报告的 70% 低了 3%。这种性能差异可归因于测试集包含的数据点数量是验证集的两倍。尽管存在差异,但结果表明该模型表现出良好的通用性,并避免了训练数据的过度拟合。验证集和测试集之间相对较小的性能差距表明该模型可能在未见过的数据上表现良好,这是一个理想的特征。在检查混淆矩阵中所示的验证集结果后,我们发现模型的性能在不同类别之间存在很大差异。一些类别(例如 FAM/SOCHX 和 GENHX)显示出高度准确的预测,而其他类别(例如 ASSESSMENT 和 CC)则表现出较低的准确度。这种性能的变化凸显了进一步改进和精细化的需要调整模型以在所有类别中实现最佳性能。

在这里插入图片描述
    下图显示了节标题分类器的示例。该模型显示输入文本属于“PASTMEDICALHX”(既往病史)类别的高置信度 (0.69)。 “医疗”、“诊断”、“病情”、“病史”和“就诊”等词语对预测有积极的贡献。 “医疗”一词的正面得分最高,如果省略,模型将预测标签“PASTMEDICALHX”,概率降低 0.22,导致置信度得分为 0.47。对于“PASTMEDICALHX”类,“新”一词是否定的。此示例演示了模型识别相关关键字并区分各个节标题的能力,从而准确地将输入文本分类到适当的类别。

    下表显示了验证集中的一个示例,其中包含运行 1、运行 2 和黄金摘要。对这些摘要进行比较,以评估其有效传达基本信息的能力。第 1 轮摘要简要、清晰地描述了患者的病情和病史。它重点介绍了患者八年前因在 ABC 商店跌倒而开始的腰痛、不同程度的持续疼痛、接受的治疗(电刺激和热疗)以及后续与另一位医生的预约。医生。相比之下,运行 2 的摘要显得不太连贯,句子支离破碎,信息呈现的组织性也较差。它涵盖了 2007 年 10 月的跌倒、2008 年的怀孕以及 2008 年再次跌倒后背痛的恶化,但细节没有像第一轮摘要中那样清晰地传达。此外,第二轮总结对于后续预约缺乏明确性。黄金摘要是三者中最全面的,提供了具体的日期、治疗和事件。它概述了患者的腰痛病史、接受的治疗和随访预约,同时还强调了患者的分娩情况,这可能与病例相关。

    总之,由 gpt-3.5-turbo 模型使用单个提示和训练集和测试集相同的标头类生成的运行 1 摘要提供了对患者情况的简洁明了的描述。相比之下,由微调 GPT-3 模型使用所有可用训练数据点生成的运行 2 摘要缺乏连贯性和组织性。这一比较凸显了 gpt-3.5-turbo 模型优于微调 GPT-3 curie 模型的潜力,尽管后者使用了所有可用的训练数据。

在这里插入图片描述

    下表展示了验证集上的总结任务的结果,比较了不同环境下的 gpt-3.5-turbo 5 和 GPT-3 curie 模型提示策略和评估指标,包括 ROUGE-1、BERTScore F1、BLEURT 和总分。对于gpt-3.5-turbo模型,提示策略的选择显着影响其性能。当使用随机节标题作为提示策略时,模型产生的 ROUGE-1 得分为 0.2636,BERTScore F1 为 0.6393,BLEURT 为 0.514,总得分为 0.4723。然而,通过将提示策略更改为使用相同的节标题,gpt-3.5-turbo 模型表现出改进的性能,ROUGE-1 得分为 0.3282,BERTScore F1 为 0.6695,BLEURT 为 0.5498,总得分为 0.5158。相比之下,根据现有数据进行微调的 GPT-3 curie 模型的 ROUGE-1 得分为 0.2945,BERTScore F1 为 0.6122,BLEURT 为 0.3856,总得分为 0.4308。这些结果表明,当使用相同的节标题提示策略时,gpt-3.5-turbo 模型在所有评估指标上都优于微调的 GPT-3 curie 模型。此外,gpt-3.5-turbo 模型的不同提示策略之间的比较凸显了选择适当的提示策略对于提高医学总结任务性能的重要性。

在这里插入图片描述
    通过将开发集的预言机结果与测试集的实际结果进行比较,我们发现测试集结果位于上限(同一节标题)和下限(随机节,而不是随机节)之间的范围内。预测类。开发集的标题)。此范围内的变化可归因于分类器引入的错误,并有助于部分解释我们的最佳模型与挑战中的 top-1 性能之间的性能差距。

    虽然我们的两阶段管道结合了对话分类和对话摘要,与其他参与者相比表现出了有竞争力的性能,但仍有一些局限性需要解决以进一步改进。首先,分类和总结任务都可以受益于各自模型的增强。对于分类,探索其他机器学习算法或专门针对医学对话分类微调语言模型可能会产生更好的结果。此外,研究特定领域知识的整合或利用外部资源(例如医学本体)可能会提高分类准确性。关于摘要,改进提示策略并尝试不同的配置可以产生更加连贯和信息丰富的摘要。这可能涉及探索各种提示模板,从对话中纳入更多上下文,或应用思维链推理来提取相关信息。此外,在特定领域的语料库上微调语言模型或使用包含相关任务(例如问答或信息提取)的多任务学习,可能有助于更好的摘要性能。最后,本研究中使用的评估指标可能无法完全捕捉生成的摘要的质量。重要的是要承认 ROUGE-1、BERTScore F1 和 BLEURT 等自动化评估指标可能与人类判断并不完全一致。因此,与医疗专业人员一起进行用户研究可以为生成的摘要在现实临床环境中的实用性和准确性提供有价值的见解。

结论

    我们的研究证明了将传统机器学习技术(如 SVM)与高级语言模型(如 GPT-3.5)相结合用于医学对话摘要的有效性。这种混合方法有可能改善患者护理期间的记录程序,并通过对医疗对话进行分类并生成简洁的摘要,促进医疗保健专业人员做出明智的决策。对于未来的工作,我们计划解决本研究中发现的局限性。对于分类,我们将尝试模型配置并探索替代机器学习算法。总结来说,我们将完善提示策略,结合特定领域的知识,并研究各种微调技术。最后,与医疗专业人员进行用户研究将提供有价值的反馈,以评估我们生成的摘要在现实临床环境中的实用性和准确性,并进一步完善我们的方法。

  • 11
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值