革命性的进步:语言模型成为科学助理

人工智能咨询培训老师叶梓 转载标明出处

尽管语言模型(LMs)在科学问题解决技能方面取得了显著进步,但现有模型开发主要集中在标准化测试和数据集上,并未充分考虑现实教育场景中的需求。特别是在处理长篇科学文档和模拟真实教学互动方面,现有技术仍存在局限。来自普林斯顿大学的研究团队及其合作者介绍了TUTOREVAL和TUTORCHAT,旨在衡量LMs作为科学助手的实际应用性,并探讨了它们在教育领域的潜力。

TUTOREVAL的示例。在这个例子中,学生向语言模型导师(LM Tutor)提问,并且章节内容和问题一起输入给LM Tutor以生成答案。GPT-4通过参考人类标注的关键点来评估生成的结果

TUTOREVAL,这是一个长期语境问答基准测试,它需要高级科学知识,模拟人类寻求理解教科书材料的过程。TUTOREVAL由800多个专家撰写的问题组成,涵盖数学、物理、计算机科学、环境科学和生命科学等领域。由于通过使用现有对话数据集对基础模型进行微调,在TUTOREVAL上的表现并不理想,研究者创建了TUTORCHAT,这是第一个关于科学的长期对话数据集,包含80,000个关于教科书的长篇合成对话。

在TUTOREVAL上的模型性能细分,按照不同的学科领域进行了展示。左侧是按领域划分的TUTOREVAL性能细分,右侧是TUTOREVAL上的流行模型排行榜

TUTOREVAL

在TUTOREVAL数据集的构建过程中研究者邀请了17位具有STEM领域研究和教学背景的专家参与问题编写。这些专家根据他们专业领域内的教科书章节,编写了800多个问题,覆盖了数学、物理、计算机科学、环境科学和生命科学等学科。这些问题反映了学生在阅读教科书时可能产生的疑问,包括对难点的澄清和背景知识的询问。

数据集由202个教科书章节组成,每章至少提出3个问题。章节内容平均长度约为1800个单词,最长可达6100个单词。研究者还对问题进行了分类,包括是否需要阅读原文才能理解问题(闭卷问题)、问题答案是否包含在章节内、问题是否具有误导性,以及问题的难易程度。

为了验证数据集的有效性,研究者使用GPT-4对不同类别的问题进行了评估,包括闭卷和开卷条件下的表现。结果显示,闭卷问题确实需要参考原文,而开卷问题则能更好地利用长文本上下文。

研究者使用语言模型本身作为评估者。在这个过程中,人类注释者首先为每个问题提供了正确答案的关键点,这些关键点概括了一个优秀教师在回答学生问题时应该覆盖的要点。然后,评估用的语言模型根据这些关键点来对其他语言模型生成的答案进行评分。

GPT-4作为评估者的表现非常出色。研究者发现,GPT-4在评分时能够很好地与人类评估者的判断相一致。通过计算GPT-4与人类评估者在正确性和呈现性评分上的皮尔逊、斯皮尔曼和肯德尔τ相关系数,研究者证明了GPT-4作为评估者的可靠性。

17位注释者和GPT-4对四个模型(Vicuna-13B-16k, Llemma-7B-32K-Ultrachat, Llemma-7B32K-MathMix, 和 GPT-4)在他们各自创建的50个问题上的评分之间的相关性

在TUTOREVAL排行榜上,研究者展示了最先进语言模型的性能。这些模型在数学、物理、计算机科学、生命科学和环境科学等不同领域的表现被详细分解。GPT-4在所有领域都表现出色,而GPT-3.5和Mixtral-8x7B紧随其后。特别是,研究者发现Llemma-7B-32K-MathMix模型在数学问题上的表现尤为突出,这得益于它在数学数据上的专门训练。

4个模型由人类和GPT-4在TUTOREVAL上的评分

研究者还对不同模型在闭卷条件下的表现进行了评估,即不依赖教科书原文来回答问题。结果显示,即使是最先进的模型,在闭卷条件下的性能也有所下降,这进一步证明了TUTOREVAL作为一个评估工具的深度和复杂性。

TUTORCHAT

TUTORCHAT的构建始于教科书的收集。研究者从libretexts.org上抓取了大量开源教科书,这些教科书涵盖了广泛的学术领域。收集到的教科书经过了HTML到LaTeX的转换,并经过了额外的过滤,以去除参考文献和元数据。为了构建长篇文档数据集,研究者将短小的连续教科书章节进行了合并,确保每个“章节”至少包含512个单词。最终研究者得到了一个包含1685本教科书、78000个章节、160M单词的数据集,这个数据集不仅覆盖了STEM领域,还包括了人文社科等学科。

对话生成是构建TUTORCHAT的第二个步骤。研究者利用GPT-3.5和GPT-4生成了关于教科书章节的对话,模拟了教师和学生之间的互动。研究者采用了两种主要的策略:一是使用两个GPT-3.5实例模拟教师和学生之间的对话,二是使用单个GPT-4实例来模拟整个对话过程。研究者还利用GPT-4生成了基于教科书章节的考试脚本,包括解决方案,但不包含对话格式。这样的考试脚本有助于GPT-4在非对话场景中包含更复杂的推理任务。

在构建完TUTORCHAT数据集后,研究者进行了质量控制和数据分析。他们发现由GPT-4生成的对话在事实性和挑战性方面优于GPT-3.5生成的对话,尽管GPT-3.5生成的对话可能包含更多的错误,有时会偏离主题,但它们更加会话化、真实和友好。

使用TUTORCHAT-STEM不同子集对LLEMMA7B-32K模型进行微调后的TUTOREVAL评估结果

为了理解TUTORCHAT生成策略的影响,研究者进行了消融实验。他们从TUTORCHAT数据集中抽取了不同类型的10K序列样本,包括由GPT-4和GPT-3.5生成的对话、开卷和闭卷对话、模拟强学生和弱学生的对话,以及随机样本。通过微调LLEMMA-7B-32K模型并在TUTOREVAL上评估,研究者发现GPT-4生成的数据在TUTOREVAL上的表现优于GPT-3.5生成的数据,尤其是在处理误导性问题时。

研究者还发现,开卷对话比闭卷对话更有效,无论是在TUTOREVAL还是在闭卷评估中。这表明,当语言模型和用户讨论共同的文本时,能够更好地利用长篇上下文。研究者指出,随机数据样本在开卷和闭卷评估中表现最为全面,这表明数据多样性是构建有效数据集的关键。

通过这些详细的构建和检查步骤,研究者成功创建了一个高质量的长文本对话数据集,为训练和评估语言模型在科学教育领域的应用提供了宝贵的资源。TUTORCHAT数据集不仅丰富了科学教育的语言模型训练资源,还为研究者提供了理解和改进模型在复杂对话场景中表现的机会。

构建语言模型导师

研究者采用了一个两阶段的微调流程来提升模型在TUTOREVAL上的表现。第一阶段是扩展模型的上下文窗口至32K令牌,以适应长篇科学文本的处理需求。研究者使用OpenWebMath数据集对Llemma-7B模型进行了微调,以增强其长文本理解能力。第二阶段是使用TUTORCHAT数据集进行微调,这包括将教师和学生对话转换为助手和用户对话,并根据开卷或闭卷对话的需要对文本进行适当的处理。

研究者还引入了一个新的数据集组合,名为MathMix,它结合了TUTORCHAT-STEM和MetaMath数据集,旨在进一步提升模型在数学问题解决方面的能力。

研究者比较了基于Llama-2的不同模型,包括CodeLlama和Llemma-7B。研究发现,对科学文本的训练显著提升了模型在TUTOREVAL上的表现。尽管直接针对GSM8K和MATH任务的训练可以提高模型在这些特定任务上的表现,但这样的模型在其他任务上的表现并不理想。

各种模型在TUTOREVAL-CLOSEDBOOK上的性能对比

对不同微调数据集对模型性能的影响研究中,通过比较UltraChat、TUTORCHAT、TUTORCHAT-STEM以及它们的变体(如结合MetaMath的数据集),研究者发现TUTORCHAT数据集在提升TUTOREVAL表现方面具有明显优势。特别是,当TUTORCHAT与MetaMath结合形成MathMix数据集时,模型在数学问题解决任务上的表现得到了显著提升。

使用不同微调数据集后,模型在TUTOREVAL上的表现

通过将TUTORCHAT-STEM与MetaMath结合形成MathMix数据集,研究者成功训练出了Llemma-7B-32K-MathMix模型,该模型在数学任务上超越了Mistral-7B-V2这一强基准模型,同时在TUTOREVAL上也取得了竞争性的表现。

在TUTOREVAL和数学相关问题集(GSM8K和MATH的平均值)上不同微调的Llemma-7B-32K模型的性能

基于模型在TUTOREVAL上的表现,人类评估者对模型进行评分。结果显示,人类评估者对模型的排名具有高度一致性。观察模型在多轮对话中的性能,发现Llemma-7B-32K-MathMix模型能够在多轮对话中保持连贯性,并且能够根据学生的表现调整其答案的难度。

通过这些研究成果为未来在科学教育领域应用语言模型提供了有价值的指导,TUTOREVAL背后的方法论为创建越来越专业化的评估开辟了新途径。

论文链接:https://arxiv.org/abs/2402.11111

  • 18
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值