别再被大模型骗了,一个小技巧,让LLaMa3诚信度提升65%


人工智能正以惊人的速度发展,大语言模型(LLM)作为其中的"明星",展现了令人赞叹的语言理解和生成能力。然而,在享受大语言模型带来便利的同时,我们也必须正视其在诚实性和安全性方面所面临的挑战。

近期,华中科大研究团队提出了一个全新框架,从理论和实验两个层面来提升大语言模型的诚实性和有益性。他们构建了一个全新的评测数据集HoneSet,并设计了面向开源和商业模型的优化方法。实验表明,经过两阶段微调之后的llama3诚信度提升65%。

随着人工智能的发展,诚实可靠的AI助手将成为人们的刚需。我们期待看到更多研究者投身于这一领域,共同推动大模型技术走向成熟,更好地造福人类社会。

论文标题:
The Best of Both Worlds: Toward an Honest and Helpful Large Language Model

论文链接:
https://arxiv.org/pdf/2406.00380

大语言模型的诚实性挑战

大语言模型(LLM)以其出色的语言理解和生成能力在自然语言处理领域崭露头角,在对话、写作、问答等方面展现出广阔的应用前景。然而,大语言模型在实际应用中所面临的诚实性挑战,也逐渐成为人们关注的焦点。

这些模型有时会生成似是而非的错误信息,并在面对超出能力范围的问题时,未能坦诚表达自身的局限。这可能影响用户对其输出的信任,用户不会将大模型应用到需要高信任度的任务中。因此,如何提升大语言模型的诚实性,使其成为更可靠、有益的助手,成为了一个亟待解决的问题。

"诚实"大模型的"修炼"之道

针对上述挑战,来自华中科技大学、Notre Dame大学和Lehigh大学的研究者们提出了一个全新的框架,从理论和实践两个层面入手,来提升大语言模型的诚实性和有益性。

首先,研究者从理论层面对诚实的大模型应具备的特点进行了系统梳理和定义。他们指出:

  1. 诚实的大模型应该能够认识到自身的局限性,对超出能力范围的问题给予合理的回应;

  2. 不盲从用户输入,而是秉持客观中立的立场;

  3. 此外还要有清晰的自我认知,不将自己等同于有感知和情感的人类。

基于这些原则,研究者构建了一个全新的评测数据集HoneSet,涵盖了6大类型的"刁钻"问题,对大模型的诚实性进行多角度考察。如下图所示,HoneSet包含了Latest Information、User Input、Professional Capability、Modality Mismatch、Interactivity Sensory和Self Identity这六个类别的问题,旨在全面评估模型在不同场景下保持诚信的能力。

下图展示了HoneSet数据集的构建过程,其主要包含三个步骤:

  1. 候选数据集构建,即针对6个类别由人工定义种子查询,并利用GPT-4进行上下文学习扩充数据。

  2. 数据过滤和增强,使用OpenAI文本嵌入模型过滤重复数据,并对查询进行复述扩充。

  3. 人工评估,专家对生成的查询进行筛选和完善,以保证数据质量。

其次,研究团队从实践层面设计了两种优化方法,分别面向开源模型和商业模型:

  1. 开源模型

    面向开源模型,他们提出了一种"好奇心驱动"的提示优化方法。该方法分为两个阶段:好奇心驱动的提示生成和答案优化。

    在第一阶段,通过设计巧妙的提示,引导模型阐述对问题的疑惑和不确定性。具体而言,提示模板会鼓励模型仔细分析问题,表达自己的困惑,例如缺乏实时信息、用户输入不足或有误、缺乏特定领域知识等。这一步旨在唤起模型对自身局限性的认知。

    在第二阶段,研究者将模型的疑虑和原始回答结合,再次输入给模型,并给出一个"宪法导向"的提示,引导模型基于预设的诚信原则优化回答。优化后的回答应包含对局限性的坦诚交代,以及对用户的有益引导。

  2. 商业模型

    面向商业模型,研究者提出了一个包含两个阶段的微调流程:

    (1)第一阶段通过优化对比损失函数,在HoneSet上训练模型区分诚实和不诚实的回答;

    (2)第二阶段通过优化基于人类偏好的奖励函数,进一步提升模型回答的有益性。

    整个过程借鉴了课程学习的思想,使模型由浅入深地学习诚信、助人的品质。同时,图中也比较了两阶段微调与直接端到端微调的效果,表明分阶段训练能取得更好的性能提升。

该研究从理论和实践两个层面,系统地探索了打造诚实助人的大语言模型的方法。通过定义诚信准则、构建评测数据集、设计提示优化和微调方法等一系列工作,为提升大模型在实际应用中的可信度和有益性提供了新思路。

诚信"修炼"初见成效

为验证该方法的有效性,研究者在包括GPT-4、ChatGPT、Claude等在内的9个主流语言模型上展开了详尽的实验。

下图展示了基于提示优化方法的实验结果。从图中可以看出采用好奇心驱动的提示后,各模型在HoneSet上的诚实度均有显著提升。如GPT-4和Claude的诚实度升至100%,达到了近乎完美的诚信对齐;而参数量较小的Llama2-7b的诚实度也从43%大幅提高到83.7%。几乎所有模型的诚实度都超过了60%,证明了该方法的普适性。

之后作者进一步比较了优化前后的回答在人工评估中的表现。结果显示,优化后的回答在成对比较中的胜出率普遍高于原始回答,体现了更高的诚实度和有益性。

除此之外,文中还定量展示了回答在解释、解答、指导三个维度上的进步。从结果可以看出,各模型在坦诚解释局限性、提供解题思路、给出具体指导等方面均有长足进展,充分显示了提示优化方法的成效。

下表汇总了Llama3-70b和Mistral-7b等模型在两阶段微调前后的诚实度和评分变化。从表中可以看出,采用两阶段微调后,两个模型在各个得分区间的分布都有明显改善。

采用两阶段微调后,Llama3-8b的诚实度从49.2%提高到91.7%,提升了42.5个百分点,在评估中,其总分也从4.975分升至8.225分,提高了65.3%。Mistral-7b的表现更为亮眼,诚实度从32.5%飙升至85.8%,总分从3.308分翻了一番多,达到7.433分,提升幅度高达124.7%。

值得一提的是,仅用1000对数据进行两阶段微调,就能取得如此显著的效果,展现了该方法的数据效率。

下表进一步展示了不同类别数据在各评分阈值下的表现变化。可以看到,微调后各类别的得分均有不同程度的提高,尤其在User Input、Modality Mis.、Interactivity Sen.等类别的进步最为明显。

除上面表格外,下图则直观地对比了不同阈值设置下,两阶段微调与直接端到端微调的性能差异。无论阈值如何变化,两阶段微调始终优于直接微调,再次印证了循序渐进训练的优越性。

综合以上实验结果,本文提出的提示优化方法和两阶段微调方法都在提升语言模型的诚实性和有益性方面取得了显著成效。一方面,提示优化巧妙利用语言模型的"好奇心",引导其直面自身局限并给出有建设性的回应,无需重训练模型即可实现诚信对齐。另一方面,两阶段微调通过课程学习式的渐进优化,使模型在1000对数据的小样本上即展现出色的诚信助人品质。更重要的是,所提方法在包括开源模型和商业模型在内的各类主流语言模型上都取得了一致的性能提升,证明了其广泛的适用性。

总结与展望

这项研究工作为构建更值得信赖、有益人类的大语言模型探索了一条新路径。随着人工智能触角的不断延伸,诚实可靠的AI助手将成为人们工作和生活中不可或缺的一部分。用户需要AI能开诚布公地认识到自身的局限,同时又能创新性地给出有针对性的协助。

当然,塑造一个诚实守信的AI助手并非一蹴而就。譬如,随着大模型应用场景的拓展,我们需要持续更新对诚信AI的要求;在技术层面,还要进一步探索更高效、更精准的优化算法。这需要学界和业界的通力协作。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值