论文阅读:Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

论文标题:
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
翻译:
混合就是您所需要的:比万亿参数 LLM 更便宜、更好的替代品:更便宜,更好的替代万亿参数LLM

摘要

在会话人工智能研究中,有一个明显的趋势是开发具有更多参数的模型,例如ChatGPT模型。虽然这些扩展模型倾向于生成越来越好的聊天响应,但它们需要大量的计算资源和内存。这项研究探讨了一个相关的问题:相对于单一的大型模型,小型模型的组合是否可以协同实现相当或增强的性能?我们介绍了一种称为混合的方法,这是一种简单而有效的集成多个聊天ai的方法。我们的经验证据表明,当特定的较小模型协同混合时,它们可能会超越或匹配大得多的对应物的能力。例如,仅集成三个中等大小的模型(6B/13B参数)就可以与ChatGPT (175B+参数)这样的大模型的性能指标相媲美甚至超过。这一假设在Chai研究平台上使用A/B测试方法进行了为期30天的严格测试。研究结果强调了混合策略作为一种可行的方法的潜力,可以在不增加相应的计算需求的情况下提高聊天人工智能的效率。

在我们的工作中,我们的混合方法并没有考虑如何训练更好的会话法学硕士,而是证明了人们可以利用一组现有的小型会话法学硕士,并鼓励他们在对话中进行协作,形成一个单一的聊天AI,产生更有吸引力和多样化的响应。
在我们的工作中,我们提出了一种能够组合黑箱语言模型输出的集成方法。通过为多回合任务(如对话代理)的特定性质设计我们的方法,我们的混合方法不需要所有组件系统生成输出,而是随机选择生成下一个响应的系统,从而允许在多回合对话级别上进行模型混合。

Blended(混合)

人工智能聊天

聊天人工智能的目标是设计一个自动系统,可以产生引人入胜和有趣的对话,人类用户可以与之互动。

设uk表示用户的第k轮,其中每个用户Turn是一个单词序列,UK = (w1 (k) …, w |uk| (k) )。

类似地,设rk表示系统的第k个生成的响应,它也是一个单词序列rk = (w1 (k) ,…, w |rk| (k) )。作为一个隐式语言模型,一个特定的聊天AI,参数化为θ,根据之前的会话历史,模拟下一个响应的概率,P (rk | u1: k, r1: k−1;θ)
在训练过程中,系统隐式学习为流畅、引人入胜和高质量的响应分配更高的概率。因此,输出可以简单地从其分布中采样,或者随机采样,或者通过近似搜索过程,如波束搜索。

rk ~ P(r|u1:k, r1:k−1;θ)
首先,预先训练的语言模型(PrLM)在相关的文本域上进行微调,例如,用于设计引人入胜的聊天机器人的娱乐文学。
其次,使用明确的人类反馈来训练奖励模型,例如,通过使用用户参与度作为响应质量的代理。
最后,奖励模型被用来改进原始的PrLM,要么是通过近端策略优化,要么是遵循一个简单的拒绝抽样策略。

在开发特定的聊天AI时,有许多设计选择,例如基本PrLM,用于微调的会话数据,以及用于更新系统的人类反馈的性质。
人们可能会认为,不同的配方和训练种子可能会导致高度多样化的系统,每个系统都表现出独特的优势和特征。然后可以考虑如何将一组聊天ai组合成具有更好整体特性的系统。

Ensembling

根据贝叶斯统计原理,分配给特定响应的概率可以被概念化为所有可能的聊天AI参数的边际期望,
在这里插入图片描述
在实践中,我们只能访问有限的聊天AI系统{θ1, θ2…θN},可以将连续积分近似为离散求和。此外,可以假设PΘ(θ)均匀分布在系统上,使得PΘ(θ N) = 1n,如果该集合由类似的执行模型组成,这可能是一个有效的假设。
这就得到了近似,
在这里插入图片描述

Blended

我们的方法的目标是从真实的集成分布中近似地抽取样本(公式8)。为了实现这种近似,每一次混合随机(和均匀)选择产生当前响应的聊天AI θ。这个过程在算法1中说明。可以注意到,在对话过程中,特定聊天AI生成的响应取决于之前选择的聊天AI生成的所有先前响应。这意味着不同的聊天ai能够隐式地影响当前响应的输出。因此,目前的反应是混合了个人聊天AI的优势,因为它们合作创造了一个整体上更吸引人的对话。
在这里插入图片描述

评估Chat ai

评估NLG输出的质量是一项非常具有挑战性的任务,其中传统的金标准方法使用人工评估器对生成的响应的质量进行评分,这可能是昂贵的。
然而,由于聊天人工智能根据定义部署在与人类的社交环境中,因此可以利用用户交互统计数据作为聊天人工智能参与度和质量的有意义和一致的衡量标准。为了评估聊天AI的“质量”,我们考虑了两个主要的代理函数:行业标准的用户留存率和主要目标函数,即用户粘性。

用户保留

用户留存率是衡量平台成功与否的标准工业指标,它衡量的是用户在加入平台k天后返回该平台的比例。

用户留存率

用户留存率是一个有用的行业指标,但它可能与真正感兴趣的指标并不完全一致。高质量、引人入胜的对话可能会让用户着迷更长时间;因此,我们直接将代理用户粘性指标定义为每个访问用户花费的平均时间。

  • 22
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值