RAIN: 您的语言模型可以在无需微调的情况下进行自我对齐

RAIN: Your Language Models Can Align Themselves without Finetuning

一、写作动机:

1、大型语言模型(LLMs)经常表现出与人类偏好不一致的情况。这些模型生成的结果有时会偏离人类偏好值,甚至可能带来潜在风险。

2、先前的研究通常收集人类偏好数据,然后使用强化学习或指导微调的方式对预训练模型进行对齐,即微调步骤。比如RLHF、DPO,需要对预训练的LLMs进行微调,并需要大量精心标注的人类数据和计算资源。相比之下,在不需要对齐数据的情况下对冻结的LLMs进行对齐更具吸引力。

二、本文贡献:

引入了一种新颖的推理方法,可回溯自回归推理(RAIN),允许预训练的LLMs评估其自身生成,并使用评估结果指导回溯和生成以确保人工智能的安全性。

三、与现有的对齐方法相比,Rain的优势:

1、Rain反映了人类的行为模式:在说话之前思考、权衡和反思后果。与依赖于语言模型推导的“生成-评估-再生成”循环不同,RAIN集成了用于启发式前瞻搜索的自我评估。在搜索过程中,它通过属性更新朝着更优方向引导,搜索结束后获取下一个token的调整概率。

2、RAIN具有通用性,它表明模型的对齐能力完全是自包含的,无需外部知识和数据。这种方法可以轻松地作为插件实施,与现有的自回归语言模型集成。

3、RAIN擅长对齐权重被冻结的LLMs。与RLHF不同,RAIN消除了维护额外模型的需要,并避免存储梯度信息和计算图。

4、与所有现有的对齐方法不同,RAIN是无学习的;不依赖于人类注释或任何形式的带标签或未标签的数据。

四、Rain的大致框架:

Rain的大致框架:总体而言,RAIN在由token集(每个树节点应该都是一个Token集合,其中,一个节点Xi:j有四个属性标志:嵌入e(Xi:j; X1:i−1)、概率p(Xi:j |X1:i−1)、访问次数n(Xi:j; X1:i−1)和值v(Xi:j; X1:i−1)组成,其中“;”或“|”符号表示“条件于”操作。)组成的树上进行搜索,并动态减小有害token集的权重,通过后退回溯和前向生成步骤,直到输出内容被自我评估为无害。该方法反映了人类的行为模式:在说话之前思考、权衡和反思后果。更具体地说,该方法由内循环和外循环组成。

五、Rain的具体实施细节:

1、Inner loop: Forward step.

根节点开始,并参考PUCT算法,根据公式1选择下一个token集合:

其中c ≥ 0是平衡开发和探索的正则化超参数,v(Xi:j; X1:i−1)反映了此上下文中token集的值,u(Xi:j; X1:i−1)表示token集已经被探索的程度。u的具体定义如下:

其中X′表示候选token集,即Xi:j的兄弟节点,包括Xi:j本身。

据公式1持续选择下一个标记集,直到达到叶节点。

PS:在前向过程中,在选择子节点时,如果节点的嵌入方差明显较低且子节点的值都较低,则引入一个额外的子节点是有益的。

2、Inner loop: Evaluation and attribute update.

在达到叶节点Yi:j后,让模型评估当前文本Y1:j以获取分数s(Y1:j)。下面是一个评估的示例。

模型选择“有害”会得到-1的分数,“无害”则得到+1的分数。而且,token集Ya:b的值v应该是以Y1:b为前缀的所有标记序列的平均分数s。例如,“Robbing is”对应的值应该是“Robbing is illegal”和“Robbing is a serious offense”的平均分数。

在实现中,以这种方式更新从根节点到叶节点Yi:j路径上的所有标记集的v。对于路径上的节点Y∗ a:b及其兄弟节点X∗ a:b,根据相似性更新X∗ a:b:

其中s(Y )是用于更新Y∗ a:b的分数,e表示语义嵌入,sim(·, ·)表示向量之间的余弦相似性,γ是不大于1的常数。为了减轻基于不准确嵌入进行大幅更新的风险,采用两种策略:仅基于高于预定阈值的相似性更新兄弟节点,并应用不大于1的折扣因子γ。

3、Inner loop: Backward step.

采样q次以获得q个token集,然后将这些token集附加到当前叶节点。然后,回溯到根节点,准备进行后续搜索,同时保留所有节点及其属性。

4、Outer loop:

候选token集的访问计数与其平均值呈正相关。因此,经过多次搜索迭代后,使用根节点的子节点的归一化访问计数作为下一个token集的概率。当生成的文本超过预定的分数阈值或达到最大搜索迭代次数时,搜索过程终止。

六、实验:

参数设置c为2,γ0.2。

1、任务:

四个任务:无害生成、对抗性无害生成、真实生成、控制情感生成。

2、数据集:

HH数据集、AdvBench数据集、TruthfulQA数据集、IMDB数据集(一个庞大的电影评论数据集)。

3、测试模型:

LLaMA、LLaMA-2-nonchat、LLaMA2-chat、Vicuna、Alpaca7B、GPT-neo

4、度量标准:

GPT-4

 5、无害性生成实验结果:

(vanilla:基准的自回归推理)

6、对抗性无害生成实验结果:

使用贪婪坐标梯度作为攻击算法。

7、真实性生成实验结果:

8、控制情感生成实验结果:

9、与baseline的比较:

七、分析:

1、消融实验:

2、时间效率:

3、自我评估的准确性:

八:局限性:

推理时间长。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值