【论文速读-1】LLMs Alignment相关

Mitigating the Alignment Tax of RLHF

common sense QA, such as ARC Easy and Challenge (Clark et al., 2018), Race (Lai et al., 2017), and PIQA (Bisk et al., 2020),
reading comprehension benchmarks including SQuAD (Rajpurkar et al., 2018) and DROP (Dua et al., 2019),
and translation tasks, including WMT 2014 French to English translation
MA方法在OpenLLaMA-3B模型上经过一系列RLHF算法的验证,并扩展到Mistral-7B模型
在这里插入图片描述
Reducing catastrophic forgetting with learning on synthetic data
该数据集由加州大学、北大等研究者提出的英文阅读理解基准测试集。该数据集旨在推动阅读理解技术向更全面的文本段落分析发展,要求系统对段落内容执行离散推理操作,如加法、计数或排序。这些操作比以往数据集所需的理解更为深入

在基础模型出现之前,预训练和微调范式已经在众多应用中取得了显著成就(Devlin 等人,2018 年;He 等人,2016 年;Radford 等人,2021 年)。然而,在将预训练模型部署到真实世界的应用中并对其进行微调时,会遇到一个共同的挑战:遇到来自目标分布的新样本,而该分布与微调分布不同(Andreassen 等人,2021;Goyal 等人,2022;Lin 等人,2022a,b;Tan 等人,2023;Zhang 和 R ́e,2022;Zhou 等人,2022a,b)。为了解决这个问题,人们提出了几种方法。例如,(Cha 等人,2021b;Chu 等人,2022;Wortsman 等人,2021)建议利用预训练模型和微调模型的权重集合来提高分布外(OOD)性能。库马尔等人,2022 年)提出的另一种策略是 LP-FT 技术,该技术涉及用一个相当好的分类器对预训练的特征提取器进行初始化。当分类器是随机初始化时,这种初始化尤为重要,因为在微调过程中,1 预训练的特征很容易被扭曲以适应随机分类器,从而加剧灾难性遗忘的问题。

当 DNN 开始学习新任务(如微调任务)时,往往会丢失以前学习过的任务知识(如预训练任务)(McClelland 等人,1995 年)。为了减轻灾难性遗忘,人们进行了各种尝试。(Aljundi 等人,2018;Ritter 等人,2018;Schwarz 等人,2018;Xuhong 等人,2018)对新任务中参数的变化施加惩罚。(Yu等人,2021)通过使用自我训练损耗,用新知识的数据不断训练旧知识的表征,从而将相关新知识类型的知识转移回旧知识类型。(Yu和Ji,2023)注意到LLMs倾向于依赖已有的知识,忽略了最近的事实,导致错误的推理链,最终降低了信息更新的效率,并提出通过将相关事实的选择纳入训练损失来减轻暴露偏差。(Kirkpatrick 等人,2017)从微调参数点的旧任务损失泰勒扩展中获得直觉,并进一步提出通过将哈森矩阵纳入参数正则化来实现 EWC。基于回复的方法试图近似并恢复旧数据分布。这一方向的流行方法包括采样方法,即用小内存缓冲区存储一些旧训练样本(Caccia 等人,2021 年;Cha 等人,2021a;Chaudhry 等人,2018 年;Riemer 等人,2018 年;Vitter,1985 年),以及生成方法,即用生成模型从旧分布生成样本(Caccia 等人,2020 年)。知识提炼(KD)方法试图使微调模型的预测结果接近旧模型的预测结果。KD 可以与经验回复自然地结合起来。例如,(Rebuffi 等人,2017 年)建议对新任务的样本以及存储在缓冲区中的旧样本执行 KD


Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

Alignment of LLMs. There is a gap between LLMs’ language modeling objective (e.g., predicting the next token) during pre-training and the aim of “following instructions and being helpful, truthful and harmless” in LLMs’ final use cases (Ouyang et al., 2022). Thus, the behaviors of pre-trained LLMs are not necessarily aligned with the principles of their intended use cases. Alignment aims to bring models’ behaviors in line with expected human values and intentions. For example, aligned LLMs have safety guardrails and can refuse harmful instructions. Currently, the two most common alignment techniques are Instruction Tuning (Wei et al., 2021; Ouyang et al., 2022) and Reinforcement Learning from Human Feedback (RLHF) (Ouyang et al., 2022; Bai et al., 2022a), while other alignment techniques such as Constitutional AI (Bai et al., 2022b) and self-alignment (Sun et al., 2023) are also emerging. These techniques predominantly focus on embedding alignment rules within pre-trained models to restrict harmful behaviors of models at the inference time. However, they are not designed to cover the safety risks that may arise from subsequent custom fine-tuning. This work reveals that even if a model’s initial safety alignment is impeccable, it is not necessarily to be maintained after custom fine-tuning

LLM 的一致性。在预训练期间,LLMs 的语言建模目标(如预测下一个标记)与 LLMs 最终使用案例中的 "遵从指令,乐于助人,真实无害 "的目标之间存在差距(欧阳等人,2022 年)。因此,预训练 LLMs 的行为并不一定符合其预期用例的原则。对齐的目的是使模型的行为符合预期的人类价值观和意图。例如,对齐后的 LLM 具有安全防护功能,可以拒绝有害指令。目前,最常见的两种对齐技术是指令调整(Wei等人,2021年;欧阳等人,2022年)和从人类反馈中强化学习(RLHF)(欧阳等人,2022年;Bai等人,2022年a),而其他对齐技术,如宪法人工智能(Bai等人,2022年b)和自我对齐(Sun等人,2023年)也在不断涌现。这些技术主要侧重于在预训练模型中嵌入对齐规则,以便在推理时限制模型的有害行为。然而,它们的设计并不能涵盖后续自定义微调可能产生的安全风险。这项工作揭示出,即使模型的初始安全配准无懈可击,在自定义微调后也不一定能保持不变。


Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models

生成式大型语言模型(LLM)具有广泛的适用性和适应性,因此被迅速采用。虽然经过预训练的模型可以执行许多任务,但这些模型通常会经过微调,以提高其在各种下游应用中的性能。然而,这会导致违反模型许可、模型盗窃和版权侵犯等问题。此外,最新进展表明,生成技术能够产生有害内容,这加剧了模型供应链中的责任问题。因此,我们需要一种方法来调查一个模型是如何训练的,或者一段文本是如何生成的,以及它们预先训练的基础模型是什么。在本文中,我们迈出了解决这一开放性问题的第一步,即追溯给定微调 LLM 的源头到其相应的预训练基础模型。我们考虑了不同的知识水平和归因策略,发现用我们的最佳方法可以正确追溯 10 个微调模型中的 8 个。


ALERT: Adapt Language Models to Reasoning Tasks

Gururangan 等人(2020 年)发现,当微调数据集与训练前数据集的相似度更高时,性能增益就更大。

我们介绍 ALERT,这是一个经过精心策划的用于评估法学硕士推理能力的基准。它包括 20 多个数据集,涵盖 10 种不同的推理技能。利用这一基准,我们进一步研究了微调对这些复杂任务的影响。我们的实验表明,LLMs 并不只是简单地记忆训练数据,而是能够学习各种推理技能,如文本蕴含、归纳推理和类比推理。虽然我们发现微调一般会提高性能,但我们也发现了一些负面影响。LLM 往往会记住数据模板表示和微调过程中看到的模板,从而降低了模型对一般化设置的鲁棒性。CoT-微调(OPT-CoT)可以在一定程度上缓解这一问题,但与普通预训练模型相比,其鲁棒性仍然较差。
图 6 显示了每个阶段的推理技能。7 种技能可从预培训数据中学习。附录A.4 显示了有关预训练数据的更多细节。6 项技能可以从微调数据中学到(表 5)。利用 ALERT,我们在模型评估中总共测量了 10 种推理技能。
右上小图说明,在元微调阶段通过微调数据集获得了这 7 项技能(表 5)。

在这里插入图片描述

  • bigbench_repeat_copy_logic_generate_until
  • mmlu_formal_logic_generative
  • anli_r2
  • anli_r3
  • cb
  • piqa
  • sciq
  • openbookqa
  • glue
  • babi
  • argument_topic
  • coqa
  • mathqa
  • bigbench_winowhy_generate_until
  • bigbench_winowhy_multiple_choice
  • bigbench_strategyqa_generate_until
  • bigbench_strategyqa_multiple_choice

在这里插入图片描述

Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy

由于预训练数据已经过时,大型语言模型(LLM)在提供最新信息方面举步维艰。现有的 LLMs 更新方法,如知识编辑和持续微调,在新信息的泛化能力和对结构化更新语料的要求方面存在明显缺陷。我们发现了这些缺点背后的核心挑战:语言建模概率与逻辑概率之间的差异,即语言建模-逻辑差异。为了评估和应对这一核心挑战,我们提出了一种新的信息更新任务表述,该任务只需提供非结构化更新语料,并根据与更新信息相关的问答对的泛化能力来评估信息更新的性能。我们进一步为这项任务提出了一种新颖有效的流水线方法,突出了基于自我提示的问答生成过程和联想提炼方法,以弥合 LM 逻辑差异。我们开发了两个数据集进行评估,一个数据集来自 2023 年 3 月和 4 月发布的新闻文章1 ,另一个数据集来自自然问题基准。实验结果证明了我们的方法的优越性,事实一致性得分(从 0 到 1)显著提高了 0.16。此外,我们的方法利用仅占训练代币 2.3% 的紧凑型重放缓冲区有效地减轻了遗忘。

实验数据集
We combine the instruction-following data from Alpaca2 and InstructionWild3.
评估
CNN News and NQ Val,


How should pre-trained language models be fine-tuned towards adversarial robustness?((NeurIPS 2021).

灾难性遗忘(catastrophic forgetting):即在微调过程中,模型倾向于过度拟合到一个小的微调数据集上,从而偏离了预训练模型已经学到的通用和鲁棒的语言特征。

首先,微调本身会遭受灾难性的遗忘[46,18,34],即结果模型倾向于过度拟合小型微调数据集,这可能偏离预先训练的知识太远[25,81]。

微调和灾难性遗忘:预训练语言模型的微调[25, 11]可能非常不稳定[11],因为在微调过程中,目标模型可能会偏离预训练模型太多,而且很容易过度拟合到微调的小集合[25]。这种现象被称为微调过程中的灾难性遗忘 [46, 18][25,37,81]。解决灾难性遗忘的方法包括预训练权重衰减[8, 10, 81]、学习率下降[25]和 Mixout 正则化[37]。这些方法侧重于参数空间,以限制两个模型之间的距离,而我们的方法是从信息理论的角度来解决遗忘问题的。在连续学习中,基于排演的方法[42, 56, 39, 1]和基于正则化的方法[34, 14, 26]也致力于解决遗忘问题,但它们所处的环境不同:它们关注的是在有先前数据的任务中的平衡表现,而在我们的环境中,没有预训练语料库,语言建模也不是我们关注的问题。

  • 25
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "Mit-Cheetah-Note"是一种学习辅助工具,旨在提高学生的学习效率和效果。它结合了MIT(麻省理工学院)的学习方法和猎豹技术。 首先,MIT-Cheetah-Note采用了麻省理工学院的学习方法。这些方法包括主题导图,问题解决和概念联系等。主题导图是一种可视化的学习工具,帮助学生整理和理解知识点之间的关系。问题解决则鼓励学生通过提出问题来主动思考和深入理解知识。概念联系是通过将新知识与已有知识相结合,加深学生对知识的理解。 其次,这个学习工具还集成了猎豹技术。是一种训练阅效率和记忆力的技巧。通过使用猎豹技术,学生可以提高阅度和理解能力。这对于大量阅任务的学生来说尤其有用,如备考、论文写作等。 MIT-Cheetah-Note采用了数码笔和智能设备相结合的方式进行学习记录和储存。学生可以使用数码笔在纸上做笔记,并通过智能设备将这些笔记同步到云端。这样一来,学生可以随时随地访问他们的学习记录,从而更好地回顾和复习。 总而言之,MIT-Cheetah-Note是将麻省理工学院的学习方法和猎豹技术融入一体的学习辅助工具。它帮助学生提高学习效率和效果,并通过数字化技术方便学生的学习记录和辅助复习。 ### 回答2: Mit-Cheetah-Note 是一种人工智能语音助手,最初由麻省理工学院(MIT)研发。该技术基于深度学习和自然语言处理,在提供智能语音交互的同时,还具备类似于记事本的功能。 Mit-Cheetah-Note 可以用于多个方面,例如记录会议笔记、制定待办事项、管理日程安排等。用户可以通过语音指令来创建笔记,编辑文本内容或者提醒自己日程。Mit-Cheetah-Note 还能理解自然语言,对语音指令做出准确的响应,从而提高用户的工作效率。 与其他语音助手相比,Mit-Cheetah-Note 的特点是其记事本功能。用户可以通过语音输入方式,较快地记录需要记下的信息,而无需手动键入。此外,Mit-Cheetah-Note 还有一个方便的搜索功能,可通过关键词搜索用户之前创建的笔记内容,帮助用户快找到所需的信息。 Mit-Cheetah-Note 可以应用于多种场景,如商务会议、学术讲座、个人笔记等。它不仅可以减少记笔记的时间和工作量,还可以提高笔记的准确性和完整性。 总之,Mit-Cheetah-Note 是一种集成了语音助手和记事本功能的人工智能技术,使用户能够通过语音指令快记录信息和管理日程,提高工作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值