LLM校准 - On the Calibration of Large Language Models and Alignment

在这里插入图片描述
论文链接:https://arxiv.org/pdf/2311.13240.pdf

注:本notes不介绍calibration相关的基础知识,如有兴趣请自行阅读相关文献~

1 Introduction
2 Calibration Evaluation Tasks and Data
  • Causal language modeling (CLM),给定序列预测下一个token;使用PILE数据集的训练集和测试集,测试时在测试序列中随机采样一个位置进行生成;
  • Facts generation (FG),用于评估模型对事实知识的记忆能力,即factuality;使用T-REx实体链接数据集,测试时让模型生成实体的第一个token;
  • Multi-task language understanding (MLU),用于评估模型的understandingreasoning能力;使用MMLU基准,测试时为模型提供5个in-context samples,以多选问答的方式进行评估。
3 Calibration in Pre-training Stage
  • Base model:Pythia 70M-12B(共8个模型),训练数据为PILE,每1000个训练步(1个epoch)存1个checkpoint,共143个,1000步以内存了11个checkpoints,因此共有154个checkpoints;
  • 参数量实验使用所有8个模型,训练步实验使用Pythia 1B4, 2 n × 1000 2^n\times1000 2n×1000步的checkpoints,以及256和512步的checkpoints来观察欠拟合模型。
Parameter Scales

一个比较有意思的发现是,当参数量增大,confidence distribution倾向于坍缩到一个很小的区间内。

Training Dynamics

4 Calibration in Alignment Stage
  • Base model:LLaMA 7B.
Instruction Tuning
  • Training data:OpenAssistant Conversations优于Alpaca,因为更为多样;

  • Training methods:LoRA优于全参微调,PEFT方法可以通过减少灾难性遗忘改善calibration,见https://arxiv.org/pdf/2305.19249.pdf
  • Training dynamics:改善指令数据的规模和多样性可能有助于改善calibration,不过未进行验证。
RLHF
  • RLHF基本不改变calibration.


参考文献:
https://arxiv.org/pdf/2311.13240.pdf
https://arxiv.org/pdf/2103.15025.pdf
https://arxiv.org/pdf/1910.08684.pdf
https://arxiv.org/pdf/2305.19249.pdf

  • 23
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值