LLM校准 - On the Calibration of Large Language Models and Alignment

毕业就要失业了

已于 2023-11-30 15:08:39 修改

阅读量914

点赞数 23

分类专栏： LLM Calibration 文章标签：语言模型人工智能自然语言处理

于 2023-11-27 20:25:25 首次发布

本文链接：https://blog.csdn.net/weixin_47779143/article/details/134653570

版权

1 篇文章 0 订阅

订阅专栏

注：本notes不介绍calibration相关的基础知识，如有兴趣请自行阅读相关文献～

Calibration在早期气象学中被称为validity或reliability，以表示forecasters的可信度；
Calibration的意义
- 可解释性：用户能够知道模型的可靠程度，并由此决定是否相信这一预测；
- 减少幻觉：https://arxiv.org/pdf/2103.15025.pdf，https://arxiv.org/pdf/1910.08684.pdf；

Causal language modeling (CLM)，给定序列预测下一个token；使用PILE数据集的训练集和测试集，测试时在测试序列中随机采样一个位置进行生成；
Facts generation (FG)，用于评估模型对事实知识的记忆能力，即factuality；使用T-REx实体链接数据集，测试时让模型生成实体的第一个token；
Multi-task language understanding (MLU)，用于评估模型的understanding和reasoning能力；使用MMLU基准，测试时为模型提供5个in-context samples，以多选问答的方式进行评估。

Base model：Pythia 70M-12B（共8个模型），训练数据为PILE，每1000个训练步（1个epoch）存1个checkpoint，共143个，1000步以内存了11个checkpoints，因此共有154个checkpoints；
参数量实验使用所有8个模型，训练步实验使用Pythia 1B4， $2^n\times1000$ 步的checkpoints，以及256和512步的checkpoints来观察欠拟合模型。

一个比较有意思的发现是，当参数量增大，confidence distribution倾向于坍缩到一个很小的区间内。

Training methods：LoRA优于全参微调，PEFT方法可以通过减少灾难性遗忘改善calibration，见https://arxiv.org/pdf/2305.19249.pdf；
Training dynamics：改善指令数据的规模和多样性可能有助于改善calibration，不过未进行验证。

关注