Alibi位置编码（论文阅读）

走走走，快去看看世界

已于 2023-08-03 15:47:07 修改

阅读量853

点赞数

分类专栏： ChatGPT 语言模型文章标签： chatgpt 论文阅读语言模型人工智能深度学习

于 2023-08-03 15:45:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45920982/article/details/132085012

版权

ChatGPT 同时被 2 个专栏收录

4 篇文章

订阅专栏

4 篇文章

订阅专栏

Alibi位置编码（论文阅读）

方法

请添加图片描述

关于方法的结论

m is a head-specific slope fixed before training，m的设置具有一定普适性。同时作者也尝试了m作为一个模型的可训练参数，但是发现这样效果不好。作者做了很多探索发现m的值在（0，1）的时候比较好。原文：
Abriefmanualexplorationofaroundtenslopesetsledustodiscoverthesetofslopes that we finally picked. Our main insight from this exploration is that the slope sets that work best are those with slopes in the (0, 1) range, with the slopes’ density increasing as we get closer to 0. We also found our method to be robust to slope choice. Even randomly sampling from the exponential distribution worked well in some cases (although that method had high variance).

实验分析

作者在两个数据集上进行了实验WikiText-103（比较小的数据集），CC100
请添加图片描述
发现不管外推还是不外推都比sinusoidal的性能好。

CC100
请添加图片描述
在CC100 数据集上进行训练，在不外推的时候性能和Sinusoidal差不多，这个结论和图4的结论有一些冲突。作者在这里解释的是：Alibi对于低资源语言提供了额外的好处。

请添加图片描述
之后作者换了一个模型在CC100上进行训练并且观察了结果

在L=512的时候，当测试1024的时候模型的ppl最低。L=1024的时候在测试2048的时候ppl最低。

这里给出了解释
请添加图片描述

附录B

主要是得出来ppl下降是减缓了early token curse的作用
请添加图片描述
early token curse

假设为什么会外推
请添加图片描述
所以作者使用sliding window进行评估

从这里可以发现，ppl比较平稳，所以假设二成立

未来可以做的方向：

如何更好的利用更长的前文。

请添加图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。