Alibi位置编码(论文阅读)

Alibi位置编码(论文阅读)

方法

请添加图片描述
请添加图片描述

关于方法的结论

  1. m is a head-specific slope fixed before training,m的设置具有一定普适性。同时作者也尝试了m作为一个模型的可训练参数,但是发现这样效果不好。作者做了很多探索发现m的值在(0,1)的时候比较好。原文:
    Abriefmanualexplorationofaroundtenslopesetsledustodiscoverthesetofslopes that we finally picked. Our main insight from this exploration is that the slope sets that work best are those with slopes in the (0, 1) range, with the slopes’ density increasing as we get closer to 0. We also found our method to be robust to slope choice. Even randomly sampling from the exponential distribution worked well in some cases (although that method had high variance).

实验分析

作者在两个数据集上进行了实验WikiText-103(比较小的数据集),CC100
请添加图片描述
发现不管外推还是不外推都比sinusoidal的性能好。

CC100
请添加图片描述
在CC100 数据集上进行训练,在不外推的时候性能和Sinusoidal差不多,这个结论和图4的结论有一些冲突。作者在这里解释的是:Alibi对于低资源语言提供了额外的好处。

请添加图片描述
之后作者换了一个模型在CC100上进行训练并且观察了结果
请添加图片描述
在L=512的时候,当测试1024的时候模型的ppl最低。L=1024的时候在测试2048的时候ppl最低。

这里给出了解释
请添加图片描述

附录B

主要是得出来ppl下降是减缓了early token curse的作用
请添加图片描述
early token curse
请添加图片描述

假设为什么会外推
请添加图片描述
所以作者使用sliding window进行评估
请添加图片描述

从这里可以发现,ppl比较平稳,所以假设二成立

未来可以做的方向:

如何更好的利用更长的前文。

请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值