Alibi位置编码(论文阅读)
方法
关于方法的结论
- m is a head-specific slope fixed before training,m的设置具有一定普适性。同时作者也尝试了m作为一个模型的可训练参数,但是发现这样效果不好。作者做了很多探索发现m的值在(0,1)的时候比较好。原文:
Abriefmanualexplorationofaroundtenslopesetsledustodiscoverthesetofslopes that we finally picked. Our main insight from this exploration is that the slope sets that work best are those with slopes in the (0, 1) range, with the slopes’ density increasing as we get closer to 0. We also found our method to be robust to slope choice. Even randomly sampling from the exponential distribution worked well in some cases (although that method had high variance).
实验分析
作者在两个数据集上进行了实验WikiText-103(比较小的数据集),CC100
发现不管外推还是不外推都比sinusoidal的性能好。
CC100
在CC100 数据集上进行训练,在不外推的时候性能和Sinusoidal差不多,这个结论和图4的结论有一些冲突。作者在这里解释的是:Alibi对于低资源语言提供了额外的好处。
之后作者换了一个模型在CC100上进行训练并且观察了结果
在L=512的时候,当测试1024的时候模型的ppl最低。L=1024的时候在测试2048的时候ppl最低。
这里给出了解释
附录B
主要是得出来ppl下降是减缓了early token curse的作用
early token curse
假设为什么会外推
所以作者使用sliding window进行评估
从这里可以发现,ppl比较平稳,所以假设二成立
未来可以做的方向:
如何更好的利用更长的前文。