【无标题】

最新推荐文章于 2024-02-17 12:36:47 发布

孤舟独钓寒江雪

最新推荐文章于 2024-02-17 12:36:47 发布

阅读量163

点赞数

文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55000908/article/details/134094390

版权

https://zhuanlan.zhihu.com/p/659086338

LongLoRA

一种高效的微调方法，可以在有限的计算成本内扩展预训练大型语言模型的上下文长度。

推理使用 dense global attention 可以兼容现有的各种推理加速机制，微调使用高效的spare lcoal attention。
提出shift short attention （s2-Attn）来替代standard attention来节省计算量，能够达到baseline效果，训练仅需两行代码，且在推理中是可选的。
设置可训练的embedding和normalization时，采用LoRA对上下文扩展finetune效果不错。
收集一个用于监督微调的数据集 LongQA

LoRA方法存在问题：效率和有效性
5. LoRA在扩展文本长度时会导致perplexity升高，即使提高rank也不能解决这个问题。
6. LoRA本身不能减少计算复杂度，不能解决长文本下attenttion layer层的计算量成平方增长的问题。

S2-Attn方法
将self-attn中一半head的分组位移半个group的长度，即一半head使用pattern1，一半head使用pattern2

孤舟独钓寒江雪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

将self-attn中一半head的分组位移半个group的长度，即一半head使用pattern1，一半head使用pattern2。6. LoRA本身不能减少计算复杂度，不能解决长文本下attenttion layer层的计算量成平方增长的问题。5. LoRA在扩展文本长度时会导致perplexity升高，即使提高rank也不能解决这个问题。一种高效的微调方法，可以在有限的计算成本内扩展预训练大型语言模型的上下文长度。LoRA方法存在问题：效率和有效性。
复制链接

扫一扫

孤舟独钓寒江雪 CSDN认证博客专家 CSDN认证企业博客

码龄3年

112: 原创

7万+: 周排名

12万+: 总排名

8万+: 访问

: 等级

1212: 积分

67: 粉丝

53: 获赞

5: 评论

184: 收藏

私信

关注

热门文章

分类专栏

python 11篇
Markdown 1篇
Windows 5篇
macOS 10篇
linux 2篇
NLP 11篇
word 1篇
pytorch 7篇
RTE 1篇
Zotero
ML 1篇
ACM算法 20篇
GitHub 1篇
C/C++ 8篇
MySQL 1篇
数据结构 4篇
CCF/CSP 20篇

最新评论

xshell + WinSCP + Pycharm + XCode
get嘤嘤嘤: 很不错的内容，大佬这篇文章结构清晰，具有条理性可以借鉴并学习和落地，内容丰富图文并茂，认真看完收获很大，期待下一篇文章的更新，(ﾉಥ益ಥ) 求互动( ੭ ˙ᗜ˙ )੭谢谢
Zotero
weixin_42073771: 需要梯子嘛
2021-03-04
不吃西红柿丶: 大佬写得很棒，忍不住就是一个赞，欢迎回赞哦~
KMP算法
释怀人生: 慕名而来，大佬你真的惊艳到我了！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。