https://zhuanlan.zhihu.com/p/659086338
LongLoRA
一种高效的微调方法,可以在有限的计算成本内扩展预训练大型语言模型的上下文长度。
- 推理使用 dense global attention 可以兼容现有的各种推理加速机制,微调使用高效的spare lcoal attention。
- 提出shift short attention (s2-Attn)来替代standard attention来节省计算量,能够达到baseline效果,训练仅需两行代码,且在推理中是可选的。
- 设置可训练的embedding和normalization时,采用LoRA对上下文扩展finetune效果不错。
- 收集一个用于监督微调的数据集 LongQA
LoRA方法存在问题:效率和有效性
5. LoRA在扩展文本长度时会导致perplexity升高,即使提高rank也不能解决这个问题。
6. LoRA本身不能减少计算复杂度,不能解决长文本下attenttion layer层的计算量成平方增长的问题。
S2-Attn方法
将self-attn中一半head的分组位移半个group的长度,即一半head使用pattern1,一半head使用pattern2