Transformer杀疯了！王炸成果登上Nature，实现无限上下文长度

学算法的程霖

于 2024-05-15 11:30:00 发布

阅读量1k

点赞数 28

文章标签： transformer 深度学习人工智能机器学习 lstm 神经网络卷积神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyyyyybw/article/details/138853832

版权

继DeepMind的新设计MoD大幅提升了 Transformer 效率后，谷歌又双叒开始爆改了！

与之前荣登Nature子刊的life2vec不同，谷歌的新成果Infini-attention机制（无限注意力）将压缩内存引入到传统的注意机制中，并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

这让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现114倍压缩比。(相当于一个存放100本书的图书馆，通过新技术能存储11400本书)

目前，关于 Transformer 的改进非常火爆，是当前学术研究的热点之一，有丰富的研究素材和灵感可供我们参考。除Infini-attention外，还有很多Transformer改进方案效果拔群。

本文整理了22篇Transformer最新的改进方案，都是大佬团队出品，开源的都附上了代码方便复现，希望能给各位的论文加加速。 （看下图自取即可）

【1】Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

google

方法：论文介绍了一种有效的方法，将基于Transformer的大型语言模型（LLMs）扩展到具有有限内存和计算的无限长输入。该方法的一个关键组成部分是一种名为Infini-attention的新的注意机制。Infini-attention将压缩内存引入到传统的注意机制中，并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

创新点：

Infini-attention：引入了一种实际且强大的注意机制，具有长期压缩记忆和局部因果注意力，有效地建模长距离和短距离的上下文依赖关系。

压缩记忆：在Infini-attention中，通过重用点积注意力计算中的查询、键和值状态(Q、K和V)，而不是计算压缩记忆的新记忆条目。这种状态共享和重用使得点积注意力和压缩记忆之间的有效插入式长上下文适应变得可能，并加快了训练和推断速度。

【2】life2vec

Using Sequences of Life-events to Predict Human Lives

DTU

方法：论文使用了一个基于Transformer架构的life2vec模型，通过将个人生活事件序列化并嵌入到向量空间中，来分析和预测人类生活的各种结果，如早逝风险和个性特征。

创新点：

论文提出了一种将生命事件编码到单一向量空间的方法，这种方法不仅能够捕捉事件之间的相似性，还能够揭示事件之间的复杂相互作用。

通过使用模型解释性工具，如梯度显著性图和概念激活向量（TCAV），研究者们能够解释模型是如何做出预测的，这增加了模型的透明度和可信度。

life2vec模型能够执行多种预测任务，从早期死亡率到个性细微差别，显示出模型的多功能性和适应性。

【3】Searchformer

Beyond A∗: Better Planning with Transformers via Search Dynamics Bootstrapping

FAIR at Meta

方法：本文介绍了一种训练Transformer模型解决复杂规划任务的方法，并提出了Searchformer模型，该模型在多步规划任务（如迷宫导航和Sokoban拼图）中比传统的符号规划算法（如A* 搜索）少使用搜索步骤来计算最优解。

创新点：

基于Transformer架构的Searchformer模型，通过预测A* 搜索的搜索动态来解决复杂的规划任务，实现了比A* 搜索更少的搜索步骤下计算出最优解的能力。

Searchformer模型通过搜索动态引导训练，能够在较小的训练数据集和较小的模型规模下达到比直接预测最优解的模型更好的性能。

在迷宫导航和Sokoban拼图等复杂规划任务上，Searchformer模型表现出较高的准确性和搜索效率，为使用Transformer解决传统符号规划算法无法解决的任务提供了可能性。

【4】Transformer

ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING

Tsinghua University

方法：iTransformer是一种针对时间序列预测优化的Transformer模型，它通过独立嵌入变量令牌并应用自注意力机制来捕捉多变量相关性，使用前馈网络学习时间序列表示，从而提高了模型在多变量预测任务中的性能和泛化能力。

创新点：

（1）Transformer没有修改Transformer的基本组件，而是通过改变架构来提高性能，这表明了现有Transformer组件在多变量时间序列预测中的潜力。

（2）通过在变量维度上应用自注意力机制，iTransformer能够更好地捕捉多变量之间的相关性，这对于时间序列预测尤其重要。

（3）Transformer在未见过的变量上展现出良好的泛化能力，这使得模型可以在训练时使用较少的变量，而在预测时仍然能够准确预测所有变量。

（ 4 ）提出了一种新的高效训练策略，通过在每个批次中随机选择部分变量进行训练，从而显著减少了内存占用并提高了训练速度。

学算法的程霖

关注

28
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Transformer杀疯了！王炸成果登上Nature，实现无限上下文长度

继DeepMind的新设计MoD大幅提升了 Transformer 效率后，谷歌又双叒开始爆改了！与之前荣登Nature子刊的life2vec不同，谷歌的新成果Infini-attention机制（无限注意力）将压缩内存引入到传统的注意机制中，并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。这让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现114倍压缩比。(相当于一个存放100本书的图书馆，通过新技术能存储11400本书)
复制链接

扫一扫

学算法的程霖 CSDN认证博客专家 CSDN认证企业博客

码龄2年

37: 原创

118万+: 周排名

29万+: 总排名

1万+: 访问

: 等级

572: 积分

92: 粉丝

170: 获赞

17: 评论

138: 收藏

私信

关注

热门文章

分类专栏

网络安全 2篇
渗透测试 1篇

最新评论

网络安全|Burp插件梳理总结（附工具合集源文档使用）
landy882: 可以，很实用的文章，工作效率大大提升！
【网络安全】详解XSS漏洞及反射型XSS漏洞
m0_74362852: I don't know when I look at it
[网络安全]MSF多层内网渗透全过程
CSDN-Ada助手: 恭喜您写了第17篇博客！标题中的“MSF多层内网渗透全过程”听起来非常有深度和实用价值。您对网络安全领域的持续创作展现了您的专业知识和热情。我希望您能继续分享您的经验和见解，为读者提供更多有关网络安全的有益内容。鉴于您在博客中提到了“多层内网渗透全过程”，我认为下一步的创作建议是加深对不同层次渗透的理解，例如深入探讨各种内网架构和防御措施，并分享一些应对策略和实践经验。当然，这只是一个建议，我深知您已经在网络安全领域有着丰富的经验，期待您的下一篇博客能给我们带来更多的启发和学习机会。再次感谢您的分享！
网络安全蓝队应急响应之系统入侵排查
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“网络安全蓝队应急响应之系统入侵排查”听起来非常吸引人。我对您的深入研究和对网络安全的关注感到非常钦佩。您的博客对于那些关心网络安全的读者来说一定非常有价值。在接下来的创作中，我建议您可以考虑探索一些实际案例或者分享一些具体的技巧，以便读者能够更好地理解和应用您的知识。此外，您也可以尝试与其他网络安全专家进行合作，以便从不同的视角和经验中汲取灵感。再次恭喜您的成就，并期待您未来的创作！请继续保持谦虚和勤奋的态度，为我们带来更多有关网络安全的精彩内容。
Windows常见权限维持操作
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题中的“Windows常见权限维持操作”非常吸引人，我相信这篇文章能够为Windows用户提供有价值的内容。在您持续创作的过程中，我建议您可以考虑进一步探讨如何应对不同版本的Windows操作系统中的权限维持挑战，以及如何应对可能出现的新的权限维持技术。期待您未来更多精彩的博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。