文本太长，Transformer用不了怎么办

最新推荐文章于 2024-08-15 09:45:00 发布

Lucy_Qian

最新推荐文章于 2024-08-15 09:45:00 发布

阅读量3.9k

点赞数 2

分类专栏：域自适应深度学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoqianlizhen/article/details/108830964

版权

长文本预训练模型如Longformer通过局部和全局注意力机制降低复杂度；局部自注意力用于高效文档检索；循环分块机制提升长文本机器阅读理解；提取式摘要模型结合全局和局部上下文生成长文档摘要。

摘要由CSDN通过智能技术生成

长文档预训练模型

基于Transformer的模型已经引领NLP领域，然而基于Transformer的方法随着输入文本长度的增加，计算量剧增，并且Transformer能处理的句子长度受限，已有的方法大多使用截断的方式，这会导致信息损失，因此如何实现长文本的预训练是目前的一大难题。

长文档的预训练模型

Longformer: The Long-Document Transformer，2020

论文主要采用局部注意力和全局注意力结合的机制避免以往直接对长文本进行切分导致的信息损失，Longformer通过滑动窗口式注意力、空洞滑动窗口、全局注意力将attention机制的复杂度降低至O(n).其中全局注意力是在预先选择的位置上添加，是面向特定任务的全局attention。此外作者用TVM构建CUDA kernel速度快、显存占用小。

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。