transformer-xl

最新推荐文章于 2024-07-03 12:02:40 发布

朝花夕拾，谈一地毛线。~

最新推荐文章于 2024-07-03 12:02:40 发布

阅读量186

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_44251938/article/details/113108760

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

transform有长程依赖关系，受到语言建模上下文长度的固定的限制。
提出transformer-xl 超越固定长度依赖性，网络结构由片段级的循环机（segment-level recurrence）和全新的位置编码策略（positional encoding scheme）组成。其优点是不仅可以捕获更长的依赖关系，还可以解决上下文碎片化（context fragmentation）的问题。

Transformer-XL 学习到的依赖性比 RNN 学习到的长 80%，比标准 Transformer 学到的长 450%，无论在长序列还是短序列中都得到了更好的结果，而且在评估时比标准 Transformer 快 1800+ 倍。值得一提的是，Transformer-XL还刷新了 bpc 和perplexity（困惑度）的当前最佳结果：在 enwiki8 上 bpc 从 1.06 提升至 0.99，在 text8 上从 1.13 提升至 1.08；在 WikiText-103 上困惑度从 20.5 提升到 18.3，在 One Billion Word 上从 23.7 提升到 21.8，在宾州树库（不经过微调的情况下）上从 55.3 提升到 54.5。