读论文——What does BERT look at An Analysis of BERT Attention

最新推荐文章于 2024-08-08 08:02:52 发布

前行follow

最新推荐文章于 2024-08-08 08:02:52 发布

阅读量1.8k

点赞数 1

分类专栏： # 自然语言处理文章标签： NLP BERT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y1040468929/article/details/123826252

版权

本文深入分析了BERT的注意力机制，发现注意力头关注分隔符、特定位置和句法结构。部分头能对应动词的直接宾语、名词限定词等句法关系，且注意力包含大量句法信息。研究证明，BERT在无监督训练中学习到语言的语法特性。

摘要由CSDN通过智能技术生成

第一遍

标题以及作者

在这里插入图片描述

摘要

本文提出了分析预训练模型的注意力机制并将其应用于 BERT 的方法。 BERT 的注意力头表现出诸如关注分隔符标记、特定位置偏移或广泛关注整个句子的模式，同一层中的头经常表现出相似的行为。本文进一步表明，某些注意力头很好地对应于语法和共指的语言概念。例如，我们发现对动词的直接宾语、名词的限定词、介词的宾语和共指提及有非常高的准确度。最后，我们提出了一个基于注意力的探测分类器，并用它来进一步证明在 BERT 的注意力中捕获了大量的句法信息。

结论

探测注意力图是对这些其他模型分析技术的补充，应该成为研究人员用来了解神经网络学习语言的工具包的一部分。

介绍

我们首先探索 BERT 注意力头的行为方式。我们发现他们的行为有一些共同的模式，例如关注固定的位置偏移或广泛关注整个句子。 BERT 的大量注意力都集中在分隔符标记 [SEP] 上，我们认为它被模型用作一种无操作。通常，我们发现同一层中的注意力头往往表现相似。
接下来，我们探索每个注意力头的语言现象。特别是，我们将每个头部视为一个简单的不需要训练的分类器，给定一个单词作为输入，输出最受关注的另一个单词。然后我们评估头部对各种句法关系进行分类的能力。虽然没有一个头在许多关系中表现良好，但我们发现特定的头与特定

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。