【BERT】学习笔记之BERT理论部分

最新推荐文章于 2024-06-01 10:02:42 发布

不停下脚步的乌龟

最新推荐文章于 2024-06-01 10:02:42 发布

阅读量291

点赞数 1

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_44680262/article/details/106692843

版权

本文深入探讨BERT，从word2vec的局限性出发，详细解析Transformer的self-attention、multi-head和多层堆叠机制，以及BERT在Transformer中的应用，包括位置信息表达和训练策略。

摘要由CSDN通过智能技术生成

基于word2vec训练好的词向量不会再改变，也就是说，若某个单词位于不同上下文语境中，该单词的此向量表达都是一样的，其缺陷一是没有考虑到单词在不同语境中的含义可能不同，其缺陷二是计算机不能识别文本中重要、有价值的部分。

理解BERT的核心在于Transformer。
以机器翻译为例，输入“我是一名学生。”，Transformer对这句话的每个词进行编码（Embedding）形成向量，然后对编码后的向量解码成目标语言：“I am a student.”
Transformer的关键在于self-attention。

attention就是关注的意思，在NLP中意为让计算机关注有价值的文本信息。
self-attention加了个反身代词，意为让计算机自己根据上下文关系识别文本关键信息（对word2vec的改进）。
Self-attention步骤：
1. Input：输入n个单词 $x_1...x_n$
2. Embedding: 对这n个单词分别编码为行向量， $x_1(......), x_2(......) ...$
3. 利用第二步形成的每个单词的行向量，分别都乘以三个权重矩阵 $W^q, W^k, W^v$ ，得到 $q_1...q_n, k_1...k_n, v_1...v_n$