NLP入门思路整理（从Word2Vec到注意力机制再到Bert）（未完结）

本文链接：https://blog.csdn.net/weixin_43991828/article/details/122447866

一、深度学习中最最重要的注意力机制，参考该博客努力去除一切公式的来粗浅理解：

建议直接看标题链接的原博客，这里只是做了一个梳理

1.1 Encoder-Decoder机制：

给定句子对<source, target>，Encoder编码器（在NLP中一般为RNN模型）层输入source输出相应的编码(可以是Embedding (词嵌入的向量))，Decoder层将该编码作为输入，输出另一段文字，这段文字的输出期望是target，于是我们有了带标签的训练数据集。

这样的机制可以用于机器翻译，source作为中文，target作为英文，就可以完成机器翻译汉译英的工作。source作为文章，target作为文章大意，就可以完成机器自动概括文章大意的工作。source作为一个问题，target作为相应的答案，就可以完成机器人问答（siri，小艺）

1.2 soft Attention（分心）模型：

分心模型中，C为语义编码，f为decoder的非线性函数，为什么说它是分心模型，没有引入注意力机制，就是因为每一个输出 $y_i$ 都可以写成仅关于C的函数，所以source中的每个词对输出的 $y_i$ 影响相同，故说它没有注意力机制的参与，如果有的话，对 $y_i$ 影响最大的词应该是source中特定的词
在这里插入图片描述