BERT的理解
BERT可以认为一个黑盒子,这个黑盒子的作用就是产生新的一种词向量(就算不理解BERT只要记住这点就够了)。这种词向量实际上是对一个句子里面的各种分析各种特征提取之后的牛逼词向量。另外,输入一个词的旧的词向量会输出一个对应的新的词向量,输入四个就是输出四个对应的。如下图:
然后我们可以运用新的牛逼词嵌入执行我们的任务。比如我们要进行一个文本分类,则再基础上构造一个分类器。如下面判断输入的句子是积极(1)还是消极(0)。后面的二元分类器是我们构造的,是为了完成文本分类的任务,叫做下游任务。以此类推,为了执行不同的任务,我们可以构造不同的下游任务以执行不同的任务。
BERT加深理解
打开BERT这个黑盒子,就是这个东西。
T
1
T_1
T1
T
2
T_2
T2…
T
n
T_n
Tn就是我们经过BERT训练出来的牛逼词向量。(Trm代表transform的encoder)出来了牛逼的词向量之后,你用这些词向量去进行你的任务即可。
transform的详细解释推荐参考:https://zhuanlan.zhihu.com/p/54356280