BERT 的优缺点:
优点:
- 1、考虑双向信息(上下文信息)
- 2、Long term dependency
缺点: - 1、测试数据没有masked,训练和测试数据不匹配
- 2、缺乏生成能力
- 3、针对每个mask预测时,没有考虑相关性。类似朴素贝叶斯
Auto-regressive LM 的优缺点:经典的Language mode
从左到右的语言模型
优点:
- 1、具备生成能力
- 2、考虑了词之间的相关性
- 3、无监督学习
- 4、严格的数据表达式
缺点: - 1、单向的
- 2、离得近的单词未必有关系
- 3、看不到很远的单词
ELMO
单向 LSTM x2
XLNet的改进思路:
根据bert和lm的缺点,改进的点
- 具备生成能力
- 双向学习能力
- 不出现discrepancy
LM+NADE:使得语言模型具备双向的能力
Transformer-XL:使得模型具备对于不固定长度的seq学习的能力
LM的目标函数
对于第t个单词,使用前t-1个单词去预测第t个单词产生的概率
使用了softmax
BERT的目标函数
给定unmasked词,预测masked部分的词