word2vec存在问题: 语言模型如rnn、lstm最后输出的是整个句子的向量,而我们需要预测的是其中某个词的向量,所以用其做为词向量训练不合适, 有了双向lstm,即ELMo。 Bert的预训练过程: bert: