词向量
词向量可以表示两个词的语义相似度
可以训练词向量的模型主要有:
CBOW、skip-gram、NNLM、Glove、ELMo、MF(矩阵分解)、Gause Embedding、bert
skip-gram
根据中心词预测上下文
对于 w1,w2,w3,w4,w5
P=p(w2|w1)p(w1|w2)p(w3|w2)p(w2|w3)p(w4|w3)p(w3|w4)p(w5|w4)p(w4|w5)
CBOW
根据上下文预测中心词
对于 w1,w2,w3,w4,w5
P=p(w2|w1w3)p(w3|w2w4)p(w4|w3w5)
NNLM
P=p(w2|w1)p(w3|w2)p(w4|w3)p(w5|w4)
以上方法训练词向量的问题
训练出的词向量是固定的,当面对一词多义的情况时,无法根据上下文语境区分语义