NLP基础学习(四)
Word2vec知识树
log-linear model
定义:将语言模型的建立看成是一个多分类的问题,相当于线性分类器加上softmax
Y = softmax(wx+b)
Word2vec原理
语言模型的基本思想:句子中下一个词的出现与前一个词是有关系的,所以可以使用前面的词预测下一个词
Word2vec基本思想:句子中相近词是有联系的,比如今天后面常常出现上午,中午,晚上等词语。所以Word2vec的基本思想就是用词来预测词,skip-gram使用中心词预测周围词,而cbow使用周围词来预测中心词。
skip-gram原理
skip-gram模型
其中W代表中心词表,W*代表周围词表
CBOW原理
其中W*代表中心词表,W代表周围词表