目录
2、CBoW(Continuous Bag-of-Words,给定上下文→中间词)
one-hot与embedding的区别
one-hot 独热编码:
特征稀疏
词之间相互独立,没有顺序关系
不能表征词与词之间的关系,one-hot 之间是正交的
Embedding :对每一个单词用一个低维且稠密的可学习向量表征
每一行代表一个词向量,可以做词与词之间的语义运算。
词向量模型Word2Vec(自监督学习)
分布式假设:具有相似上下文的词语应该是相近的,所以对上下文进行建模