word embedding
之前我们一直用one-hot的形式来表示每一个词。但是随着单词集的扩充,one-hot的维度会越来越大,而且这样表示不能体现出词的关系。所以这里提出word embedding
word embedding本质上是抓取每个词的各种特征。相当于将m维的one-hot空间的单词映射到n维的特征空间中的值。特征空间满足:具有相似特征(例如水果)的词会聚在一起。具有相同关系的词会呈现出平行四边形的性质(男人、女人;国王、皇后的embedding向量偏差大致相同)
训练得到word embedding
word2vec : skip gram
如下构建一个假任务:
输入:单词w
输出:对于所有的单词表,每个单词出现在w上下文的概率
如下构建模型:
首先由w的one-hot向量生成中间的embedding向量,然后利用softmax,算出每一个单词出现在上下文的概率。
第一步的embedding权重和第二步的softmax权重都需要训练,然而我们只想要embedding的权重。
在训练的过程中,我们