文本表示的新思路——Distributed&nb…

最新推荐文章于 2022-09-19 15:40:30 发布

wiy_dawn

最新推荐文章于 2022-09-19 15:40:30 发布

阅读量482

点赞数

分类专栏： NLP-DocumentRepresentation

本文链接：https://blog.csdn.net/wiy_dawn/article/details/71194788

版权

NLP-DocumentRepresentation 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

绪论

Distributed Representations of Sentences and Documents是Mikolov继word2vec后的另一力作——将文本表示为矢量。

将文本表示为矢量，是大量文本处理相关算法（文本分类、聚类等）的必然要求。最简单、最直观的方法是bag-of-words （BOW），即将文本拆解为单词，以单词作为矢量空间的维度，以每个单词在文本中出现的频率作为文本矢量对应维度的值。BOW的缺点是忽略了词语在文本中出现的先后次序，并且没有考虑词语的语义信息。另外一种方法bag-of-n-grams考虑了词序，却增加了维度，加剧了数据稀疏。

在直接考虑语义的情况下，假设已经有了单词矢量的获取方法，且单词能够包含了词语的语义信息，那么一种直接的方法是对一篇文档中包含的单词矢量加权平均，得到的新矢量即为该文档的矢量(Mitchell & Lapata, 2010; Zanzotto et al., 2010; Yessenalina & Cardie, 2011; Grefenstette et al., 2013; Mikolov et al., 2013c).

另一种较复杂的方法是按照句子解析树的词序，将句子组织为矩阵而非矢量，该方法不能应用于文档，只局限于句子，因为方法的核心是句子的解析。(Socher et al., 2011b).

PV-DM

PV-DM类似于Mikolov13年论文中提到的CBOW方法。以三层神经网络作为框架，CBOW使用围绕目标单词的其他单词（语境）作为输入，在映射层做加权处理后输出目标单词。在训练过程中，模型以最大化目标单词输出概率为目标，使用随机梯度下降方法达到收敛。该方法的代码在code.google.com/p/word2vec/上可下载。

与CBOW类似， PV-DM仍以最大化目标单词输出概率为目标，使用随机梯度下降方法达到收敛。区别是在输入层增加了paragraph vector，新增的paragraph vector可以简单的被看做增加了一个新的单词作为输入。每当预测一个单词时，就使用该单词所在段落的paragraph vector作为新增输入。该模型总体有两步，加粗字体叙述的是第一步，旨在训练得到单词的表示和模型中的其他参数；第二步是使用得到的模型预测最终的paragraph vectors。在第二步中，单词矢量和其他参数保持不变，仍然使用梯度下降方法，采用随机抽样，使得所有语境（所有语境仅指当前paragraph包含的语境）下出现对应paragraph的平均概率最大。如图一所示：

文本表示的新思路——Distributed <wbr>Representations <wbr>of <wbr>Sentences <wbr>and <wbr>Docs

Figure 1. A framework for learning paragraph vector. This frame-work is similar to the framework presented in Figure 1; the only change is the additional paragraph token that is mapped to a vec-tor via matrix D. In this model, the concatenation or average of this vector with a context of three words is used to predict the fourth word. The paragraph vector represents the missing infor-mation from the current context and can act as a memory of the topic of the paragraph.

作者称这个模型为Distributed Memory Model of Paragraph Vectors (PV-DM)，因为新增的paragraph vector 可以看做输入单词构成的语境信息的补充（ a memory that remembers what is missing from the current context），也可以看做是对应paragraph的主题。

PV-DBOW

参照Skip-gram根据当前单词预测语境，PV-DBOW根据paragraph预测语境，如图2所示：

Figure 3. Distributed Bag of Words version of paragraph vectors. In this version, the paragraph vector is trained to predict the words in a small window.

该方法以paragraph vector作为输入，然后从该vector对应的paragraph中随机采样单词序列（语境）作为输出。和skip-gram类似，该方法减少了输入层的参数量。

作者认为PV-DM单独使用效果不错，PV-DM和PV-DBOW的结合能够产生更好的效果。