这篇笔记主要是结合,各种学习资源,整理而成的查找笔记,整理的不好,还望指出错误,主要是用于查找与记录。
句子和文档的分布式表示
### 摘要
许多机器学习算法要求输入被表示为一个固定长度的特征向量. 当涉及到文本时,最常见的固定长度特征之一是单词包。
尽管他们很受欢迎,但bag-of-words特征有两个主要缺点. 他们丢失了单词的顺序,并且忽略了单词的语义. 列如,“强大”
,“强大”和 “巴黎” 一样遥远. 在本文中,我们提出了一种无监督的段落向量算法,它可以从可变长度的文本片段(如句子,段落和文档)中学习固定长度的特征表示. 我们的算法通过一个密集的向量来表示每个文档. 这个向量经过训练来预测文档中的单词. 它的构造使我们的算法具有克服词袋模型缺点的潜力. 实证结果表明,段落向量在文本标识方面的表示优于词袋模型和其他技术. 最后,我们在几个文本分类和情感分析任务上取得了最新的研究成果.
##1. 介绍
文本分类和聚类在许多应用中起着重要的作用. 文件检索,网络搜索,垃圾邮件过滤. 这些应用程序的核心是机器学习算法. 如逻辑回归或K-means k均值. 这些算法通常要求文本输入表示为一个固定长度的向量. 文本中最常见的固定长度向量表示可能是单词袋形成n-g袋形,因为它的简单、高效和经常令人惊讶的准确性.
然而,单词包(Bow)有很多的缺点,词序丢失了. 因此,只要使用相同的单词,不同的句子可以有完全相同的表示.尽管n-g包在短上下文中支持语序. 但他也存在数据稀疏性和高维性的问题. bag-of-words 和 bag-of-n-grams对单词的语义或单词之间的距离几乎没有什么概念. 这意味着,尽管从语义上讲,“power-ful” 应该更接近“strong” ,而不是“Paris”,但“powerful” ,“strong”和 “Paris”这三个词的距离是一样远的.
在本文中,我们提出了一种无监督的段落向量框架,它可以学习文本片段的连续分布向量表示. 文本可以是各种长度的,从句子到文档. 名称锻炼向量是为了强调这样一个事实,即该方法可以应用与长度可变的文本片段,从短语或句子到大型文档的任何内容.
在我们的模型中,向量表示被训练成在预测段落中的单词时有用,更准确的说,我们将段落向量与段落中的几个单词乡里连接起来,并在给定的上下文中预测以下单词. 单词向量和段落向量都是通过随机梯度下降和反向传播来寻来的. 虽然段落向量在段落中是惟一的,但是单词向量是共享的. 在预测时,通过固定单词向量并选了新的段落向量来推断段落向量,直到收敛.
-------------未完,待完善