NLP-DocumentRepresentation
文章平均质量分 79
wiy_dawn
这个作者很懒,什么都没留下…
展开
-
文本表示的新思路——Distributed&nb…
绪论 Distributed Representations of Sentences andDocuments是Mikolov继word2vec后的另一力作——将文本表示为矢量。 将文本表示为矢量,是大量文本处理相关算法(文本分类、聚类等)的必然要求。最简单、最直观的方法是bag-of-words(BOW),即将文本拆解为单词,以单词作为矢量空间的维度,以每个单词在文本原创 2017-05-05 12:15:41 · 470 阅读 · 0 评论 -
语句的向量表示方法——单词向量组合…
目标:本文讨论单词向量的组合方式(composition ofword vectors),一般指两个单词向量的组合方式,使得输出的新的向量能够表达组合后的短语的语义。本文使用符号:u,v:普通的单词向量(u_1,u_2,u_3)和(v_1,v_2,v_3);p:需要求出的目标短语的向量;R:一个表征语法关系的矩阵;K:世界知识等其他非单词语义、语法关系构成的信息;词语组合的一些假原创 2017-05-05 12:15:51 · 8060 阅读 · 0 评论 -
Non-negative matrix factorizatio…
Non-negative matrix factorization对整体的感知是建立在对部分的感知的基础之上吗?心理和生理上的证据表明,这种基于部分的表示(parts-basedrepresentation)存在于大脑中。但人们对大脑是如何学习对象的局部的所知甚少。[1]提出了nonnegativematrix factorization (NMF) 算法用于学习脸部图像和文本的局部特原创 2017-05-05 12:16:04 · 493 阅读 · 0 评论 -
Latent Semantic Indexing
原文假设观察到的看似随机的文本数据是由潜在的语义结构(latent semantic structure)产生的。统计手段是去除噪音,评估潜在语义结构的手段。原文将基于潜在语义结构描述的terms和文本称之为Latent semantic indexing(LSI,用于信息检索的潜在语义)。LSI通过使用奇异值分解技术(singular-value decomposition,SVD)将庞大的t原创 2017-05-05 12:16:07 · 985 阅读 · 0 评论 -
Topic Model
Generative algorithms传统方法聚焦在数据当前状态的分析,而生成模型试图找到数据编程当前状态的原因。生成模型假设文本可由基于词汇表的不同概率分布的混合产生(Generativealgorithms assume documents can be represented as a mixture ofprobability distributions over the co原创 2017-05-05 12:16:12 · 467 阅读 · 0 评论