文本挖掘
zjxiaolu
当你的实力还不足以撑起你的野心的时候,请继续低头前行,提高你的实力!
展开
-
网络挖掘技术——微博文本特征提取
文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距转载 2015-04-29 09:41:09 · 1365 阅读 · 0 评论 -
Deep Learning in NLP (一)词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王威廉:Steve Renals算了一下icassp录取文章题目转载 2015-04-29 10:18:41 · 578 阅读 · 0 评论 -
机器学习那些事——文本挖掘中的特征提取
机器学习当然包含很多的方面,但我只关心文本挖掘,那么机器学习和文本挖掘的关系是什么?文本挖掘的一般流程如下所示:第一步当然是,特征提取,这是一个文档降维的过程。首先明晰几个概念,特征提取、特征选择(特征选取)Feature Selection、特征抽取Feature Extraction。一般来说,特征提取实际上有两大类方法。一类称为特征选择,指的是从原有的特征转载 2015-04-29 09:39:12 · 2028 阅读 · 0 评论 -
Deep Learning实战之word2vec
前言:Deep Learning已经很火了,本文作者算是后知后觉者,主要原因是作者的目前工作是广告点击率预测,而之前听说Deep Learning最大的突破还是在图像语音领域,而在NLP和在线广告点击预测方面的突破还不够大。但后来听说Google开源的word2vec还挺有意思,能够把词映射到K维向量空间,甚至词与词之间 的向量操作还能和语义相对应。如果换个思路,把词当做feature,那转载 2015-04-29 10:08:12 · 1516 阅读 · 0 评论 -
文本分类,数据挖掘和机器学习
机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则分类器(decision rule) ,基于回归的线性最小二乘llsf(regression based on linearleast squares fit ) , 符号规则归纳法( symbolic ru转载 2015-04-29 11:24:31 · 5853 阅读 · 0 评论 -
语义分析的一些方法
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag转载 2015-04-29 10:14:03 · 33624 阅读 · 0 评论