![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本挖掘
Zh823275484
联系方式:18328609398@163.com
展开
-
文本特征提取
对文本处理一般是将句子分成词级别来进行处理,如果原始文本由几十万个中文词组成,那么将产生非常高的维度,因此为了剔除一些不必要的文本信息,需要从中提取与之相关的特征词,常用的方法有IG信息增益、df特征、CHI(卡方校验)、MI互信息方法等等。一、IG信息增益 一个系统中,某个变量的X,其取值有n种,分别为x1,x2,…,xn,因此X的信息熵为 信息增益是针对一个个特征而言,...原创 2019-03-05 14:05:47 · 1938 阅读 · 2 评论 -
关键信息提取
一、PageRank主要是基于图模型,计算网页的重要性,其公式主要如下: S(Vi)和S(Vj)都表示其PR值,为了防止重点问题(有些网站不指向其他网站)和陷进问题(自己指向自己),因此加了(1-d)和d这个阻尼系数。因此其公式实质就是P=A*P,该公式利用矩阵有比较好的理解,P代表转移矩阵(可以统计出来),A代表rank列。二、textRank则是基于PageRank算法的基础之上...原创 2019-03-04 18:06:10 · 2545 阅读 · 0 评论 -
Seq2seq模型
Seq2seq模型是一种many to many结构,它实现了从一个序列到另一个序列的转换,其基本思想就是利用两个RNN,一个RNN作为恩code人,另一个作为decoder。Encoder负责将输入序列压缩成指定长度向量,这个向量可以看出序列的语义,而decoder则是负责根据语义将语义向量转化为指定的序列,这个过程称为解码。一、RNN RNN循环神经网络,主要用来处理输入前后具有...原创 2019-03-11 18:53:00 · 2046 阅读 · 0 评论