识文断字:理解文本

词袋模型

词袋模型是用于描述文本的一个简单的数学模型,也是常用的一个简单的数学模型。
是由二元组(词语:出现次数)组成的集合

停止词 :不携带任何主题信息的高频词称为停止词。
低频词:若过度依赖这样的词语对文章进行分类,那么就可能出现过拟合现象
词频率:一个词语在文档中出现的频率。
逆文档频率文档频率是语料库中出现这个词语的文档总数与语料库中所有文档的总数的商。逆文档频率是文档频率的负对数。(在语料库中大不跟文档中都大量出现的词语不重要)

将一个词语在某篇文章中的词频率与该词的逆文档频率相乘,可以得到这个词在这篇文档中的词频率-逆文档频率(突出文本中的重要信息)

主题模型

主题模型是描述语料库及其中潜在主题的一类数学模型。

对于某一特定主题(教育)收集只包含该主题的若干文档,计算其中每一个词(词典大小为V)的词频,可以得到词频向量t = (x1, x2, … , xv) 这个词频向量就是教育这个主题的数学表示。

文档的词频向量和主题的词频向量

假设一个文档中潜在的主题总共有T个,每个主题对应于一个词频向量 tj =( xj1, xj2, … , xjV ), 1 <= j <= T。在一篇特定的文档中,各个主题的比重分别为w1, w2, … , wr
已知该文档的词频向量为 d = ( y1, y2, … ,yv ), 则有 d = w1t1 + w2t2 + … +wvtv

文档词频D,主题比重W,主题词频T三者的关系课表示为
D = WT 这个等式建立了语料库与潜在主题之间的关系,是主题模型的核心。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值