词袋模型
词袋模型是用于描述文本的一个简单的数学模型,也是常用的一个简单的数学模型。
是由二元组(词语:出现次数)组成的集合
停止词 :不携带任何主题信息的高频词称为停止词。
低频词:若过度依赖这样的词语对文章进行分类,那么就可能出现过拟合现象
词频率:一个词语在文档中出现的频率。
逆文档频率:文档频率是语料库中出现这个词语的文档总数与语料库中所有文档的总数的商。逆文档频率是文档频率的负对数。(在语料库中大不跟文档中都大量出现的词语不重要)
将一个词语在某篇文章中的词频率与该词的逆文档频率相乘,可以得到这个词在这篇文档中的词频率-逆文档频率(突出文本中的重要信息)
主题模型
主题模型是描述语料库及其中潜在主题的一类数学模型。
对于某一特定主题(教育)收集只包含该主题的若干文档,计算其中每一个词(词典大小为V)的词频,可以得到词频向量t = (x1, x2, … , xv) 这个词频向量就是教育这个主题的数学表示。
文档的词频向量和主题的词频向量
假设一个文档中潜在的主题总共有T个,每个主题对应于一个词频向量 tj =( xj1, xj2, … , xjV ), 1 <= j <= T。在一篇特定的文档中,各个主题的比重分别为w1, w2, … , wr。
已知该文档的词频向量为 d = ( y1, y2, … ,yv ), 则有 d = w1t1 + w2t2 + … +wvtv
文档词频D,主题比重W,主题词频T三者的关系课表示为
D = WT 这个等式建立了语料库与潜在主题之间的关系,是主题模型的核心。