向量空间模型(VSM)与TF-IDF

向量空间模型,可用于计算文本相似度。
首先我们希望将文章向量化。可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量。


但如何提取文章的关键词和他的权重? e.g. TF-IDF(词频-逆文档频率)
当然首先我们要对文档向量降维:去除文章中的停用词,e.g. 的,这,那,是 …
然后:

第一步,计算词频:

第二步,计算逆文档频率:

即判断每个词在该文章中的重要程度(权重),若在本文中出现的多,而平时又不常见,则该词更能体现文章的特性,即越重要,如一文中中国和蜂蜜词频相同,中国更常见,故蜂蜜相对更能体现主题。
(已经提供了语料库)词约常见,分母越大,IDF越小,

第三步,计算TF-IDF:

T F − I D F = 词 频 ( T F ) × 逆 文 档 频 率 ( I D F ) TF-IDF = 词频(TF) \times逆文档频率(IDF) TFIDF=(TF)×(IDF)

以上
自动提取关键词的算法。计算每个词的TF-IDF值,按降序排列,取排在最前面的几个词。

用处:
1.自动提取文档关键词;
2.信息检索。对于每篇文档,计算搜索词的TF-IDF值,值最高的文档即为与搜索词最相关的文档。
缺点:词频衡量标准,不全面;忽略了词的位置信息(对全文第一段和每段第一句,给予较大权重)。


对文章进行向量空间建模
文本用D(Document)表示,特征项(Term)用 t i t_i ti 表示,即出现在文本D中且经过提取的能够代表D的内容的基本语言单位(方法 e . g . e.g. e.g.TF-IDF)。于是文本可表示成D( t 1 t_1 t1, t 2 t_2 t2,…, t n t_n tn)。 通常在建立向量空间模型时,一般会给每个特征项一个权值来表示该特征项对该文本的重要性,常见的是取TF-IDF值( w i w_i wi)。
于是文章可用此向量表示:D( t 1 t_1 t1, w 1 w_1 w1,…, t n t_n tn, w n w_n wn) ,简化为D( w 1 w_1 w1, w 2 w_2 w2,…, w n w_n wn) . 文本的向量表示
e . g . e.g. e.g.

文档(d) \ 特征项(t)abcde
d15.923.1801.230
d22.342.730.43.23.1
d32.51.31.800

于是,每个文档都能被表示成维数为|n|的向量。
第j篇文档:dj=( w 1 w_1 w1, w 2 w_2 w2,…, w j w_j wj) ; queries(查询):q=( w 1 q w_{1q} w1q, w 2 q w_{2q} w2q,…, w n q w_{nq} wnq)
实际情况下特征项非常多,每个向量非常稀疏。

如何比较查询(queries)和文档(document)之间的相似度?
常见:余弦测量(cosin measure)

公式中的分母称作规范化因子(normalization factor),使文档得分不受文档长度的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值