向量空间模型——苏大信息检索作业

我觉得这个关键是理解思想,因为实现还是比较简单的。说说我对VSM的理解吧,每个文档对应一个向量,向量的维度是一定范围的词项(有两种选取方法),对应的值为tf-idf。将查询也看作一个文档,构造向量后与向量空间中的每个向量计算余弦相似度,进行排序,即可得到结果。


基本步骤

  1. 对文档进行分词处理,去除停用词等
  2. 计算每个文档中词项的tf值,计算公式:
    在这里插入图片描述
  3. 计算文档集中所有词项的idf值,计算公式:
    在这里插入图片描述
  4. 计算每个文档中词项的tf-idf值,计算公式:
    在这里插入图片描述
  5. 对查询进行上述处理
  6. 构造向量,有两种向量维度的选取方法:
    (1)整个文档集合有n个词,那么向量就已Vn表示,即涉及整个词汇
    (2)取q和d的合集词汇形成Vx,x=|q|+|d|
    这里要提醒一句,对于大规模的向量空间,方法1将会极为耗时,方法二可能几秒搞定的事,方法一要运行个几小时(亲身经历)。
  7. 计算余弦相似度,进行排序。

注意点

  1. 没有出现的词tf-idf一般不取0,而是取一个很小的值
  2. 可进行优化,如设置闸值,将小于某个合适tf-idf值的词项删去

我将课程资料和代码都放到百度云了,要者自取。
链接:https://pan.baidu.com/s/1Fr94yOt_5l4rgkqCv517Dw
提取码:eenc

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值