Vector Space Model向量空间模型算法

这个模型主要是基于高中所学的空间向量,只不过由三维可能扩展成了超维空间

话不多说,直接上图:

假如我们有这样一个需求,搜索关键词然后根据相关性进行排序,比如有这样三个关键词:

 我们分别给这三个关键词设置权重,假设管理员设置一个默认的权重(在真实情况这权重肯定比这复杂)

关键词 
女人8
喜欢3
什么5

假设我们有4个网页,如何在用户进行搜索这3个关键词的时候,将这4个网页进行排序

网页1里根据里面的文字中关键词出现频率,其权重如下:

关键词 
女人5.4
喜欢6.6
什么8.8

网页2:

关键词 
女人8.3
喜欢3
什么4

 网页3:

关键词 
女人2
喜欢5.3
什么8.8

网页4:

关键词 
女人2
喜欢3
什么4

 我们可以给出一个形象的三维图:

我们可以清晰地看到,这4个网页,与默认的那个向量存在着夹角,可以使用余弦夹角公式计算:

这样就可以计算出每个网页的值,也就作为打分公式,值越接近1说明,与默认的那个相关性最强,这就可以进行排序了

网页得分
网页10.882
网页20.804
网页30.592
网页40.682

上面选择3个特征是为了方便画图,毕竟4维我们是没法进行画图的,也就是超维的情况可以进行类推

当然现实中的网页排序比这个复杂很多,但是基本思想就是如此

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值