weak-and算法原理演示（wand）

最新推荐文章于 2023-04-16 00:57:36 发布

yihucha166

最新推荐文章于 2023-04-16 00:57:36 发布

阅读量7.9k

点赞数

分类专栏：算法文章标签： wand 信息检索 weak-and

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yihucha166/article/details/8500247

版权

推荐一个在信息检索中用到的weak-and算法，这个算法在广告系统中有成熟的应用。

简单来说，一般我们在计算文本相关性的时候，会通过倒排索引的方式进行查询，通过倒排索引已经要比全量遍历节约大量时间，但是有时候仍然很慢。

原因是很多时候我们其实只是想要top n个结果，一些结果明显较差的也进行了复杂的相关性计算，而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限，从而建立一个阈值对倒排中的结果进行减枝，从而得到提速的效果。

从我实际测试的结果看，对于短文本的效果不如长文本的明显，但是在视频的电影数据上面看，仍然减少了50%的耗时（top 100），并且该算法可以通过牺牲精度来进一步提升速度，非常不错。

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
weak-and算法原理演示（wand）

推荐一个在信息检索中用到的weak-and算法，这个算法在广告系统中有成熟的应用。简单来说，一般我们在计算文本相关性的时候，会通过倒排索引的方式进行查询，通过倒排索引已经要比全量遍历节约大量时间，但是有时候仍然很慢。原因是很多时候我们其实只是想要top n个结果，一些结果明显较差的也进行了复杂的相关性计算，而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限，从而建立
复制链接

扫一扫

专栏目录

yihucha166 CSDN认证博客专家 CSDN认证企业博客

码龄20年

40: 原创

105万+: 周排名

200万+: 总排名

24万+: 访问

: 等级

3104: 积分

56: 粉丝

18: 获赞

37: 评论

57: 收藏

私信

关注

热门文章

分类专栏

最新评论

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍五
yetianyi_01: 想求一下完整源码，他这个网站上不去
机器学习特征选择之卡方检验与互信息
天之传奇: 凭空出现的数字让人很困扰
Spark上如何做分布式AUC计算
上善之若水: 我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算，输入可能是（label, predict_score）这样的形式，mllib中提供的方案就不太适用了这个怎么就不实用了啊？
如何设置kindle推送，如何推送网页到kindle
oDreach: 我来补充一个！如何设置kindle推送看这里：http://www.yunjiale.net/kindle-voyage-tuisong-buzhou/
机器学习特征选择之卡方检验与互信息
肥羊hao: 博主想请教一下关于实验测试的方法这篇技术博客用的是什么测试集了？实验是怎么跑的？？因为刚开始接触机器学习不懂如何进行实验没什么门路……谢谢了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。