推荐算法:察言观色,投其所好

推荐算法

1.隐含语义分析
1)近义词的存在会导致信息检索时召回率降低。
2)多义词的存在会导致信息检索时准确率降低。
3)TF-IDF:量化关联度
①TF(Term Frequency):搜索词在本文档中越频繁越好。
②IDF:(Inverse Document Frequency):搜索词在别的文档里越少越好。
③TF-IDF:同时结合两个参数,可以实现两个目标。
④一个查询词和文档的相关性强说明:在该文档中频繁出现;其它文档中极少出现。
4)在向量空间模型中,两篇文档接近等价于夹角余弦值接近于1 。
5)隐含语义分析的数学原理与PCA技术最接近。

2.PageRank
1)PageRank的计算依据是网页与其它网页的关系。
2)在计算一个网页的PageRank值时需要考虑所有指向它的网页。
3)网络中所有网页的PageRank值的总和恒等于1。

3.协同过滤
1)显著影响协同过滤算法的场景:
①Gray Sheep:过于独特的用户,无法匹配与其相似的用户。
②Shilling Attack:恶意虚假数据的干扰。
③Cold Start:对待新用户无法使用。
2)在协同过滤算法中,需要考虑:
①与目标客户兴趣相投的;
②与目标客户兴趣相反的。
3)打分矩阵的主要特点有:
①行数较大;
②列数较大;
③较为稀疏。
4)在基于模型的协同过滤算法中,因为空缺值普遍存在,所以推荐使用朴素贝叶斯。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值