推荐算法
1.隐含语义分析
1)近义词的存在会导致信息检索时召回率降低。
2)多义词的存在会导致信息检索时准确率降低。
3)TF-IDF:量化关联度
①TF(Term Frequency):搜索词在本文档中越频繁越好。
②IDF:(Inverse Document Frequency):搜索词在别的文档里越少越好。
③TF-IDF:同时结合两个参数,可以实现两个目标。
④一个查询词和文档的相关性强说明:在该文档中频繁出现;其它文档中极少出现。
4)在向量空间模型中,两篇文档接近等价于夹角余弦值接近于1 。
5)隐含语义分析的数学原理与PCA技术最接近。
2.PageRank
1)PageRank的计算依据是网页与其它网页的关系。
2)在计算一个网页的PageRank值时需要考虑所有指向它的网页。
3)网络中所有网页的PageRank值的总和恒等于1。
3.协同过滤
1)显著影响协同过滤算法的场景:
①Gray Sheep:过于独特的用户,无法匹配与其相似的用户。
②Shilling Attack:恶意虚假数据的干扰。
③Cold Start:对待新用户无法使用。
2)在协同过滤算法中,需要考虑:
①与目标客户兴趣相投的;
②与目标客户兴趣相反的。
3)打分矩阵的主要特点有:
①行数较大;
②列数较大;
③较为稀疏。
4)在基于模型的协同过滤算法中,因为空缺值普遍存在,所以推荐使用朴素贝叶斯。