推荐系统(Remmender System)学习笔记(一)--协同过滤

作为学习记录,完成后总结

论文:A Survey of Collaborative Filtering Techniques

一.CF面临的问题

  • Data Sparsity

        相对于庞大的数据集,用户的行为操作数据相对较少,因此,user-item矩阵就是一个稀疏矩阵,导致当有新用户或项目访问系统时,出现冷启动问题(cold start),由于缺乏必要的行为数据,使得系统给出好的推荐的表现变的很差。为了解决数据稀疏问题,有很多方法可以采用,比如降维(SVD, SCA),还有其他一些CF算法,也可以处理Hybrid CF(content-boosted CF),model-based CF(TAN-ELR  tree augmented naive Bayes optimized by extended logistic regression )等等

  • Scalability

        用户或者项目数据数量规模庞大,在数据逐渐增加的过程中,同时保证推荐系统能够即时给出推荐信息,这就是CF算法的扩展性问题。为了解决此类问题,提出了一些算法,item-based Pearson correlation CF 、clustering CF等等

  • Synonymy

        具有相同或类似的项目,但是却又不同的名字或表述,例如“children file”和 “children movie”。解决此类问题,提出的算法,基于奇异值分解的LSI(Latent Semantic Indexing  潜在语义索引)

  • Gray Sheep

         Gray Sheep涉及到用户对某个项目给出的评价无法保持一致,因此无法从推荐系统中得到有用的推荐。Black sheep指无论什么项目,用户给出的都是否定的评价,这种情况在非机器推荐时也会遇到,因此这种情况是可以接受的。相关算法,combining content-based and CF recommendations

  • Shilling Attacks

        恶意评价。相关算法,user-based CF

  • personal privacy 和 increased noise
        隐私保护也是基于CF的推荐系统所要研究的课题。

        因为用户群体多种多样,导致的噪声问题相关算法(Ensembles of maximum margin matrix factorizations and instance selection techniques、Dempster-Shafer (DS)、theory 、imputation techniques

二.CF分类


  • Memory-based CF(neighborhood-based CF
        
        1、Similarity Computation 
            ①Pearson Correlation-Based Similarity

             user-based algorithm

           
                 item- based algorithm

              ② Vector Cosine-Based Similarity

        2Prediction and Recommendation Computation

              Weighted Sum of Others’ Ratings(user-based)


            ②Simple Weighted Average (item-based)

              ③ Top-N Recommendations (暂时没看完)



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值