目录
一、ALS模型
1、模型定义
用户u对商品i的偏好:
其中,在隐式反馈中无法获取用户对商品明确的评分,在视频推荐场景中rui表示为视频观看的时长比例,在商品推荐场景中rui表示为对商品点击次数等。
用户的隐式反馈属于One-class问题,把预测用户行为看成一个二分类问题,猜用户会不会做某事,实际上收集到的数据只有明确一类:用户干了某事,而用户明确不干某事的数据却没有明确表达。那些没有反馈的缺失值,就是取值为0的评分非常多,导致正负类别样本非常不均衡,严重倾斜,应对这个问题的做法就是负样本采样:挑选部分缺失值作为负类别样本。
负样本采样方法:
- 随机均匀采样和正类别一样多。
- 按照物品的热门程度采样(在实践中经过了检验)。该采样方法的思想是,一个越热门的物品,用户越可能知道它的存在,这种情况下用户还没对它有反馈就表明,这很可能是真正的负样本。
用户u对商品i偏好度pui的可信度:
用户隐式反馈的可信度,正比于用户反馈的次数,反馈次数越多,越确信用户对物品的喜欢。
损失函数定义为:
损失函数包含误差平方和(偏差)和正则项(方差)两部分。
2、参数求解
ALS(alternating-least-squares):如果用户特征矩阵或者商品特征矩阵固定,损失函数为二次函数,存在全局最优值,所以交替地计算用