推荐系统中的冷启动和探索利用问题探讨 (下)

本文探讨了推荐系统中的冷启动和探索利用问题,介绍了基于上下文特征的LinUCB算法,以及用户群聚类的CLUB算法。LinUCB利用线性模型平衡探索与利用,而CLUB算法通过用户群划分实现用户间信息共享,以优化推荐效果。
摘要由CSDN通过智能技术生成

LinUCB算法


回到推荐列表的场景,推荐系统为用户推荐物品。user和item都可以用一系列特征表示。用户特征包括用户的统计历史行为、人口学属性信息;物品特征包括描述信息、类别信息等等。在这种场景下,探索和利用也必须是个体用户级别上实施,因为不同用户看到相同的物品的反馈差异较大。

LinUCB算法是一种基于上下文特征(用户特征、物品特征)的UCB算法,基于特征进行探索和利用。该算法结合上下文特征,选择给用户的推荐物品,同时利用用户反馈及时修正选择策略,以达到最大化收益(提升点击率)的目标。

使用互斥线性模型的LinUCB

LinUCB算法假设推荐item的每次展现收益(是否点击)是和上下文特征成线性关系的,即:

E[rt,a|xt,a]=xTt,aθa

其中 xt,a 表示用户特征和物品特征的合集, rt,a 表示第t次尝试的收益,a表示item, θa 表示物品a的位置系数向量。可以看出各个item的模型参数是相互独立的(互斥)。

Da (d*m)表示为m个训练上下文, ca 表示每个上下文的实际收益,对训练数据 (Da,ca) 使用岭回归训练出的物品a的参数为:

θ̂ a=(DTaDa+Id)1DTaca

其中 Id 表示d*d的单位矩阵。其中在置信度 1δ 下,模型收益与期望收益满足:

xTt,aθ̂ aE[rt,a|xt,a]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值