13 用户兴趣探索与开发深度学习与强化学习

最新推荐文章于 2024-09-16 14:26:39 发布

周壮

最新推荐文章于 2024-09-16 14:26:39 发布

阅读量1.2k

点赞数 18

分类专栏：推荐系统及算法实践文章标签：深度学习推荐算法人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zz_1205094250/article/details/140660156

版权

AI 技术在智能语音、图像识别、自然语言理解等领域，AI 都有大范围的落地。而应用得最早、最广泛的，还是 AI 在推荐领域的实践。

目前大部分主流 App 都集成了推荐系统，比如 58 同城 App 中推荐系统就不断通过对用户的兴趣的探索和开发，进行智能、精准推送，以此更好地为用户进行服务。除此之外，还有电商、资讯、长短视频、社交等 App，也都非常依赖推荐系统。

而在推荐领域中，如果系统只是针对用户已存在兴趣的物品进行推荐，过不了多长时间，用户就会感觉腻，此时推荐算法本身需要不断探索和开发用户新的兴趣才行。

因此这一期我们就主要围绕用户的兴趣探索和开发的问题进行讨论。关于兴趣探索和开发的问题，我们可以这样理解：如果我们需要将平台的物品进行分类，那么推荐算法应该把物品分为用户“喜欢”和“不喜欢”这两大类。

然而对于推荐系统来说，它并不确切知道用户的兴趣，因为用户大部分兴趣只能通过隐式反馈来捕获，也就是说兴趣没有表现出来的行为。

在这种情况下，推荐系统存在以下两种选择。

按照已捕获的兴趣进行推荐：这种形式会产生“信息茧房”，推荐出来的结果缺乏新颖性和多样性；
不按照兴趣，随机推荐：这种形式推荐出来的结果往往用户不满意，准确率会下降。

此时，如果我们完全按照当前的最优解，则意味着放弃了潜在的更优解，而为了潜在的更优解继续探索可能会导致短期收益降低。

由此可见，推荐系统偏重任意一个选择都行不通，因此我们需要多方综合、权衡考虑。这就是推荐算法中经典的探索与开发 Exploration & Exploitation（EE）问题。

多臂老虎机（MAB）问题

在解决这样的问题时，历史悠久的赌博学中有一个多臂老虎机（Multi-Armed Bandit，MAB）的解法，可以为我们所用。

多臂老虎机的使用场景：在多个老虎机中，赌徒随机选择其一进行下注，经过多次探索，最终选择收益最大的那台。这估计是大多数玩家的选择，这种选择方式比完全随机要强一些，但是如果想不亏本，就得靠运气了。

解决这种问题的算法，我们就统称为老虎机算法。在推荐领域，常见的老虎机算法有很多，这里就不一一例举了，下面我们主要看两个收益较高的算法模型。

置信区间上界（UCB）模型

置信区间上界（Upper Confidence Bound，UCB）模型，与它的名字一样，简单来说就是它会根据老虎机置信区间上界，将现有老虎机进行排序，然后选择排最靠前的那一个。

如何获得老虎机的准确置信区间呢？每个老虎机都有其胜率的置信区间，根据统计学原理，随着被下注次数的增加，老虎机的胜率置信区间会逐渐缩窄，最后达到逐渐

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

周壮 您的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。