AI 技术在智能语音、图像识别、自然语言理解等领域,AI 都有大范围的落地。而应用得最早、最广泛的,还是 AI 在推荐领域的实践。
目前大部分主流 App 都集成了推荐系统,比如 58 同城 App 中推荐系统就不断通过对用户的兴趣的探索和开发,进行智能、精准推送,以此更好地为用户进行服务。除此之外,还有电商、资讯、长短视频、社交等 App,也都非常依赖推荐系统。
而在推荐领域中,如果系统只是针对用户已存在兴趣的物品进行推荐,过不了多长时间,用户就会感觉腻,此时推荐算法本身需要不断探索和开发用户新的兴趣才行。
因此这一期我们就主要围绕用户的兴趣探索和开发的问题进行讨论。关于兴趣探索和开发的问题,我们可以这样理解:如果我们需要将平台的物品进行分类,那么推荐算法应该把物品分为用户“喜欢”和“不喜欢”这两大类。
然而对于推荐系统来说,它并不确切知道用户的兴趣,因为用户大部分兴趣只能通过隐式反馈来捕获,也就是说兴趣没有表现出来的行为。
在这种情况下,推荐系统存在以下两种选择。
-
按照已捕获的兴趣进行推荐:这种形式会产生“信息茧房”,推荐出来的结果缺乏新颖性和多样性;
-
不按照兴趣,随机推荐:这种形式推荐出来的结果往往用户不满意,准确率会下降。
此时,如果我们完全按照当前的最优解,则意味着放弃了潜在的更优解,而为了潜在的更优解继续探索可能会导致短期收益降低。
由此可见,推荐系统偏重任意一个选择都行不通,因此我们需要多方综合、权衡考虑。这就是推荐算法中经典的探索与开发 Exploration & Exploitation(EE)问题。
多臂老虎机(MAB)问题
在解决这样的问题时,历史悠久的赌博学中有一个多臂老虎机(Multi-Armed Bandit,MAB)的解法,可以为我们所用。
多臂老虎机的使用场景:在多个老虎机中,赌徒随机选择其一进行下注,经过多次探索,最终选择收益最大的那台。这估计是大多数玩家的选择,这种选择方式比完全随机要强一些,但是如果想不亏本,就得靠运气了。
解决这种问题的算法,我们就统称为老虎机算法。在推荐领域,常见的老虎机算法有很多,这里就不一一例举了,下面我们主要看两个收益较高的算法模型。
-
置信区间上界(UCB)模型
置信区间上界(Upper Confidence Bound,UCB)模型,与它的名字一样,简单来说就是它会根据老虎机置信区间上界,将现有老虎机进行排序,然后选择排最靠前的那一个。
如何获得老虎机的准确置信区间呢?每个老虎机都有其胜率的置信区间,根据统计学原理,随着被下注次数的增加,老虎机的胜率置信区间会逐渐缩窄,最后达到逐渐