【BI学习心得08-用户购买预测与基于流行度的推荐】

最新推荐文章于 2023-04-25 09:20:30 发布

水花

最新推荐文章于 2023-04-25 09:20:30 发布

阅读量788

点赞数 1

分类专栏： BI_推荐系统文章标签：推荐系统 python

本文链接：https://blog.csdn.net/weixin_43849871/article/details/111768028

版权

BI_推荐系统专栏收录该内容

49 篇文章 16 订阅

订阅专栏

内容目录

1.基于流行度的推荐

1.1简介

什么是基于流行度的推荐？就是推荐模型的建立是围绕计算内容的流行度展开的，也就是说基于流行度推荐的核心就是计算内容的流行度。通熟讲就是什么内容流行度越高，就给用户推荐什么。本质上就是什么内容对用户吸引力高，就给用户推荐什么。那什么是流行度呢？也就是我们通常说的“热度”。我们在各个互联网产品中最常见到基于流行度推荐的形式就是某某榜TOP（N）。比如微博的热搜榜，酷我音乐排行榜，电商网站热搜榜、某某类商品销量排行榜等等都四处可见。当然这里我们需要注意，我们不能把基于流行度的推荐说成是TOP（N），TOP（N）是一种产品形式，而 $\color{red}流行度推荐指的是一类围绕流行度计算而产生的推荐模型。$

1.2影响流行度的因素

在物理上“热度”受时间和空间的限制，比如烧的炙红的铁块距离你10cm和10m感受到的热度是不同的，同样的距离你10分钟和10小时感受到的热度也是不同的。言归正传，我们看下在推荐中内容的热度是怎样受到时间和空间因素影响的。我们做推荐的目标是将相对于用户最好的内容推荐给用户，这里我们做一个假设，质量越好的内容，他的流行度就越高，通常我们是这么理解的。然而事实却不是这样的，内容质量虽然会很大程度上决定流行度，但是时间和空间才是流行度的幕后推手。

下面我们来说一下时间因素，时间因素我们分两方面看。首先，用户访问一个应用或服务，是有时间偏好的，这种时间偏好导致不同的应用或服务在时间维度有不同的“流量规律”。比如新闻类网站我们一般会集中在早晨和晚上时段查看，任何新闻投放在这一时段都会有比较好的关注度，我们不能说投放在中午的新闻就是质量差。其次，内容热度随着时间的推移是会发生衰减的。比如去年热卖的商品与今年销售的新品谁的质量高，我们也不能下定论。总结：内容的质量一定程度决定内容的热度，由于应用在时间维度的流量差异会导致内容流行度差异很大，内容热度在时间维度上的自然衰减也会导致流行度差异，所以我们考察流行度首先要限制时间因素，即：某一时间段的流行度。

接着我们来说一下空间因素，空间因素我们分两方面看。首先，用户访问一个应用或服务，进入不同位置的用户多少是有常常都有隐含的差异，这就决定了，访问应用位置的流量是有差异的。比如新闻类网站我们一般会集中看首页首航有啥文章，任何文章投放在这一位置都会有比较好的关注度，我们不能说投放在犄角旮旯的文章就是质量差。其次，内容热度随着物理空间的迁移是而发生衰减的。比如美国人可能不会关心鹿晗和关晓彤谈恋爱，但是中国人会，所以在应用国际版上的某内容的流行度也会发生变化，当然其中也有政策差异的影响。总结：内容的质量一定程度决定内容的热度，由于应用在空间维度的流量差异会导致内容流行度差异很大，内容热度在空间维度上的自然衰减也会导致流行度差异，所以我们考察流行度首先要限制空间因素，即：某一位置的流行度。

最后我们总结一下： $\color{red}空间和时间会带来应用访问流量差异，间接影响了特定内容的流行度，当我们进行流行度计量的时候，要限定时间和空间维度，否则流行度不能反映内容质量。$

1.3流行度的度量

上面我们讨论了时间和空间因素对流行度计算的影响。所以我们在度量流行度的时候，要排除时间和空间的影响，这里我们就不能用某一指标的绝度数量来表示。我们知道时空因素影响流行度是通过流量密度来施加的，所以我们要用一个 $\color{red}相对值（比值）或某种可能性（概率）来度量流行度，用户激发热度行为数／用户数。$ 比如我们常说的点击率、购买率、阅读率、观看率等等，以下我们统称为点击率。然而，点击率本身虽然解决了一部分时间和位置偏差所带来的影响，但是点击率的估计所需要的数据依然会受到数据偏差的影响。因此，我们往往希望能够建立无偏差的数据（这也是一个热门的研究课题，有兴趣你可以了解一下：数据驱动－重叠实验平台构建，这里就不展开论述了）。这里我介绍一种常见的处理方式可以收集没有偏差的数据，就是将线上流量进行分桶，一个桶利用现在已有的对物品流行度的估计展示推荐结果内容，一个桶展示随机内容，这种方法是一种特殊的EE 算法（Exploitation & Exploration），业界称之为“epsilon 贪心”（epsilon-Greedy）。之后我们讨论的主题都是在无偏置的流量前提下。

1.4流行度预估建模计算

下面我说一种简单的CTR预估问题建模思想。从数学角度讲点针对点击率的建模，其实就是把内容展示后是否被用户点击，看作一个“伯努利随机变量”，点击率预估就变成了对“伯努利分布参数估计”的问题，比如这时候我们可以用“极大似然估计”的方法，试着找到能最大限度解释当前数据的参数。我们利用最大似然法就可以求出在某一段时间内的点击率所代表的伯努利分布的参数估计。这个估计的数值就是某个物品当前的点击总数除以被显示的次数。通俗地讲，如果我们显示某个物品 10 次，被点击了 5 次，那么在最大似然估计的情况下，点击率的估计值就是 0.5。然而，这样的估计有一定的局限性。如果我们并没有显示当前的物品，那么最大似然估计的分母就是 0。如果当前的物品没有被点击过，那么分子就是 0。在这两种情况下，最大似然估计都无法真正体现出物品的流行度。我们从统计学的角度来讲了讲，如何利用最大似然估计法来对一个伯努利分布所代表的点击率的参数进行估计。这里面的第一个问题就是刚才我们提到的分子或者分母为0的情况。显然，这种情况下并不能很好地反应这些物品的真实属性。一种解决方案是对分子和分母设置“先验信息”。也就是说，虽然我们现在没有显示这个物品或者这个物品没有被点击，但是，我们“主观”地认为，比如说在显示 100 次的情况下，会有 60 次的点击。注意，这些显示次数和点击次数都还没有发生。在这样的先验概率的影响下，点击率的估计，或者说得更加精确一些，点击率的后验概率分布的均值，就成为了实际的点击加上先验的点击，除以实际的显示次数加上先验的显示次数。你可以看到，在有先验分布的情况下，这个比值永远不可能为0。当然，这也就避免了我们之前所说的用最大似然估计所带来的问题。利用先验信息来“平滑”（Smooth）概率的估计，是贝叶斯统计（Bayesian Statistics）中经常使用的方法。如果用更加精准的数学语言来表述这个过程，我们其实是为这个伯努利分布加上了一个 Beta 分布的先验概率，并且推导出了后验概率也是一个 Beta 分布。这个 Beta 分布参数的均值，就是我们刚才所说的均值。在实际操作中，并不是所有的分布都能够找到这样方便的先验分布，使得后验概率有一个解析解的形式。我们在这里就不展开讨论了。另外一个可以扩展的地方就是，到目前为止，我们对于流行度的估计都是针对某一个特定的时段。很明显，每个时段的估计和前面的时间是有一定关联的。这也就提醒我们是不是可以用之前的点击信息，来更加准确地估计现在这个时段的点击率。答案是可以的。当然，这里会有不同的方法。一种最简单的方法还是利用我们刚才所说的先验概率的思想。那就是，当前 T 时刻的点击和显示的先验数值是 T-1 时刻的某种变换。什么意思呢？比如早上 9 点到 10 点，某个物品有 40 次点击，100 次显示。那么 10 点到 11 点，我们在还没有显示的情况下，就可以认为这个物品会有 20 次点击，50 次显示。注意，我们把 9 点到 10 点的真实数据乘以 0.5 用于 10 点到 11 点的先验数据，这种做法是一种主观的做法。而且是否乘以 0.5 还是其他数值需要取决于测试。但是这种思想，有时候叫作“时间折扣”（Temporal Discount），是一种非常普遍的时序信息处理的手法。

1.5从数据集中了解流行度的趋势

MovieLens数据集存了用户对电影的评分。基于这个数据集，我们可以测试一些推荐算法、评分预测算法、流行度趋势。

在这里插入图片描述
从上图中我们可以看到，5分和1分所占比例很小，但对于系统来说价值最大
（Youtube中5分和1分的价值最大）

在这里插入图片描述
横坐标是流行度，纵坐标是数据集中所有电影评分。从上图中我们可以看到，高流行度的item所占比例很小，低流行度的item评分差异大（越不流行=>自己的喜好来判断），高流行度的item评分差异小（越流行=>群体的喜好影响力大）。

1.6流行度与冷启动

推荐系统冷启动问题指的是新用户注册或者新物品入库，该怎么给新用户提供推荐服务让用户满意，怎么将新物品推荐出去，推荐给喜欢它的用户。

所以，冷启动包含用户冷启动和物品冷启动，下面分别描述怎么做用户和物品的冷启动，有哪些可行的策略。

用户冷启动：针对新用户，可行的推荐策略有如下几个：

推荐热门物品或者必需品，这些物品往往是热点或者是购买最多的，比如视频推荐的新上映的大片，电商的畅销品，或者是生活必需品。
基于用户的信息来做推荐，如年龄，性别，地域等。这要求平台事先要知道用户的部分信息，这在某些行业是比较困难的，比如OTT端的视频推荐。
将库中的物品聚类，在给新用户推荐时，每个类别中推荐几个，总有一款是你喜欢的。
当用户有很少的行为记录时，这时很多算法（比如协同过滤）还无法给用户做推荐，这时可以采用基于内容的推荐算法。
当产品在拓展过程中，比如视频类应用，前期只做长视频推荐，后来拓展到短视频，那么对某些没有短视频观看行为的用户，怎么给他做短视频推荐呢？可以行的方式是借用迁移学习的思路，利用长视频观看历史，计算出用户的相似度，如果某个用户没有看短视频，但是跟他相似的用户看了很多短视频，这时可以将相似用户看过的短视频推荐给该用户。
事先构造选项，让用户选择自己的兴趣。
利用社交信息来做冷启动，特别是在有社交属性的产品中，将好友喜欢的物品推荐给新用户。

物品冷启动：针对新上线的物品，可行的推荐策略有：

基于物品的属性的推荐，一般新上线的物品或多或少都是有一些属性的，根据这些属性找到与该物品最相似的物品，这些相似的物品被哪些用户“消费”过，可以将该物品推荐给这些消费过的用户。
另外一种思路是借用强化学习中的exploration-exploitation思想，将该物品曝光给随机一组用户，观察用户对物品的反馈，找到对该物品有正向反馈(观看，购买，收藏，分享等)的用户, 后续将该物品推荐给与正向反馈相似的用户。

冷启动从推荐系统最开始这个问题就一直存在，当用户行为信息不足时，采用非个性化推荐，我们通常可以使用流行度，即当下的潮流趋势。探究其算法本质，什么内容吸引用户，就给用户推荐什么内容。流行度需要有代表性和区分性，即不能太大众化或老少皆宜 => 无法区分用户的兴趣。另外还有一点就是多样性，用户兴趣的可能性很多，为了匹配兴趣的多样性 => 提供具有较高覆盖率的启动item集合（这些物品能覆盖主流的用户兴趣）。综合考虑这些因素，流行度才能发挥其作用。

1.7流行度的进展

SIGIR 2018最佳论文：Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems

【论文摘要】在推荐系统的评估中使用IR方法论在近年来已成为惯例。然而，IR指标在推荐受欢迎条目的奖励算法中被发现有很强的偏见，相同的偏见在当前最佳的推荐算法中也出现了。近期的研究证实并测量了这种偏见，并提出了相应的方法来避免它们。问题仍然是开放性的：即流行度是不是一种需要避免的偏见；它在推荐系统中是不是一种有用的和可靠的信号；或者它是否可能由实验偏见带来不公平的奖励。我们通过识别和建模可以确定（关于关键随机变量之间的依赖关系，涉及条目评分、发现和相关性）答案的条件，在形式层次上解决了这个问题。我们发现了保证有效流行度（或恰好相反）的条件，和反映真实有效性的测量指标值的条件，或定量地从中推导出。我们通过经验结果证实了理论发现。我们构建了一个完全没有在常见的公共数据中存在的偏见的众包数据集，其中我们解释了在常见带偏见离线实验设置的准确率，和通过无偏见观察数据测量得到的真实准确率之间的矛盾。

在这里插入图片描述
$\ Crowdsourced 100k，众包数据集，没有公开网站中的常见偏见(右)$