图文推荐系统之数据冷启小结

最新推荐文章于 2022-07-11 15:24:26 发布

于建民

最新推荐文章于 2022-07-11 15:24:26 发布

阅读量872

点赞数 1

分类专栏：技术博客

本文链接：https://blog.csdn.net/yujianmin1990/article/details/91358477

版权

技术博客专栏收录该内容

79 篇文章 29 订阅

订阅专栏

数据冷启

前言

		问渠哪得清如许，为有源头活水来---朱熹
                                                 数据冷启，即是新闻推荐系统的源头活水。

新闻推荐必须面对的入场问题

简单讲一下新闻推荐里面不怎么被提到的重要环节：数据冷启。在某些童鞋的认知里，一个新闻推荐系统，最重要并且最出彩的部分肯定是排序模块，推荐就等于Rank；其实不然，一个完备的推荐系统，是包括方方面面的，简单划分模块如下：
【推荐的模块图】数据抓取==》数据冷启==》召回==》粗排==》精排==》展示策略

新闻推荐系统不同于商品/广告推荐系统，具有自己的特色。
1）新闻时刻在产生。
每时每刻，新闻都在源源不断地产生的，当你看到这段文字的时候，可能又有个新闻爆出来，或者某个地方发生了一件事情被新闻报道。在商品或者广告推荐系统里，也有新物品或者广告在产生，但是没有新闻流这样频繁和规模庞大。
2）新闻重在新。
新闻的受众，更乐于接收没看过的新闻，而非已看过的旧闻。在信息熵里面，确定的消息都是没有信息量的，只有未知的才是有信息量的。对用户而言，没看过的才是对他来说有信息量的。如果某条新闻没有很快进入推荐流，则会严重影响用户体验，现在的信息化时代，讲究地是信息的快速传播。
举个例子，在实际场景中，一条事件新闻发生了，用户或许可以接受1个小时的延迟，但万万是无法接受半天时间的延迟的。如果延迟过长，用户会产生这样的疑问=>为啥我的其他小伙伴们，在另外渠道都已经能看到某个明星出轨的消息了，而我在这款新闻流产品里还没刷到任何相关信息？久而久之，就会吐槽做的什么鸡毛玩意，我要卸掉换个更好的。
3）数据依赖重，入场是关键。
没有数据，信息流推荐产品玩转不动；没有新的新闻进来，全是旧闻旧颜，看多了腻，最终无内容可推。咋整？新的数据赶紧滴呀，抓紧时间入场，抓紧时间见到用户，在兼顾效率的同时，还要兼顾效果。

总之，数据被抓取到或者以UGC的形式产生，然后，这些规模看着还挺大量的新闻要快速有效地进入整个推荐流。
于是，怎么入场，就成了整个推荐系统首要解决的问题。解决地漂漂亮亮，数据很快就入场，很快大规模被以更柔和且精准的方式推荐给用户，获得最大的推荐受益和体验。解决地不那么漂亮，数据也能磕磕绊绊地入场，也可以被大规模投放，就是初始几步没走好，后面难免有各种坑等着。
而数据的入场效率和效果，构成了数据冷启的整个目标，根据不同环境，我们要区分性地对待这一推荐系统必须要解决的问题。

简单粗暴有时更救命止渴

有时候，系统已经跑起来了，如夸父追日般风驰电掣地向前推进着，整个系统的后续环节都依赖数据，有需要积累行为的，有需要积累特征的，有需要海量数据规模支撑的。数据冷启这个时候压力山大呀！还管啥试投姿势好看呀，先把每天到手的几百万或者几千万的数据，怼到系统里再说。甭管黑猫白猫，能够投放出去数据就是好的冷启姿势。这个时候，投放效果是其次的，投放效率更为重要。简单总结下有用的数据入场姿势。
1）热点运营
顾名思义，就是人工运营挑选爆点新闻，做专门投放，不管是将爆点置顶还是push。该方法特点，能解决掉最热的爆点新闻，缺点就是可用新闻量太少。
2）全局随机试投
推荐系统连接了用户和数据，决定了用户接受到什么样的数据，也决定了数据能见到什么样的数据。如果我们什么都不做，直接做随机试投怎么样呢？事实证明，在精细试投不允许的情况下，也是可行的，总不能啥都不干吧。随机试投，听上去好像很弱鸡的样子，也很不高端的样子。让我来给他用数学理论来解释下，大概就高级了哈哈。
我们在中学数学里，应该就学过蒙特卡洛估值的方法，比如下图，估计1/4圆的面积，或者更复杂图形的面积。背后的思路是：采样越多，越近似最优解。在最近的围棋智能对抗中，AlphaGo就用到了蒙特卡洛搜索法来找最优解，是典型的以蛮力实现智慧的方法。

思考的角度，决定了如何处理试投的结果。我们如果认为是将数据随机投放到了用户上，则得到了用户的特点分布；如果认为是将用户随机投放到了数据上，则得到了数据的特点分布。现在，通过随机试投，我们对用户的分布和数据的分布都有了。那么就可以挑选出全局较优的数据了，也可以挑选出全局较优的人群了。
3）统计赤膊上阵
系统有啥统计用户画像之类的东西，借鉴过来搞啊。比如，总得有个基于用户点击历史的关键词之类的用户画像，此时它就成了很好地载体，可以作为连接数据和用户的中间媒介。虽然是个统计的画像，但是不耽误使用哈~最简单的使用方式是，统计每个新闻在每个关键词下面的后验CTR，然后分别取头部，作为每个关键词的候选新闻集；线上每有一个用户来访问时，先获取他的关键词画像，然后根据点击频率来取对应的候选新闻集合。
4）rank的粗糙处理
在召回的结果中，已经存在了新数据集合，但是Rank模块极有可能不会将这些数据排序到前面。Rank是追求数据指标的，给用户更合适的数据来获得更好的系统指标是Rank的目标；而召回更多的是在不同维度来描述用户，针对性地召回数据。在Rank的目标里，新数据是很吃亏的，完全没有或者只有稀疏且不置信的行为统计，压根搞不过那些已经投放了相当量的数据哇~咋整，懒人有懒招，反正试投要保证一定的投放量，那就直接固定下来，每屏的返回里面必须有一条新数据。
从上面虽然粗暴但是不失简洁的搞法中，我们可以大体了解到，数据冷启是个全局的任务，不仅仅是有个试投就完事大吉了，而是涉及整个推荐系统的每个环节。哪个环节搞不定，都不会很好地进行到下一步。让我们在这里简单总结下数据冷启，在每个环节都要干的事情。
【图：冷启涉及的各个环节，及其需要达成的状态】

更漂亮优雅的入场姿势

生活要有张有弛，不能总是疾风暴雨，对待用户要像春天的清风一样温柔，不能像夏天的烈日般太过热情。要时刻记得，我们是基于用户行为的大数据推荐算法系统，是比用户爹妈还了解他们内心世界的推荐系统，总是能够根据用户的需求，分配给他们最爱的新闻内容。很喜欢一个图，如下，解释了用户和新闻之间的联系纽带。

1）召回
针对性地召回新数据，是首先要处理好的环节，新数据上的行为毕竟不多，所以只能借助用户的其他信息。
1.1）用户 $\longrightarrow$ 数据
这里，一方面可以挖掘用户的相关信息，另一个就是借助新闻的描述信息。
根据对URL和不同URL级信息的重视程度，可以将<user, url>分成不同的模型类型。

type	optimize	means
$\langle user, url \rangle$	$\underset{\theta}{argmax} \prod P(V_{user}·V_{url})$	单纯使用用户和URL来学习用户间在点击新闻上的关系
$\langle user, mean(tags) \rangle$	$\underset{\theta}{argmax} \prod P(V_{user}·V_{tags}^{mean})$	URL用标签或者关键词表示，学习用户和标签的关系
$\langle user, url + mean(tags) \rangle$	$\underset{\theta}{argmax} \prod P(V_{user}·[V_{url}+V_{tags}^{mean}])$	同时考虑URL和tag信息，但是tag的总体与URL平级
$\langle user, mean(url+tags) \rangle$	$\underset{\theta}{argmax} \prod P(V_{user}·[V_{url}+V_{tags}]^{mean})$	将每个Tag与URL作为同级处理

在新数据的召唤逻辑里，d)这种形式是效果较好，并且数据不容易那么集中在头部。
1.2）数据 $\longrightarrow$ 数据
将用户点击过的新闻与当前待试投的新闻联系起来。不管是用纯粹的行为学习到的url-emb，还是word2vec，或者是title2vec，亦或者bert的词向量表示的向量，都可以作为Item-Item相似计算。
1.3）用户 $\longrightarrow$ 桥梁 $\longrightarrow$ 数据
甭管啥中间层，只要能借助地，都可以作为中间桥梁，管你是统计的用户点击行为描述，还是隐藏空间表述，还是主题模型的主题，搞起来不要停，简直就是姿势不要太多。
2）RANK
暂无。有野路子搞，但是会损伤系统指标，哈哈。在这里最大的难点是新数据的行为少，在排序时天然比积累了更多行为的旧数据处于劣势。
3）策略
并不是排序的顺序，就是展示的顺序，还有各种各样的展示策略。因此，也需要搞个时间策略，使得Rank排序到候选集内的数据，能够在展示时更靠前，而不是由于策略导致新数据压根不往上冒。
单独提一句，监控项目及评估指标的设定很重要。