推荐系统之雅虎图文：Embedding-based News Recommendation for Millions of Users

于建民

于 2018-06-20 19:27:02 发布

阅读量3.7k

点赞数 1

分类专栏：技术博客文章标签： recommendation-system Embedding RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yujianmin1990/article/details/80683491

版权

本文介绍了雅虎日本2017年的图文推荐系统，该系统利用Embedding技术表示用户和新闻，结合降噪自编码器与RNN进行推荐。通过改进的降噪自编码器理解文章内容，使用GRU进行用户行为建模，以快速响应不断更新的新闻数据，提升推荐的准确性和时效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

　　雅虎日本2017年发的他们的推荐系统paper，主要以Emebdding作为用户和文本新闻的表示方式，来让我们师夷长技以自强下。

亮点

　　主要就是在倒腾各种Embedding，用来做推荐。
　　1）用降噪自编码实现文章的 $embedding$ 。
　　2）用RNN学习用户行为的 $embedding$ 。

YaHoo日本的图文推荐处理流程

Identify $\longrightarrow$ 获取用户特征 $V_u$ 。
Matching $\longrightarrow$ 匹配候选新闻集合。
Ranking $\longrightarrow$ 对候选集排序。
De-duplication $\longrightarrow$ 根据新闻相关性去重。
Advertising $\longrightarrow$ 插入广告。

notice-1: 在上述1,2,4的地方用到了Embedding表示的用户和新闻。
notice-2: 在第2点上并没有说清楚是从所有新闻中匹配候选集，还是有个所有新闻的子集来做匹配。
notice-3: 在最终展示顺序上，以排序为基础，辅以额外的影响因素，比如新鲜度(hot)，相似新闻不近邻(diversity)等。

为什么Eebedding

1）协同过滤和低秩分解类方法的先天缺陷
　　不适应更新很快的系统，只消耗旧数据，无法对新数据产生足够快的响应。基于词的推荐，则容易受限于词自身的语义缺点，比如同义词的不同词容易推类似新闻。图文推荐系统的特点，不同于广告和视屏，图文新闻过期很快。
2）用户的行为历史的顺序及结构信息，没有被充分利用起来。
　　基于上述两点，分别用改进的降噪自编码对文章作表达，用RNN方法对用户作表达。来完成以下三点推荐要素：
　1. $\longrightarrow$ 理解文章内容。
　2. $\longrightarrow$ 理解用户喜好。
　3. $\longrightarrow$ 为个体用户选择新闻并排序。

Artical Embedding

　　基本模型是denoising autoencoder，对其加上弱监督学习作改进，以提高hiden-layer-embedding对差距的表达能力。

x˜n∼q(x˜n|xn)

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。