KDD2021 | 推荐系统中利用深度哈希方法学习类别特征表示

最新推荐文章于 2024-06-13 20:12:45 发布

机器学习与推荐算法

最新推荐文章于 2024-06-13 20:12:45 发布

阅读量366

点赞数

文章标签：人工智能深度学习机器学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44289754/article/details/119723421

版权

本文探讨了推荐系统中类别特征表示的学习问题，提出了Deep Hash Embeddings (DHE)方法，旨在解决传统One-hot Embedding方法的内存问题和新特征处理。DHE通过多层神经网络和哈希函数实现类别特征的高效表示，同时保持良好的性能。实验结果显示，DHE在减少参数量的同时，与one-hot方法表现相当。

摘要由CSDN通过智能技术生成

嘿，记得给“机器学习与推荐算法”添加星标

| 作者：YEN
| 单位：东北大学
| 研究方向：推荐系统、计算广告

本文分享一篇谷歌团队发表在KDD’21的推荐系统文章：不使用嵌入表的方式获得类别特征的表征用于推荐系统^[1]。

本文结构组织如下：

背景
已有的类别特征嵌入方法
- One-hot Full Embedding方法
- One-hot Hash Embedding方法
- 其他Emb方法
提出的Deep Hash Embeddings (DHE）方法
- Deep Hash Embeddings (DHE）结构
实验对比

背景

类别特征（用户ID/物品ID）的学习在推荐系统中扮演着重要的作用，标准的方式是为每个类别特征分配一个嵌入向量（embedding vector）。然而这种方式在推荐系统中存在以下几个挑战：

嵌入特征数量大（Huge vocabulary size）：推荐系统通常包含几百万的用户ID/视频ID。
特征的动态的（ Dynamic nature of input）：推荐系统中经常会出现全新的用户ID/视频ID。
特征分布高度倾斜（Highly-skewed data distribution）：推荐数据中低频特征的训练实例数量较少，因此对特征嵌入质量有显著影响。

这篇文章提出一个Deep Hash Embeddings (DHE）的方式来缓解以上问题。

已有的类别特征嵌入方法

One-hot Full Embedding方法

做法：这种方式把所有类别特征进行编号，假设共个特征。每个特征首先通过one-hot进行编码：，其中并且；接着通过一个可学习的线性变换矩阵（可以看作一层神经网络，但没有bias项）得到对应的嵌入表示：。

优点：简单

缺点：embedding table随特征数量线性增长（即内存问题）；无法处理新出现的特征

One-hot Hash Embedding方法

做法：为了解决One-hot Full Embedding中的内存问题，不少方法使用Hash函数的方式对类别特征进行映射，将原始的维的one-hot特征编码映射为纬的one-hot特征编码（

最低0.47元/天解锁文章

机器学习与推荐算法

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。