推荐系统的特征工程

最新推荐文章于 2022-10-17 13:30:12 发布

eryihahaha

最新推荐文章于 2022-10-17 13:30:12 发布

阅读量223

点赞数

分类专栏：技术文章总结文章标签：深度学习人工智能机器学习

原文链接：https://hub.baai.ac.cn/view/20298

版权

技术文章总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

出发点：

深度学习模型在一定程度上可以学习到row-based的特征变换，比如PNN、DCN、DeepFM等都可以建模特征的交叉组合操作。然而，其很难学习到column-based的特征变换，这是因为深度模型一次只能接受一个小批次的样本，无法建模到全局的统计聚合信息，而这些信息通常是十分重要的。因此即使是深度学习模型也是需要精做特征工程的。

特征放缩：

在这里插入图片描述
思考题1：如何量化短视频的流行度（假设以播放次数来衡量）？
短视频的播放次数在整个样本空间中服从幂律分布，即长尾分布，少量的热门视频播放次数会很高，大量的长尾视频播放次数都相对较少。这个时候最好采用Log-based变换，即先对播放次数取log，取完log之后的值做Z-score标准化处理，最终得到的值分布比较均匀。如果不做log变换直接用Z-score处理，会导致大部分特征值被压缩到一个非常窄的区域。

思考题2：如何量化商品“贵”或“便宜”的程度？
这里推荐的做法是做Z-score标准化。要注意的是Z-score的均值和标准差的计算都要限制在同类商品集合内，而不是对整个数据集，并且最好采用叶子类目，即最细一层的类目，但如果叶子类目的商品种类太少，回溯一层也是可以的。

思考题3：如何量化用户对新闻题材的偏好度（假设以阅读次数来衡量）？
建议对这种问题先按照用户分组，组内再做Min-max归一化。

Gauss Rank

最后介绍一下Gauss Rank，是推荐系统中效果比较好的一个特征变换操作。首先我们对数据的统计值做一个排序，从小到大或从大到小都可以，得到数据的Rank值，然后将Rank值缩放到(-1,1)区间，最后调用erfinv逆误差函数，就可以将变换后的Rank值分布调整为高斯分布。深度学习模型偏好高斯分布的数据输入，这也是为什么深度学习中经常使用的一个操作是Batch Normalization。

分箱

推荐场景下，用户的统计特征需要先按照用户分组后再做分箱，不建议全局做分箱。

特征处理+分箱+统计特征

eryihahaha

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
推荐系统的特征工程

首先我们对数据的统计值做一个排序，从小到大或从大到小都可以，得到数据的Rank值，然后将Rank值缩放到(-1,1)区间，最后调用erfinv逆误差函数，就可以将变换后的Rank值分布调整为高斯分布。的特征变换，这是因为深度模型一次只能接受一个小批次的样本，无法建模到全局的统计聚合信息，而这些信息通常是十分重要的。，而不是对整个数据集，并且最好采用叶子类目，即最细一层的类目，但如果叶子类目的商品种类太少，回溯一层也是可以的。推荐场景下，用户的统计特征需要先按照用户分组后再做分箱，不建议全局做分箱。
复制链接

扫一扫