电商推荐算法-数据方案篇

wuzk2009

已于 2024-09-10 14:26:18 修改

阅读量780

点赞数 8

分类专栏：推荐系统文章标签：推荐算法算法机器学习

于 2024-09-09 10:47:10 首次发布

本文链接：https://blog.csdn.net/wuzk2009/article/details/142045738

版权

推荐系统专栏收录该内容

4 篇文章 0 订阅

订阅专栏

随着电商平台的成长，产生了严重的信息过载。如果不采用一定的手段，用户很难从如此多的商品信息流中找到对自己项买的商品，推荐算法由此应用而生。

一、用户获取信息方式

第一种是传统的搜索，用户有明确的需求意图，将意图转换为几个简短的词或者短语的组合（即query），然后将这些词或短语组合提交到相应的搜索引擎，再由搜索引擎在海量的信息库中检索出与query相关的信息返回给用户；

第二种是大数据推荐，很多时候用户的意图并不是很明确，或者很难用清晰的语义表达，这种情况下搜索就显得捉襟见肘了。尤其是近些年来，随着电子商务的兴起，用户并非一定是带着明确的购买意图去浏览，很多时候是去“逛”的。这种情景下解决信息过载，理解用户意图，为用户推送个性化的结果，推荐系统便是一种比较好的选择。

二、用户数据分类：

行为类别	行为详情
主动行为数据	搜索、筛选、点击、收藏、下单、支付、评分
UGC	文本评价、上传图片
负反馈数据	左滑删除、取消收藏、取消订单、退款、负评、低评
用户画像	用户人口属性、DNA、品类偏好、消费水平、工作地与居住地

1. 用户主动行为：用户在电商平台上不同的环节行为，代表的意图的强弱不同，因此在训练重排序模型时可以针对不同的行为设定不同的回归目标值，以更细地刻画用户的行为强弱程度。此外，用户对item的这些行为还可以作为重排序模型的交叉特征，用于模型的离线训练和在线预测。

2. 通过用户UGC数据：可以提取出一些关键词，然后使用这些关键词给deal打标签，用于deal的个性化展示。

3. 负反馈数据：反映了当前的结果可能在某些方面不能满足用户的需求，因此在后续的候选集触发过程中需要考虑对特定的因素进行过滤或者降权，降低负面因素再次出现的几率，提高用户体验；同时在重排序的模型训练中，负反馈数据可以作为不可多得的负例参与模型训练，这些负例要比那些展示后未点击、未下单的样本显著的多。

4. 用户画像是刻画用户属性的基础数据，其中有些是直接获取的原始数据，有些是经过挖掘的二次加工数据，这些属性一方面可以用于候选集触发过程中对item进行加权或降权，另外一方面可以作为重排序模型中的用户维度特征。

三、推荐算法方案：

1. 协同过滤

主要利用用户基础信息，商品信息，购物车，订单表等进行推荐。算法非常简单，但是要获得更好的效果，通常需要user-based与item-based相结合。

群体/个体	计算代价	适用场景	冷启动	可解释性	实时性
user-based	更依赖于当前用户相近的用户群体的社会化行为	适用于用户数较少的场合	时效性强，用户个性化兴趣不太显著的场合	新加入的物品能很快进入推荐列表	弱	用户新的行为不一定导致推荐结果的变化
item-based	更侧重用户自身的个体行为	适用于物品数较少的场合	长尾物品丰富，用户个性化需求强烈的场合	新加入的用户能很快得到推荐	强	用户新的行为一定导致推荐结果的变化