推荐系统基础（一）_客户特征向量化-CSDN博客

本文链接：https://blog.csdn.net/weixin_47082769/article/details/125638417

一、综述

为用户推荐可能喜欢的标的物，这个过程涉及用户，标的物两个因素

根据用户与标的物不同关联形式生成不同的推荐产品形态，即所谓的范式（某种相似性质的对象集合）

标的物具备很多的文本特征：eg标签、描述信息、metadata等，将文本信息采用TF-IDF、或者LDA算法转化为特征向量，如果使用标签描述标的物，就可以构建一个以标签为特征的特征向量
有了特征向量，就可以将用户所有操作过的标的物的特征向量（时间加权）平均作为用户的特征向量，利用用户特征向量与标的物的特征向量的余弦（向量的内积运算）计算用户与标的物相似度，从而计算出用户的推荐列表

#####a）种类

先将用户对标的物的评分（隐式反馈，eg点击等）构建一个矩阵，矩阵的某个元素代表某个用户对某个标的物的评分（隐式反馈值为1，如果某个用户对某个标的物未产生行为，值为0）
行向量是某个用户对所有标的物的评分向量，列向量是所有用户对某个标的物的评分向量
计算用户与用户、标的物与标的物之间的相似度（行向量之间的相似度就是用户之间的相似度；列向量之间的相似度就是标的物之间的相似度）————（可以采用余弦相似度算法）

（矩阵分解）预测标的物的评分，利用评分高低表示对标的物的偏好程度
- 将用户评分矩阵分解为两个矩阵U、V的乘积
  - U代表用户特征矩阵，U对应的行（就是用户的特征向量）
  - V代表标的物特征矩阵，V对应的列（就是该标的物的特征向量）
（logistic回归）利用概率的思路，预测用户对标的物的喜好概率，利用概率值的大小来横向衡量用户对标的物的喜好程度
（深度学习）采用分类的思路，将每个标的物看成一类，通过预测用户“消费”的几个标的物所属类别来做推荐

将用户分组（根据兴趣，将兴趣相似的归为一组，并为每组用户提供一个性化的推荐列表）

基于用户的人口统计学数据或用户行为数据构建用户画像

基于内容推荐的思路
- 构建用户的特征向量（TF-IDF、LDA、标签等），该类所有用户的特征向量加权平均就是该类用户的特征向量
- 利用群组特征向量与标的物特征向量的内积来计算群组与标的物的相似度。为该群组做个性胡推荐
基于用户的协同过滤思路
- 构建用户与标的物的行为矩阵，矩阵元素就是用户对标的物的评分
- 原理
  - 先将该组用户所有的特征向量求均值，可以取k个最大的特征向量，其他特征向量忽略不计（设置为0）得到改组用户的特征向量
  - 利用矩阵分解得到每个用户的特征向量
  - 最后就可以基于用户协同过滤的思路为该组用户计算推荐列表
基于词嵌入的方式
- 将每个用户对标的物的所有操作（购买、观看等）看成一个文档集合，标的物的唯一标志符（id）就是一个单词
- 类似word2vec方式获得标的物的向量

为每个标的物关联一组相关或者相似的标的物，作为用户在访问标的物详情页的推荐，每个用户看到的关联推荐标的物一样

矩阵分解算法
- 将用户的行为矩阵分解为用户特征矩阵和物品特征矩阵，物品特征矩阵的某一列可以看成衡量这对物品的一个向量
嵌入方法
- 用户的所有行为看成一个文档，每个标的物可以看成一个词，用word2vec的思路，最终训练每个词（标的物）的向量表示，利用向量来计算标的物之间的相似度
- 将用户对标的物的所有操作行为投射到一个二维表，行是用户，列是标的物，表中元素就是用户对该标的物的操作
购物篮思路——电商、图书推荐
- 经常一起购买（浏览）的标的物形成一个列表，过去一段时间所有的购物篮构成一个集合
- 统计完该次数之后，将次数按降序排列，这个列表就可以当做标的物的关联推荐