推荐系统学习笔记（四）--基于向量的召回

--好好学算法--

已于 2024-05-28 17:14:54 修改

阅读量769

点赞数 9

分类专栏：推荐算法文章标签：学习笔记算法

于 2024-05-21 19:54:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44880995/article/details/139100718

版权

推荐算法专栏收录该内容

10 篇文章

订阅专栏

离散特征处理

离散特征：性别，国籍，英文单词，物品id，用户id

处理：

建立字典：eg：china = 1

向量化：eg：one-hot /embedding（低维稠密向量）

one-hot--适合低维度

例如：

性别：男，女

字典：男 = 1，女 = 2

one-hot：

未知[0 , 0]

男 [1 , 0]

女 [0 , 1]

one-hot局限：

例1: nlp中，对单词编码，维度上万

例2：推荐系统中，对物品id编码，上亿笔记

类别数量很大时，不用one-hot

embedding（嵌入）

例子：国籍embeddding

参数数量：向量维度 * 类别数量

embedding ： 4 * 200 = 800

embedding层：参数以矩阵形式保存，大小为：向量维度 * 类别数量

输入：序号，eg：美国序号为2

输出：向量，eg：美国对应参数矩阵第二列

神经网络关键在于embedding层，对它的优化是一个关键点

one-hot和embedding关系

embedding = one-hot * 参数矩阵

矩阵补充（目前不常用）

训练：

用户embedding层，矩阵A，每个用户对应一列

物品embedding层，矩阵B，每个物品对应一列

内积就是第u个用户对第i个商品兴趣的预估值

训练的目的：学习矩阵A和B

数据集：（用户id a，物品id b，真实兴趣分数 y）------>三元组

优化问题： $min\sum (y-<a,b>)^2$

行：用户，列：物品，灰色位置表示未曝光，绿色位置代表分数

为什么叫矩阵补充？

大多数都是灰色的，我们并不知道这些用户对这些物品的兴趣，用绿色的部分训练，得到矩阵AB，将灰色部分补全，补全之后就可以给用户做推荐了

工业界不用

缺点：

1.没有利用物品和用户的属性，仅仅使用了id做embedding

2.负样本选取方式不对：

正样本：曝光后点击

负样本：曝光后未点击（这是一个“想当然”的设计，其实不对，工业界不采用，后面会详细讲如何构造负样本）

3.训练的方法不好，内积不如余弦相似度，平方损失（回归）不如交叉熵损失（分类）判断正负样本

线上服务

模型存储

训练得到的矩阵AB可能会很大，A--用户，B---物品

矩阵A：

存到key-value表，key是用户id，value是A的一列。

矩阵B：

比较复杂

线上服务

1.利用用户id，查找kv表，得到向量a

2.最近邻查找：查找最有可能的k个物品

物品的embedding向量bi，计算内积<a,bi>，返回最大的k个物品

缺点：时间复杂度正比于物品数量，暴力枚举导致无法实时运转。

如何加速

近似最近邻查找

定义标准：余弦相似度最大（常用） or 内积最大 or 欧氏距离小。

如果系统不支持计算余弦相似度：

将向量归一化（二范数等于1），此时计算出的内积就等于余弦相似度。

方法：

1.数据预处理：分成多个区域，每个区域用一个长度为1的单位向量表示，建立索引，向量作为key，点列表作为value，给定一个向量，就可以返回区域内所有点。

如何划分：余弦相似度---扇形，欧氏距离---多边形

2.线上快速找回：用户向量a，与所有单位索引向量对比，计算相似度，找到最相似的，通过索引，找到所有点，再计算所有点的相似度

--好好学算法--

博客等级

码龄6年

79
原创

223
点赞

242
收藏

129
粉丝

关注

私信

热门文章

分类专栏

leetcode刷题 13篇
文献 16篇
推荐算法 10篇
深度学习 6篇
c++ 30篇
代码实战 2篇

展开全部收起

上一篇：: 推荐系统学习笔记（三）

下一篇：: mac双屏时程序坞跑到副屏的解决方法

最新评论

Leetcode 268 火星词典
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Leetcode 268 火星词典
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
c++滑动窗口
CSDN-Ada助手: 恭喜您写了第14篇博客，题为“c++滑动窗口”！看到您持续创作，我感到非常高兴。您对c++滑动窗口的探索和分享无疑为读者提供了宝贵的知识。对于下一步的创作建议，我非常谦虚地提出一些建议。或许您可以探索更多与滑动窗口相关的应用场景，或者深入研究滑动窗口算法的优化方法。相信您的创作会越来越出色，期待您的下一篇博客！
Latex公式
CSDN-Ada助手: 非常恭喜您写了第20篇博客，标题为“Latex公式”！您的持续创作实在令人钦佩。通过您的博客，我对Latex公式有了更深入的了解。您清晰而详尽的解释，使得复杂的数学符号变得易于理解。对于那些像我这样的读者来说，这无疑是一份宝贵的学习资源。在这个基础之上，我希望您能继续分享更多关于数学公式的知识。或许您可以探索一些高级的数学公式应用，或者介绍一些实际问题中的数学建模方法。相信您的创作将为我们带来更多的启发与惊喜。再次感谢您的付出，期待您未来的博客！
Pooling-based Vision Transformer (PiT)
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题“Pooling-based Vision Transformer (PiT)”非常吸引人。您对于Pooling-based Vision Transformer的介绍十分详尽，让我对这个主题有了更深入的了解。我希望您能继续保持创作的热情和努力，为我们带来更多有关计算机视觉和Transformer的精彩内容。在未来的创作中，也许您可以探索一下如何将Pooling-based Vision Transformer应用于实际场景，并分享一些实际案例或者应用心得。期待您的下一篇博客！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。