推荐系统
浩波的笔记
微信公众号:浩波的笔记
展开
-
2020-12-03
前言读取数据此次比赛是新闻推荐场景下的用户行为预测挑战赛, 是Datawhale与天池联合举办,该赛题是以新闻APP中的新闻推荐为背景, 目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章, 这道赛题的设计初衷是引导大家了解推荐系统中的一些业务背景, 解决实际问题!赛题链接: 零基础入门推荐系统 - 新闻推荐对于刚接触推荐系统同学推荐先浏览以下基础知识:推荐系统摘要推荐系统知识梳理——协同过滤推荐系统知识梳理——矩阵分解推荐系统原创 2020-12-03 22:58:50 · 237 阅读 · 0 评论 -
天池-新闻推荐-多路召回
登录欢迎使用有问题请及时反馈,请将各位的昵称改为微信名或者网名,方便沟通谢谢。Task03 天池新闻推荐入门赛之【多路召回】组队学习推荐系统实践(新闻推荐)ryluo911 天多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效原创 2020-12-01 13:48:32 · 443 阅读 · 0 评论 -
推荐系统知识梳理——GBDT&LR
1. GBDT+LR简介前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。 而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型, 该模型利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模型的输入, 来产生最后的预测结果, 该模型能够综合利用用户、物品和上下文等多种不同的特征, 生成较为全面的推荐结果, 在CTR点击率预估场景下使原创 2020-10-30 23:54:27 · 491 阅读 · 0 评论 -
推荐系统知识梳理——Wide&Deep
1. 点击率预估简介点击率预估是用来解决什么问题?点击率预估是对每次广告点击情况作出预测,可以输出点击或者不点击,也可以输出该次点击的概率,后者有时候也称为pClick.点击率预估模型需要做什么?通过上述点击率预估的基本概念,我们会发现其实点击率预估问题就是一个二分类的问题,在机器学习中可以使用逻辑回归作为模型的输出,其输出的就是一个概率值,我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。点击率预估与推荐算法有什么不同?广告点击率预估是需要得到某个用户对某个广告的点击率,然后原创 2020-10-27 23:30:34 · 432 阅读 · 0 评论 -
推荐系统知识梳理——FM
1. FM模型的引入1.1 逻辑回归模型及其缺点FM模型其实是一种思路,具体的应用稍少。一般来说做推荐CTR预估时最简单的思路就是将特征做线性组合(逻辑回归LR),传入sigmoid中得到一个概率值,本质上这就是一个线性模型,因为sigmoid是单调增函数不会改变里面的线性模型的CTR预测顺序,因此逻辑回归模型效果会比较差。也就是LR的缺点有:是一个线性模型每个特征对最终输出结果独立,需要手动特征交叉(xi∗xjx_i*x_jxi∗xj),比较麻烦1.2 二阶交叉项的考虑及改进由于LR模原创 2020-10-27 21:05:52 · 530 阅读 · 0 评论 -
推荐系统知识梳理——矩阵分解
隐语义模型与矩阵分解协同过滤算法的特点就是完全没有利用到物品本身或者是用户自身的属性, 仅仅利用了用户与物品的交互信息就可以实现推荐,是一个可解释性很强, 非常直观的模型, 但是也存在一些问题, 第一个就是处理稀疏矩阵的能力比较弱, 所以为了使得协同过滤更好处理稀疏矩阵问题, 增强泛化能力, 从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型, 两者差不多说的一个意思, 就是在协同过滤共现矩阵的基础上, 使用更稠密的隐向量表示用户和物品, 挖掘用户和物品的隐含原创 2020-10-25 22:53:55 · 1079 阅读 · 0 评论 -
推荐系统知识梳理——协同过滤
协同过滤算法协同过滤(Collaborative Filtering)推荐算法是最经典、最常用的推荐算法。所谓协同过滤, 基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向, 并预测用户可能喜好的产品进行推荐),一般是仅仅基于用户的行为数据(评价、购买、下载等), 而不依赖于项的任何附加信息(物品自身特征)或者用户的任何附加信息(年龄, 性别等)。目前应用比较广泛的协同过滤算法是基于邻域的方法, 而这种方法主要有下面两种算法:基于原创 2020-10-22 23:48:14 · 714 阅读 · 1 评论 -
推荐系统摘要
本次是参加datawhale的打卡活动,大家有任何疑问欢迎一起讨论!之前也有写过一篇推荐系统概述文章,大家可以康康:个性化推荐算法(推荐系统)概要传统推荐系统及深度学习推荐系统的演化关系图(图来自《深度学习推荐系统》)传统推荐系统深度学习推荐系统核心内容:协同过滤算法: 包括基于用户的协同过滤(UserCF)和基于商品的协同过滤(ItemCF),这是入门推荐系统的人必看的内容,因为这些算法可以让初学者更加容易的理解推荐算法的思想。矩阵分解算法: 矩阵分解算法通过引入了隐向量的原创 2020-10-18 23:42:11 · 960 阅读 · 1 评论 -
基于模型协同过滤推荐离线召回:ALS
召回与排序业务流程als(alternative least square),即交替最小二乘法,是用于计算损失函数最小化的一种方法,当然更为熟知的还有随机梯度下降法。再正式介绍als之前,需要先引入矩阵分解的思想。假定已有user对item的评分矩阵R,希望通过矩阵分解来预测user对其它item的评分,可以通过构造两个矩阵P和Q,使得R~=PQT\tilde{R}=P Q^{T}R~=PQT然后通过不断迭代,来使R~\tilde{R}R~不断逼近 R 的值。在这里,P代表user的特征矩阵原创 2020-08-14 16:06:50 · 606 阅读 · 0 评论 -
局部敏感哈希(LSH)
一. 近邻搜索局部敏感哈希,英文locality-sensetive hashing,常简称为LSH。局部敏感哈希在部分中文文献中也会被称做位置敏感哈希。LSH是一种哈希算法,最早在1998年由Indyk在上提出。不同于我们在数据结构教材中对哈希算法的认识,哈希最开始是为了减少冲突方便快速增删改查,在这里LSH恰恰相反,它利用的正式哈希冲突加速检索,并且效果极其明显。LSH主要运用到高维海量数据的快速近似查找。近似查找便是比较数据点之间的距离或者是相似度。因此,很明显,LSH是向量空间模型下的东西。一切原创 2020-08-06 23:49:35 · 8728 阅读 · 0 评论 -
离线排序——LR模型
排序流程包括离线排序和在线排序:离线排序读取前天(第 T - 2 天)之前的用户行为数据作为训练集,对离线模型进行训练;训练完成后,读取昨天(第 T - 1 天)的用户行为数据作为验证集进行预测,根据预测结果对离线模型进行评估;若评估通过,当天(第 T 天)即可将离线模型更新到定时任务中,定时执行预测任务;明天(第 T + 1 天)就能根据今天的用户行为数据来观察更新后离线模型的预测效果。(注意:数据生产有一天时间差,第 T 天生成第 T - 1 天的数据)在线排序读取前天(第 T - 2 天)之前原创 2020-07-25 20:50:30 · 868 阅读 · 0 评论 -
推荐系统——Item2vec
一、背景推荐系统中,传统的CF算法都是利用 item2item 关系计算商品间相似性。i2i数据在业界的推荐系统中起着非常重要的作用。传统的i2i的主要计算方法分两类,memory-based和model-based。本文主要介绍了microsoft和airbnb两大公司如何将embedding技术应用于推荐/搜索业务。实践证明,embedding技术对于工业场景来说有着很大的价值和应用前景。首先先了解一下word2vec,不太清楚朋友可以转补到NLP–Word2Vec详解二. Item Embe原创 2020-06-03 18:40:44 · 4834 阅读 · 0 评论 -
Personal Rank——个性化推荐召回算法python
慕课推荐系统笔记1、个性化召回算法Personal Rank背景与物理意义1、首先介绍基于图的个性化召回算法—personal rank的背景。(1)用户行为很容易表示为图图这种数据结构有两个基本的概念—顶点和边。在实际的个性化推荐系统中,无论是信息流场景、电商场景或者是O2O场景,用户无论是点击、购买、分享、评论等等的行为都是在user和item两个顶点之间搭起了一条连接边,构成了图的基本要素。实际上这里user与item构成的图是二分图,后面会介绍二分图的概念以及结合具体的例子展示如何将用户原创 2020-06-01 09:56:01 · 743 阅读 · 0 评论 -
LFM算法——推荐系统
在日常生活中,人们实际上经常使用这种方法,如你哪天突然想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,最近有什么好看的电影,而我们一般更倾向于从兴趣或观点相近的朋友那里得到推荐。这就是协同过滤的思想LFM(latent factor model 隐语义模型)算法背景https://www.cnblogs.com/ventlam/p/6296255.html,这里有详细介绍https://blog.csdn.net/codes_first/article/details/807原创 2020-05-31 22:03:42 · 2618 阅读 · 0 评论 -
CF——推荐算法
推荐算法首先要介绍的一定是协同过滤算法了(collaborative filtering,CF),CF算法的汇总的是所有的<user,item>行为对,有点像朋友推荐,比如用户A和用户B都喜欢差不多的东西(item相似),用户B喜欢某样东西,但是用户A还没有喜欢,那么此时就将用户B喜欢的item推荐给用户A。(User-Based CF),还有一种协同推荐,即对比数据(item),发现itemA和itemB类似(即被差不多的users喜欢),就把某user的所有喜欢的item的类似item过滤原创 2020-05-29 10:05:55 · 1182 阅读 · 1 评论 -
个性化推荐算法(推荐系统)概要
读者读完本文后,你会知道每类范式常用的算法有哪些、实现的思路是什么、以及常用的应用场景。本文也可以作为读者落地推荐算法到真实推荐场景的参考指南。一、推荐算法与产品介绍什么是推荐系统?在介绍推荐算法之前需要先介绍一下什么是信息过载。信息过载就是信息的数量远超于人手工可以遍历的数量。比如,当你没有目的性的去逛超市,你不可能把所有的商品都看一遍都有什么。同样,无论是去书店看书,还是在电影网站上搜索电影,这些物品的量级对于没有目的性、需求性的用户而言都是信息过载。那么什么是推荐系统呢?就是当用户的目的不原创 2020-05-16 19:59:38 · 16310 阅读 · 0 评论