个性化推荐系统
文章平均质量分 87
个性化推荐系统
あずにゃん
日萌社
展开
-
Word2Vec与文章相似度
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.7 Word2Vec与文章相似度学习目标目标 知道文章向量计算方式 了解Word2Vec模型原理 知道文章相似度计算方式 应用 应用Spark完成文章相似度计算 2.7.1 文章相似度 在我们的头条推荐中有很多地方需要推荐相似文章,包括首页频道可以推荐相似的文章,详情页猜你喜欢 需求 首页频道推荐:每个频道推荐的时原创 2021-06-26 20:49:39 · 1763 阅读 · 0 评论 -
排序模块:泛娱乐特征工程与模型代码构建
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.2 泛娱乐特征工程与模型代码构建学习目标目标 说明泛娱乐推荐系统的特征工程过程 应用 应用完成泛娱乐推荐系统Wide&Deep模型的构建 3.2.1 特征工程3.2.1.1 定义正负样本根据模型最终的预测要求:使用户产生更多的交互行为, 来定义正负样本 正样本定义: 若用户A对帖子B产生交互行为, 则A的所有特征和B的所有特原创 2020-06-26 22:59:34 · 452 阅读 · 1 评论 -
排序模块:模型选择与原理
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.1 模型选择与原理学习目标目标 了解推荐系统CTR模型的发展历史 说明Wide&Deep模型的结构以及原理 了解TF Wide&Deep模型的接口设置和使用 应用 无 3.1.1 CTR模型发展历史3.1.1.1 传统CTR模型发展历史2012左右之后,各大中小公司的主流CTR模型无一例外全都是LR模.原创 2020-06-26 22:59:00 · 1967 阅读 · 0 评论 -
召回模块:用户推荐逻辑完善
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.6 用户推荐逻辑完善学习目标目标 了解用户推荐缓存获取逻辑 知道用户行为数据读取操作 应用 应用完成用户推荐缓存获取代码 应用完成用户行为数据neo4j行为读写操作 2.6.1 用户推荐缓存获取之前提供了一个这样的接口,用户获取用户缓存结果推荐出去,这里会用到用户的IP进行判断get_cache根据用户请求,获取用户缓存结果原创 2020-06-26 22:50:50 · 459 阅读 · 0 评论 -
召回模块:规则过滤器
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.5 规则过滤器学习目标目标 了解规则过滤器的作用 应用 无 2.5.1 规则过滤器什么是规则过滤器:为了保证推荐内容的多样性, 合理性, 每次的推荐内容会在内部和上次数据间做一些比较和过滤操作 规则过滤器作用:防止推荐数据重复, 并可按照指定规则选择性推荐,过滤掉不同用户发表的相同的帖子(帖子ID不一样,内容相似或者相同) 如何比较.原创 2020-06-26 22:50:26 · 422 阅读 · 0 评论 -
召回模块:召回金字塔
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.4 召回金字塔学习目标目标 知道召回金字塔的作用 应用 应用完成召回金字塔的实现 2.4.1 召回金字塔2.4.1.1 为什么用召回金字塔因为考虑到计算资源在数据变动时的滞后性,以及如何满足个别用户快速消费的需求, 我们引入召回金字塔模型, 并为每一位用户维护一组该模型。过程如下满足公共召回策略帖子构成"金字塔"的底层,满足个原创 2020-06-26 22:49:30 · 416 阅读 · 0 评论 -
召回模块:多召回策略
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.3 多召回策略学习目标目标 知道多召回策略的设计 应用 应用完成用户多召回策略实现 2.3.1 召回模块召回模块作用: 针对当前用户尽可能多的覆盖其喜好而进行帖子的筛选。 召回模块组成: 召回模块包括, ETL模块, 召回池(包含各种召回策略), 召回池二级缓存, 规则过滤器服务。 ETL模块计算技术解决方案: 使用AWS弹性云计算服原创 2020-06-26 22:48:58 · 1020 阅读 · 0 评论 -
召回模块:构建双画像(用户画像和物品画像)
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.2 泛娱乐画像图谱存储学习目标目标 知道双画像的设计 应用 应用完成用户与帖子标签的数据库导入 2.2.1 画像图谱存储前面介绍的Web业务当中,需要进行实时推荐,那么我们需要从neo4j图谱数据中找到某个用户的推荐结果推荐出去。所以我们会把产品中历史的所有用户、帖子以及它们之间的关系进行导入到neo4j中。用户、帖子的标签当做neo原创 2020-06-26 22:47:04 · 1071 阅读 · 0 评论 -
召回模块:Web接口业务流介绍
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.1 Web接口业务流介绍学习目标目标 知道用户推荐接口运行流程 应用 无 2.1.1 Web端环境启动我们这里使用supervisor进程管理工具进行管理Web服务的启动,nginx+uwsgi(django)是web端的服务解决方案2.1.1.1 supervisor启动配置supervisor要启动的进程服务:3个服务1、原创 2020-06-26 22:45:02 · 374 阅读 · 0 评论 -
泛娱乐推荐系统
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.1 产品概述学习目标目标 了解泛娱乐推荐系统产品 应用 无 1.1.1 产品概述产品定位:一款专为粉丝打造的粉丝追星服务平台,让粉丝轻轻松松即时了解爱豆微博、Instagram、Facebook、Twitter等社交动态信息,守护自家idol(爱豆)的社交类产品产品功能:包含了明星动态,明星行程,饭圈动态等,为用户推荐他们喜.原创 2021-06-26 20:49:43 · 516 阅读 · 3 评论 -
排序模型在线测试
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)7. 8 排序模型在线测试学习目标目标 无 应用 应用TensorFlow Serving apis完成在线模型的获取排序测试 7.8.1 排序模型在线预测添加目的:编写tf serving客户端程序调用serving模型服务,进行在线预测测试 步骤: 1、用户特征与文章特征合并 2、serving服务端的example样本结构构造原创 2021-06-26 20:50:05 · 390 阅读 · 1 评论 -
WDL模型导出
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)8.9 WDL模型导出学习目标目标 无 应用 无 8.9.1 线上预估线上流量是模型效果的试金石。离线训练好的模型只有参与到线上真实流量预估,才能发挥其价值。在演化的过程中,适应TFserving,提高了模型迭代的效率。基于TF Serving的模型服务TF Serving是TensorFlow官方提供的一套用于在线实时预估的框架。它原创 2021-06-26 20:50:12 · 324 阅读 · 1 评论 -
排序模型进阶-Wide&Deep
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)8.5 排序模型进阶-Wide&Deep学习目标目标 无 应用 无 8.5.1 wide&deepWide部分的输入特征: 离散特征 离散特征之间做组合 不输入有连续值特征的,在W&D的paper里面是这样使用的。 Deep部分的输入特征: raw input+embeding处理原创 2021-06-26 20:50:15 · 498 阅读 · 1 评论 -
深度学习CTR排序模型
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)8.5 深度学习CTR排序模型学习目标目标 知道深度学习排序模型的发展特点 应用 无 8.5.1 深度学习CTR模型的前夜2010年FM被提出,特征交叉的概念被引入CTR模型;2012年MLR在阿里大规模应用,其结构十分接近三层神经网络;2014年Facebook用GBDT处理特征,揭开了特征工程模型化的篇章。这些概念都将在深度学习CTR模型原创 2021-06-28 10:23:51 · 674 阅读 · 0 评论 -
排序模型进阶-FM&FTRL
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.8 排序模型进阶-FM&FTRL学习目标目标 无 应用 无 5.8.1 问题在实际项目的时候,经常会遇到训练数据非常大导致一些算法实际上不能操作的问题。比如在推荐行业中,因为请求数据量特别大,一个星期的数据往往有上百G,这种级别的数据在训练的时候,直接套用一些算法框架是没办法训练的,基本上在特征工程的阶段就一筹莫展。5.8.2原创 2021-06-28 10:23:58 · 725 阅读 · 0 评论 -
分桶与特征交叉
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)8.6 分桶与特征交叉学习目标目标 了解分桶方式和作用 应用 无 8.6.1 通过分桶将连续特征变成类别特征有时,连续特征与标签不是线性关系。例如,年龄和收入 - 一个人的收入在其职业生涯早期阶段会增长,然后在某一阶段,增长速度减慢,最后,在退休后减少。在这种情况下,使用原始age作为实值特征列也许并非理想之选,因为模型只能学习以下三种情..原创 2021-06-28 10:24:00 · 694 阅读 · 0 评论 -
传统CTR排序模型
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)8.5 传统CTR排序模型学习目标目标 了解深度学习排序模型的发展 应用 无 8.5.1 传统CTR模型发展衍生图CTR/CVR预估经历了从传统机器学习模型到深度学习模型的过渡。下面先介绍下传统机器学习模型。然后再详细介绍在深度学习模型的迭代。为了解决特征交叉的问题,演化出PLOY2,FM,FFM等模型; 使用模型化、自动化的手段解原创 2021-06-28 10:24:04 · 810 阅读 · 0 评论 -
TFRecords与训练数据存储
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)8.1 TFRecords与训练数据存储学习目标目标 说明深度学习样本流程实践 说明Example的结构 应用 应用TF保存Spark构建的样本到TFRecords文件 8.1.1 深度学习训练样本流程实践Spark原始数据整合 -> Spark/TF生成TFRecord -> TF数据并行训练 -> TensorFlo原创 2021-06-28 10:24:09 · 741 阅读 · 0 评论 -
tf.estimator使用入门
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)6.6 tf.estimator使用入门学习目标目标 知道tf.estimator的使用流程 了解什么是premade estimator 应用 应用tf.estimator完成美国普查数据的二分类 6.6.1 tf.estimator介绍TensorFlow 中的tf.estimatorAPI 封装了基础的机器学习模型。Estima..原创 2021-07-01 16:42:16 · 819 阅读 · 0 评论 -
TFAPI使用2.0建议
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.5 TFAPI使用2.0建议学习目标目标 无 应用 无 2.5.2 TF2.0最新架构图饱受诟病TF1.0的API混乱 删除 queue runner 以支持 tf.data。 删除图形集合。 API 符号的移动和重命名。 tf.contrib 将从核心 TensorFlow 存储库和构建过程中移除 TensorFlow原创 2021-07-01 16:42:22 · 323 阅读 · 0 评论 -
案例:实现线性回归
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)2.4 案例:实现线性回归学习目标目标 应用op的name参数实现op的名字修改 应用variable_scope实现图程序作用域的添加 应用scalar或histogram实现张量值的跟踪显示 应用merge_all实现张量值的合并 应用add_summary实现张量值写入文件 应用tf.train.saver实现TensorFlow的原创 2021-07-01 16:42:25 · 489 阅读 · 0 评论 -
推荐系统与深度学习关联
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)6.1 推荐系统与深度学习关联学习目标目标 无 应用 无 6.1.1 深度学习到推荐系统深度学习发展成功与局限最近几年深度学习的流行,大家一般认为是从2012年 AlexNet 在图像识别领域的成功作为一个里程碑。AlexNet 提升了整个业界对机器学习的接受程度:以前很多机器学习算法都处在“差不多能做 demo ”的程度,但是 Alex原创 2021-07-01 16:42:47 · 462 阅读 · 0 评论 -
排序模型在线预测
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.7 排序模型在线预测学习目标目标 无 应用 应用spark完成 5.7.1排序模型服务提供多种不同模型排序逻辑 SPARK LR/Tensorflow 5.7.2 排序模型在线预测召回之后的文章结果进行排序 步骤: 1、读取用户特征中心特征 2、读取文章特征中心特征、合并用户文章特征构造预测样本 4、预测并进行排序是原创 2021-07-01 16:42:50 · 481 阅读 · 0 评论 -
离线ctr特征中心更新
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.8 离线ctr特征中心更新学习目标目标 了解特征服务中心的作用 应用 无 3.8.1 特征服务中心特征服务中心可以作为离线计算用户与文章的高级特征,充当着重要的角色。可以为程序提供快速的特征处理与特征结果,而且不仅仅提供给离线使用。还可以作为实时的特征供其他场景读取进行原则是:用户,文章能用到的特征都进行处理进...原创 2021-07-01 16:42:59 · 391 阅读 · 0 评论 -
离线排序模型训练
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.6 离线排序模型训练学习目标目标 了解文章CTR预估主要作用 知道常见点击率预测的种类和模型 知道常见CTR中特征处理方式 应用 应用spark lr完成模型训练预测评估 3.6.1 离线排序模型-CTR预估 CTR(Click-Through Rate)预估:给定一个Item,预测该Item会被点击的概率 离线的模型训练:原创 2021-07-02 09:35:39 · 563 阅读 · 0 评论 -
推荐缓存服务
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.6 推荐缓存服务学习目标目标 无 应用 无 5.6.1 待推荐结果的redis缓存目的:对待推荐结果进行二级缓存,多级缓存减少数据库读取压力 缓存存储:redis:'reco:{}:{}art' ,对应某个用户,某个频道的缓存结果 步骤: 1、获取redis结果,进行判断 如果redis有,读取需要推荐的文章数量放回,并删除这些原创 2021-07-02 09:34:30 · 305 阅读 · 0 评论 -
召回集读取与推荐中心对接
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.5 召回集读取与推荐中心对接学习目标目标 无 应用 无 5.5.1 召回集读取服务召回读取服务 添加一个召回集的结果读取服务recall_service.py 5.5.2 多路召回结果读取 目的:读取离线和在线存储的召回结果 hbase的存储:cb_recall, als, content, online 步骤:原创 2021-07-02 09:34:39 · 1318 阅读 · 1 评论 -
推荐中心逻辑
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.4 推荐中心逻辑学习目标目标 无 应用 无 5.4.1 推荐中心推荐中一般作为整体召回结果读取与排序模型进行排序过程的作用,主要是产生推荐结果的部分。推荐目录server目录为整个推荐中心建立的目录 recall_service.:召回数据读取目录 reco_centor:推荐中心逻辑代码 redis_cache:.原创 2021-07-02 09:34:47 · 404 阅读 · 0 评论 -
ABTest实验中心
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.3 ABTest实验中心学习目标目标 无 应用 无 个性化推荐系统、搜索引擎、广告系统,这些系统都需要在线上不断上线,不断优化,优化之后怎么确定是好是坏。这时就需要ABTest来确定,最近想的办法、优化的算法、优化的逻辑数据是正向的,是有意义的,是提升数据效果的。5.3.1 ABTest有几个重要的功能 一个是ABTest实时分原创 2021-07-02 09:34:51 · 442 阅读 · 0 评论 -
grpc接口对接
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.2 grpc接口对接学习目标目标 无 应用 无 5.2.1 头条推荐接口对接 请求参数: feed流推荐:用户ID,频道ID,推荐文章数量,请求推荐时间戳 相似文章获取:文章ID,推荐文章数量 返回参数: feed流推荐:曝光参数,每篇文章的所有行为参数,上一条时间戳 # 埋点参数参考:#原创 2021-07-02 09:34:58 · 796 阅读 · 1 评论 -
实时推荐业务介绍
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.1 实时推荐业务介绍学习目标目标 无 应用 无 5.1.1 实时推荐逻辑 逻辑流程 1、后端发送推荐请求,实时推荐系统拿到请求参数 grpc对接 2、根据用户进行ABTest分流 ABTest实验中心,用于进行分流任务,方便测试调整不同的模型上线 3、推荐中心服务 根据用户在ABTest分配的算.原创 2021-07-02 09:35:02 · 443 阅读 · 0 评论 -
热门与新文章召回
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.6 热门与新文章召回学习目标目标 了解热门与新文章召回作用 应用 应用spark streaming完成召回创建 4.6.1 热门文章与新文章热门文章通过对日志数据的处理,来实时增加文章的点击次数等信息 新文章由头条后台审核通过的文章传入kafka redis:10 新文章召回 结构 示例 new_a原创 2021-07-02 09:35:10 · 235 阅读 · 0 评论 -
实时召回集业务
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.5 实时召回集业务学习目标目标 实时内容召回的作用 应用 应用spark streaming完成实时召回集的创建 4.5.1 实时召回实现实时召回会用基于画像相似的文章推荐创建online文件夹,建立在线实时处理程序目的:对用户日志进行处理,实时达到求出相似文章,放入用户召回集合中 步骤: 1、配置spark streamin原创 2021-07-02 09:35:14 · 331 阅读 · 0 评论 -
实时计算业务介绍
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.1 实时计算业务介绍学习目标目标 了解实时流计算 了解实时计算的业务需求 知道实时计算的作用 应用 无 随着移动设备、物联网设备的持续增长,流式数据呈现了爆发式增长,同时,越来越多的业务场景对数据处理的实时性有了更高的要求,基于离线批量计算的数据处理平台已经无法满足海量数据的实时处理需求,在这个背景下,各种实时流处理平台应运而生。原创 2021-07-04 12:07:07 · 440 阅读 · 0 评论 -
离线用户召回定时更新
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.6 离线用户召回定时更新学习目标目标 知道离线内容召回的概念 知道如何进行内容召回计算存储规则 应用 应用spark完成离线用户基于内容的协同过滤推荐 3.6.1 定时更新代码完整代码import osimport sys# 如果当前代码文件运行测试需要加入修改路径,否则后面的导包出现问题BASE_DIR = os.p.原创 2021-07-04 12:07:10 · 314 阅读 · 1 评论 -
离线用户基于内容召回集
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.5 离线用户基于内容召回集学习目标目标 知道离线内容召回的概念 知道如何进行内容召回计算存储规则 应用 应用spark完成离线用户基于内容的协同过滤推荐 3.5.1 基于内容召回实现基于Item协同过滤与基于内容协同过滤区别:基于物品的协同过滤: 用户喜欢的东西,然后从剩下的物品中找到和他历史兴趣近似的物品推荐给他,核心是要通过两原创 2021-07-04 12:07:13 · 316 阅读 · 1 评论 -
召回表设计与模型召回、 离线用户基于模型召回集
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.4 召回表设计与模型召回学习目标目标 知道ALS模型推荐API使用 知道StringIndexer的使用 应用 应用spark完成离线用户基于模型的协同过滤推荐 3.4.1 召回表设计我们的召回方式有很多种,多路召回结果存储模型召回与内容召回的结果需要进行相应频道推荐合并。方案:基于模型与基于内容的召回结果存入同一张表,避免多张表原创 2021-07-04 12:07:16 · 634 阅读 · 0 评论 -
离线召回与排序介绍
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.3 离线召回与排序介绍学习目标目标 了解大数据推荐离线在线的特点 说明召回模块与排序模块的设计、作用 知道头条推荐召回排序设计 应用 无 召回与排序业务流程3.3.1 大数据的离线与在线架构关于整套大数据实时推荐的离线与在线部分解释:计算方式 特点 任务 举例 缺点 框架 离线原创 2021-07-04 12:07:20 · 606 阅读 · 0 评论 -
用户画像计算更新
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.1 用户画像计算更新学习目标业务流程图:3.1.1 为什么要进行用户画像要做精准推送同样可以使用多种推荐算法,例如:基于用户协同推荐、基于内容协同的推荐等其他的推荐方式,但是以上方式多是基于相似进行推荐。而构建用户画像,不仅可以满足根据分析用户进行推荐,更可以运用在全APP所有功能上。建立用户画像确实是一个一劳多得的事情,不仅可以运用.原创 2021-07-04 12:07:23 · 591 阅读 · 1 评论 -
用户行为数据处理与画像计算
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)3.2 用户行为数据处理与画像计算学习目标目标 知道用户行为日志的处理过程 知道用户画像标签权重的计算公式 知道用户画像的HBase存储与Hive关联 应用 应用Spark完成用户画像的增量定时更新 3.2.1 增量用户行为日志处理这里我们对用户画像更新的频率,目的:首先对用户基础行为日志进行处理过滤,解析参数,从user_act原创 2021-07-04 12:07:41 · 1046 阅读 · 1 评论