Day2 - Recommended system design

GF心流

已于 2023-01-29 11:33:54 修改

阅读量76

点赞数 1

分类专栏：推荐系统文章标签：大数据 spark hadoop

于 2022-12-13 23:57:32 首次发布

本文链接：https://blog.csdn.net/weixin_46133588/article/details/128295221

版权

推荐系统专栏收录该内容

7 篇文章 0 订阅

订阅专栏

推荐系统设计

1 推荐系统要素

UI 和 UE(前端界面)
数据 (Lambda架构)
业务知识
算法

2 推荐系统架构

2.1 推荐系统整体架构

在这里插入图片描述

2.2 大数据Lambda架构

由Twitter工程师Nathan Marz(storm项目发起人)提出
Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境和混合平台, 提供一个实时的数据视图
分层架构
- 批处理层
  - 数据不可变, 可进行任何计算, 可水平扩展
  - 高延迟几分钟~几小时(计算量和数据量不同)
  - 日志收集 Flume （不同的数据放到hdfs中，数据搬运的工作）
  - 分布式存储 Hadoop hdfs（磁盘阵列？电脑磁盘串联？）
  - 分布式计算 Hadoop MapReduce & spark（一个P的数据进行排序）
  - 视图存储数据库
    - nosql(HBase/Cassandra)
    - Redis/memcache
    - MySQL
- 实时处理层
  - 流式处理, 持续计算
  - 存储和分析某个窗口期内的数据
  - 最终正确性(Eventual accuracy)
  - 实时数据收集 flume & kafka(消息队列，数据来的太快了，需要排队 )
  - 实时数据分析 spark streaming/storm（twitter）/flink(阿里)
- 服务层
  - 支持随机读
  - 需要在非常短的时间内返回结果
  - 读取批处理层和实时处理层结果并对其归并
Lambda架构图

实时计算是基于离线计算的结果基础上的调整

2.3 离线计算

数据量很大，pb级别
缺点，速度慢，分钟级别延迟
Hadoop，spark core, spark sql
hive

2.4 实时计算

数据量小
响应快，ms级别
spark streaming
strom
flink

2.5 消息中间件

flume 日志采集系统
kafka 消息队列

2.6 存储相关

hbase nosql数据库
hive sql操作hdfs数据

3 推荐算法架构

3.1 召回阶段(海选)

- 召回决定了最终推荐结果的天花板
- 常用算法:
  - 协同过滤(基于用户 基于物品的) memory base
  - 基于内容 (根据用户行为总结出自己的偏好 根据偏好 通过文本挖掘技术找到内容上相似的商品)
  - 基于隐语义

3.2 排序阶段

- 逻辑回归
- 召回决定了最终推荐结果的天花板, 排序逼近这个极限, 决定了最终的推荐效果
- CTR预估 (点击率预估 使用LR算法)  估计用户是否会点击某个商品 需要用户的点击数据

3.3 策略调整

oppo手机的微博不要出现华为的广告、华为充钱了
在这里插入图片描述

3.4 推荐系统的整体架构