数据仓库_01

数据仓库概述在这里插入图片描述

数据输入

数据来源主要分为三个方面:爬虫数据、用户行为数据(可以通过埋点,在日志服务器上进行,最终通过flume将数据同步到数据仓库)、业务数据(通过sqoop将MySQL中的数据同步到hive)

数据分析

数据仓库将数据备份在ODS当中,DWD完成数据的清洗,DWS/DWT大多数聚合join数据,ADS为报表层

数据输出

  • 报表系统:条形图、折线图、饼图
  • 用户画像系统:用户打标签(为推荐系统做铺垫)分为三个标签:统计类、规则类、机器学习类标签
  • 推荐系统
  • 机器学习:包括推荐系统

需求分析

  • 用户行为数据的采集平台的搭建
  • 业务数据采集平台搭建
  • 数据仓库维度建模(核心)
    在这里插入图片描述

技术选型

技术选型需要主要考虑的因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值