数据仓库概述![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/10803a00698f7f066ffc0ebc07912478.png)
数据输入
数据来源主要分为三个方面:爬虫数据、用户行为数据(可以通过埋点,在日志服务器上进行,最终通过flume将数据同步到数据仓库)、业务数据(通过sqoop将MySQL中的数据同步到hive)
数据分析
数据仓库将数据备份在ODS当中,DWD完成数据的清洗,DWS/DWT大多数聚合join数据,ADS为报表层
数据输出
- 报表系统:条形图、折线图、饼图
- 用户画像系统:用户打标签(为推荐系统做铺垫)分为三个标签:统计类、规则类、机器学习类标签
- 推荐系统
- 机器学习:包括推荐系统
需求分析
- 用户行为数据的采集平台的搭建
- 业务数据采集平台搭建
- 数据仓库维度建模(核心)
技术选型
技术选型需要主要考虑的因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。