最近开始上手一个大数据离线数仓项目。本篇博客先为大家进行一个总体的介绍,包括各个阶段的任务以及项目的简介,环境,需求等等…
码字不易,先赞后看 !
总体介绍
阶段一
了解行业背景、了解项目背景,项目架构介绍、技术选型,项目环境(数据/硬件)介绍,项目ER图、项目需求介绍。
基于项目需求实现查询功能(写SQL)或整理出查询流程。
阶段二
学习、掌握kettle的使用、使用kettle将项目需求所需的数据在MySQL同步到Hive。
使用sqoop,将剩余的数据在MySQL同步到Hive。
阶段三
学习数据仓库理论知识、创建数据仓库,并导入数据。
解决数据缓慢变化维问题。
阶段四
编写SQL实现以下业务分析,并按照数据仓库结构存出结果
基于日期的订单指标分析(4)
基于地域的订单分类指标分析(18)
基于用户的订单指标分析(24)
基于用户的退货指标分析(5)
阶段五
学习、掌握kylin的使用,使用kylin,为数据仓库内的数据进行预计算
阶段六
用户浏览记录整理分析(点击流)