一、项目流程
1)需求概况:实现目标是什么? ——— 通过大数据获取什么信息
2)需求分析:用什么样的数据,实现什么样的效果。 数据源的考量(数据的种类和量的大小),数据呈现的思考(实时,非实时性)。
2)大概思路:数据来源,数据提取(达到目标),数据输出。 数据来源的种类,数据提取方式,数据输出的方式。
3)具体思考:
1> 数据源:来源类别(日志,数据库,数据仓库,流数据)
数据类型(xml,json,无格式文本)
数据体量(平均量,最小量,峰值量)
数据源的突变情况的处理 ———— 这要与系统设计的模块相结合
2>数据建模:
2.1、 提取前的数据模型:通过数据清洗,达到符合提取前的数据模型
2.2 、提取时的数据模型:提取流程,模型变换依托RDD(拆分,重组,