目录
项目的需求分为一下几点:
- 用户行为数据采集的平台搭建
- 业务数据采集的平台搭建
- 数据仓库的维度建模
- 分析、设备、会员、商品、地区、活动等电商核心主题、统计的报表指标近100个
- 采用即系查询工具、随时进行指标分析
- 对集群进行监控、发生异常时报警
- 元数据管理
- 质量监控
技术选型:
- 数据采集传输:flume,kafka,sqoop,datax
- 数据存储:mysql,hdfs.hbase,redis
- 数据计算:hive,spark,flink
- 数据查询:presto,kylin
- 数据可视化:superset,datav,Echarts
- 任务调度:azkaban
- 元数据管理:atlas
主要需求技术:
flume:大数据领域被广泛使用的日志采集框架;
JDK:java程序开发的工具包
Zookeeper:是一个分布式,开源的分布式应用程序协调服务
Mysql:是关系型数据库管理系统
Spark:大数据计算框架,是一种基于内存计算的框架,是一种通用的大数据快速处理引擎
Hbase:是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库
Linux选择Centenos7
jdk选择jdk1.8
Hadoop选择Hadoop3.1.3
zookeeper选择 apache-zookeeper-3.5.7-bin.tar.gz
Hive 选择apche-hive-3.1.2-bin.tar.gz
Flume选择apche-flume-1.9.0-bin.tar.gz
Kafka选择kafka_2.11-2.4.1.gz
spark选择apache-spark-3.0.0-bin.tar.gz