1、项目需求
- 1、用户行为数据采集平台搭建
- 2、业务数据采集平台搭建
- 3、数据仓库维度建模
- 4、采用即席查询工具,随时进行指标分析
- 5、对集群性能进行监控,发生异常需要报警
- 6、元数据管理
- 7、质量监控
- 8、权限管理
2、技术选型
2.1 技术选型
技术选型主要考虑因素:数据量大小、业务需求、行业经验、技术成熟度、开发维护成本、总成本预算
- 数据采集传输:Flume,Kafka,Sqoop,Logstash,DataX
- 数据存储:MySQL、HDFS、HBase、Redis、MongDB
- 数据计算:Hive、Tez、Spark、Flink、Storm
- 数据查询:Presto、Kylin、Impala、Druid、ClickHouse、Doris
- 数据可视化:Echarts、Superset、QuickBI、DataV
- 任务调度:Azkaban、Oozie、DolphinScheduler、Airflow
- 集群监控:Zabbix、Prometheus
- 元数据管理:Altas
- 权限管理:Ranger、Sentry