文章目录
-
- 1.简单介绍一下该项目
- 5.数据来源及数据采集
- 11、数据采集如何完成
- 12、数据量大小
- 3.技术架构(技术选项及框架版本)
- 18、离线数仓
- 6.数据ETL(可能离线、可能实时)
- 8.数据分析引擎的对比(Hive、Impala、Es、Spark、Flink等)
- 21、业务线:你完成什么,你做了什么,你遇到什么问题,你是如何解决的????
- 4.集群规模(业务数据量及服务器配置和数量)
- 9.项目问题(数据倾斜、OOM或性能优化等)
- 13、实时增量ETL程序开发,为什么选择使用StructuredStreaming??
- 14、消费Kafka数据几种方式及区别,如何保存偏移量?
- 15、为什么使用Kudu存储,不使用HBase??
- 16、DataFrame与Dataset、RDD区别
- 17、Impala 分析引擎
- 19、ClickHouse 为什么选择,有哪些优势??
- 20、SparkSQL外部数据源实现(难点)
1.简单介绍一下该项目
项目背景:
运满满智慧物流大数据平台项目主要围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据、信息等,通过大数据分析可以提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,实现快速、高效、经济的物流,并针对数据分析结果,提出具有中观指导意义的解决方案。
满足三大需求:
1.传统数据库面临计算和存储瓶颈,转移到大数据平台;提供能够交互式查询的接口。
2.对于运营:实时统计各项经营指标,实时的可视化监控。
3.对于用户:实时查询订单的功能。
技术架构:Spark2.4+Impala3.2+Kudu1.9+ClickHouse0.22+Mysql5.7+Kafka2.1+Oracle11g+Canal1.1.2+CDH6.2. 1+SpringCloud
项目参与:
1、参与 OGG 及 Canal 增量抽取的数据会写入到 Kafka 集群,供实时分析计算程序消费。
2、参与 StudturedStreaming 流式处理系统将数据 ETL 处理后,将数据写入到 El