大数据实时+离线项目架构----智慧物流大数据平台（超流行框架！）

本文链接：https://blog.csdn.net/weixin_48143996/article/details/118525264

智慧物流大数据平台

文章目录

智慧物流大数据平台
一、项目背景
二、逻辑架构
三、解决方案
- 技术亮点:
数据流转
四、项目的技术选型
框架软件版本

一、项目背景

本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万。如此规模的业务数据量，传统的数据处理技术已经不能满足企业的经营分析需求。公司需要基于大数据技术构建数据中心，从而挖掘出隐藏在数据背后的信息价值，为企业提供有益的帮助，带来更大的利润和商机。大数据项目主要围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中
涉及的数据、信息等。通过大数据分析可以提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求，实现快速、高效、经济的物流，并针对数据分析结果，提出具有中观指导意义的解决方案。针对物流行业的特性，大数据应用主要体现在车货匹配、运输路线优化、库存预测、设备修理预测、供应链协同管理等方面。

二、逻辑架构

在这里插入图片描述
 异构数据源
数据源主要有两种方式：Oracle数据库、MySQL数据库
 数据采集平台
数据采集平台负责将异构数据源采集到数据存储平台，分为批量导入以及实时采集两个部分：
实时采集 Oracle数据库采用ogg进行实时采集，MySQL数据库采用Canal进行实时采集。采集到的数据会存放到消息队列临时存储中。

数据存储平台
本次建设的物流大数据平台存储平台较为丰富。因为不同的业务需要，存储分为以下几个部分
Kafka 作为实时数据的临时存储区，方便进行实时ETL处理
Kudu 与Impala mpp计算引擎对接，支持更新，也支持大规模数据的存储
HDFS 存储温数据、冷数据。大规模的分析将基于HDFS存储进行计算。
ElasticSearch 所有业务数据的查询都将基于ElasticSearch来实现
ClickHouse 实时OLAP分析

数据计算平台
数据计算平台主要分为离线计算和实时计算。
离线计算 Impala：提供准实时的高效率OLAP计算、以及快速的数据查询
Spark/ SparkSQL：大批量数据的作业将以Spark方式运行
Elast