美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

作者:美的楼宇科技事业部 先行研究中心智能技术部

美的楼宇科技 IoT 数据平台建设背景

美的楼宇科技事业部(以下简称楼宇科技)是美的集团旗下五大板块之一,产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案,远销海内外200多个国家。针对当前设备数据量庞大且持续增长、数据呈现半结构化特点的现状,现有系统仅停留在数据存储和基础使用层面,缺乏深度挖掘数据价值的能力,导致大量潜在信息未被充分利用。因此,迫切需要构建一个统一且通用的 IoT 数据平台,平台不仅要具备高度的弹性和轻量化特性,还应具备强大的大规模数据处理能力以及数据科学和 AI 技术支持,以实现快速的数据分析与智能化挖掘,推动楼宇系统的智能化升级,支持节能、设备管理和运维等方面的精确决策。


我们的 IoT 数据平台建设基于阿里云 EMR  Serverless Spark ,我们将就 IoT 数据平台建设技术选型上的一些思考,以及 Spark 技术栈尤其是场景应用实践做一下分享。

Lakehouse 架构

楼宇科技通过阿里云 EMR Serverless Spark,实现了数据与 AI 技术的有效融合,并结合EMR Serverless StarRocks 搭建了 Lakehouse 平台。该平台核心部分如下:

首先,上游设备或传感器数据通过 Serverless Spark 提交 Streaming 作业,实时以 Apache Hudi 格式写入数据湖,湖表元数据同步至DLF,以保持数据的实时性。

接着,采用天级调度执行 Hudi 分区数据的 Compaction,并使用 Z-order 来优化数据布局,实现了10倍以上的查询加速。同时,DLF 的锁机制确保了实时写入与异步湖表任务的并发事务管理,为作业稳定性、数据一致性提供了保障。

此外,还通过 Serverless Spark 构建了数据 Medallion 架构,从加载的源始数据开始(Bronze),经过清洗转化为明细数据(Silver),然后根据不同业务需求将明细层数据转化为高质量的指标数据(Gold),为上层业务系统提供支持。

在 AI 应用方面,楼宇科技通过 Serverless Spark  PySpark 任务,并基于 PyArrow UDF 调用自研算法实现了千亿级别数据在百万级维度的聚合,推动了 Data + AI 技术在实际业务中的应用。最后,处理后的指标数据从数据湖中被加载到 StarRocks 中,为上层应用提供 Dashboard 和报表支持,提升了数据的可视化和决策能力。

以下架构图展示了如何利用 Serverless Spark 结合开源湖格式 Hudi、ML/AI 的多种工具库,以及阿里云 DLF 统一湖仓管理平台,实现高效的数据处理和AI赋能,使用 Serverless StarRocks 实现极速数据分析,为业务应用带来显著的提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值