MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

阿里云云栖号

已于 2024-04-15 15:01:39 修改

阅读量1.8k

点赞数 26

分类专栏：云栖号技术分享文章标签： odps 架构 java 大数据阿里云云计算

于 2024-04-15 14:52:01 首次发布

本文链接：https://blog.csdn.net/yunqiinsight/article/details/137780998

版权

随着当前数据处理业务场景日趋复杂，对于大数据处理平台基础架构的能力要求也越来越高，既要求数据湖的大存储能力，也要求具备海量数据高效批处理能力，同时还可能对延时敏感的近实时链路有强需求，本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景，提供近实时增全量一体的数据存储和计算（Transaction Table2.0）解决方案。

业务背景和现状

当前典型的数据处理业务场景中，对于时效性要求低的大规模数据全量批处理的单一场景，直接使用 MaxCompute 足以很好的满足业务需求。但随着 MaxCompute 承载的业务无论是规模，还是使用场景，都越来越丰富，在处理好大规模离线批处理链路的同时，用户对近实时和增量处理链路也有很多的需求，下图展示了部分业务场景。

比如近实时数据导入链路，依赖平台引擎具备事务隔离，小文件自动合并等能力，又比如增全量数据合并链路，还依赖增量数据存储和读写，主键等能力。MaxCompute以前不具备新架构能力之前，要支持这些复杂的综合业务场景，只能通过下图所示的三种解决方案，但无论使用单一引擎或者联邦多引擎都存在一些无法解决的痛点。

方案一，只使用单一的MaxCompute离线批处理解决方案，对于近实时链路或者增量处理链路通常需要转化成T+1的批处理链路，会一定程度上增加业务逻辑复杂度，且时效性也较差，存储成本也可能较高。方案二，只使用单一的实时引擎，那资源成本会较高，性价比较低，且对于大规模数据批处理链路的稳定性和灵活性也存在一些瓶颈。方案三，使用典型的Lambda架构，全量批处理使用MaxCompute链路，时效性要求比较高的增量处理使用实时引擎链路，但该架构也存在大家所熟知的一些固有缺陷，比如多套处理和存储引擎引发的数据不一致问题，多份数据冗余存储和计算引入的额外成本，架构复杂以及开发周期长等问题。这些解决方案在成本，易用性，低延时，高吞吐等方面互相制约，很难同时具备较好的效果，这也驱动着MaxCompute有必要开发新的架构既能满足这些业务场景需求，也能提供较低的成本和较好的用户体验。

近几年在大数据开源生态中，针对这些问题已经形成了一些典型的解决方案，最流行的就是Spark/Flink/Trino开源数据处理引擎，深度集成Hudi / Delta Lake / Iceberg / Paimon开源数据湖，践行开放统一的计算引擎和统一的数据存储思想来提供解决方案，解决Lamdba架构带来的一系列问题。同时MaxCompute近一年多在离线批处理计算引擎架构上，自研设计了离线&近实时数仓一体化架构，在保持经济高效的批处理优势下，同时具备分钟级的增量数据读写和处理的业务需求，另外，还可提供Upsert，Time travel等一系列实用功能来扩展业务场景，可有效地节省数据计算，存储和迁移成本，切实提高用户体验。

离线&近实时增全量一体化业务架构

上图所示即为MaxCompute高效支持上述综合业务场景的全新业务架构。写入端会融合多种数据集成工具将丰富的数据源近实时增量或批量导入到统一的MaxCompute表存储中，存储引擎的表数据管理服务会自动优化编排数据存储结构来治理小文件等问题；使用统一的计算引擎支持近实时增量和大规模离线批量分析处理链路；由统一的元数据服务支持事务机制和海量文件元数据管理。统一的新架构带来的优势也是非常显著，可有效解决纯离线系统处理增量数据导致的冗余计算和存储、时效低等问题，也能避免实时系统高昂的资源消耗成本，同时可消除Lambda架构多套系统的不一致问题，减少冗余多份存储成本以及系统间的数据迁移成本。简言之，一体化新架构既可以满足增量处理链路的计算存储优化以及分钟级的时效性，又能保证批处理的整体高效性，还能有效节省资源使用成本。

目前新架构已支持了部分核心能力，包括主键表，Upsert实时写入，Time travel查询，增量查询，SQL DML操作，表数据自动治理优化等，更详细的架构原理和相关操作指导请参考官网架构原理和用户操作文档。

业务场景实践

本章节重点介绍新架构如何支持一些典型的业务链路以及产生的优化效果。

表存储和数据治理优化

本章节主要介绍建表操作和关键表属性的含义，以及根据业务场景如何设置表属性值以达到最佳效果，也会简单描述一下存储引擎后台如何自动优化表数据。

建表

首先，一体化新架构需要设计统一的表格式来存储不同格式的数据以支撑不同业务场景的数据读写，这里称为Transaction Table2.0，简称TT2，可以同时支持既有的批处理链路，以及近实时增量等新链路的所有功能。

建表语法参考官网，简单示例:

createtable tt2 (pk bigint notnullprimarykey, val string) tblproperties ("transactional"="true");
createtable par_tt2 (pk bigint notnullprimarykey, val string) 
partitioned by (pt string) tblproperties ("transactional"="true");

只需要设置主键Primary Key(PK)，以及表属性transactional为true，就可以创建一张TT2。PK用来保障数据行的unique属性，transactional属性用来配置ACID事务机制，满足读写快照隔离。

关键的表属性配置