阿里云EMR计算速度提升2.2倍连续两年打破大数据领域最难竞赛世界纪录！-CSDN博客

4月26日，大数据领域权威竞赛TPC-DS公布了最新结果，阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是，去年阿里云EMR首次打破该竞赛纪录，成为全球首个通过TPC认证的公共云产品。今年在这一基础上，EMR的计算速度提升了2.2倍，性能指标（QphDS）首次超过一千万分，是友商的商业大数据产品3.5倍。同时，E-MapReduce继续保持数据处理能力的规模优势，100TB的数据规模是竞争对手产品最大处理能力的10倍。

本次测评全记录参见TPC官网：http://www.tpc.org/tpcds/results/tpcds_perf_results5.asp?resulttype=all

E-MapReduce再次打破世界记录

TPC-DS是第一个基于SQL的大数据系统基准测试标准，该标准创立十几年以来，世界上只有两家公司的数据库软件通过了TPC-DS的官方认证，阿里云是其中一家。TPC-DS以其SQL的复杂度、流程的完善度和极大的数据量而闻名，被称为当前业界最难完成的大数据测试标准。

以数据量为例，这次EMR使用的10TB测试数据集包含了超过13亿商品库存，500亿笔交易以及6千万用户的模拟数据，大部分查询请求需要同时处理这份海量数据，并且需要在十几秒或一分钟之内返回。

关于E-MapReduce（阿里云EMR）

作为运行在阿里云平台上的一种大数据处理的系统解决方案，阿里云E-MapReduce产品构建于阿里云云服务器 ECS 上，基于开源的 Apache Hadoop 和 Apache Spark，让用户可以方便地使用 Hadoop 和 Spark 生态系统中的其他周边系统（如 Apache Hive、Apache Kafka、Apache HBase 等）来分析和处理自己的数据。不仅如此，E-MapReduce 还可以方便的与阿里云其他的云数据存储系统和数据库系统（如阿里云 OSS、阿里云 Log Service等）进行数据传输。目前，EMR已服务新零售、互联网、教育、人工智能及政务等行业企业和机构，以国际知名营销服务公司Yeahmobi为例，该公司通过使用阿里云EMR构建大数据计算平台，实现了统一存储、统一分析，整体成本下降超30%。

官网：https://www.aliyun.com/product/emapreduce

重磅引擎Jindo Spark

Jindo Spark是阿里云智能E-MapReduce团队在开源的Apache Spark基础上自主研发的云原生分布式计算和存储引擎，已经在近千E-MapReduce客户中大规模部署使用。Jindo Spark在开源版本基础上做了大量优化和扩展，深度集成和连接了众多阿里云基础服务。

Jindo Spark和开源的Apache Spark相比，除了保持接口的兼容性，在功能和性能上都有较大提升。以这次TPC-DS 10TB基准测试为例，Jindo Spark可以跑通所有测试流程，而Apache Spark暂时还不支持数据更新等流程，并且在数据查询测试中，部分查询操作无法正常得到结果（99个SQL中的2个）。在查询性能上Jindo Spark也有较大的优势，Apache Spark的97个查询的总耗时是JindoSpark的6.1倍，Jindo Spark在部分查询（比如query67和query78）的性能提升超过100倍。EMR 4.0版本中Jindo引擎在性能和功能上的亮点有：

1.Jindo Spark支持Native Runtime 计算引擎

Jindo Spark将开源Spark SQL中最核心的全阶段Java代码生成框架（Whole Stage Code Generation）升级为Native代码生成框架，引入了Weld-IR技术极大的提升了生成代码的执行效率，并支持投机性编译和全局代码缓存。Jindo Spark的Native Runtime计算引擎分析了高频使用的SQL算子，部分算子实现了Native优化，比如高性能的SortMergeJoin和PartitionBy算子对最耗时Shuffle阶段性能提升效果明显。

同时，Jindo Spark改进了Spark SQL Catalyst Optimizer，实现了基于CTE 和 PK/FK的优化，支持动态Runtime Filter，TPC-DS的部分SQL实现了数十倍的性能提升。

2.数据湖解决方案重磅升级

阿里云EMR和OSS为客户提供一站式数据湖解决方案，提供全新的计算存储相分离方案最新的 JindoFS 同时支持 Cache 和 Block 模式，全面支持 EMR 各种计算引擎和 HBase数据库。

在 Block 模式上，JindoFS 组合利用本地高性能存储和 OSS 海量可靠低成本存储，在性能上接近本地存储，在容量，弹性和成本上接近 OSS 存储。JindoFS 透明支持数据在本地存储和 OSS 存储之间冷热迁移，EMR 计算不需要显式迁移和维护元数据位置，不需要显式挂载。在 Cache 模式上，JindoFS 保持 OSS 的原有访问方式和兼容，支持对元数据和文件数据的可选性缓存加速。无论哪种模式，JindoFS 全面支持 EMR 各种计算和场景，包括 MapReduce，Spark，Hive，Flink，Impala，Presto，Kafka，甚至 HBase。JindoFS 支持非 EMR 集群外部环境访问，支持上下游打通。

3.可以玩转各种实时数据流的搭建：

支持Kafka/Kudu/Druid/HBase等多种存储引擎的集群类型,并且与Jindo Spark深度集成，满足实时数据湖的各种业务场景需求
支持Spark Streaming SQL，提供实时ETL能力，降低开发使用门槛
支持MySQL Binlog CDC数据实时同步到数据湖，用户可以使用模板快速构建数据流，并在数据湖里实现实时数据查询（支持Spark SQL、Presto、Hive等引擎）

4.Spark Cube

Spark Cube 支持将任意表或视图表示的关系型数据持久化到存储上，可实现类似传统数据仓库物化视图和Cube的功能。Cache 数据的存储支持各种数据源与数据格式，以及分区，分桶，排序，文件索引等数据组织方式，Jindo Spark 自动选择合适的 cache 重写用户查询的执行计划以加速查询执行速度。通过数据的预组织和预计算，Spark Cube能够支持超大规模数据亚秒级响应的交互式分析需求，适用于多维分析，BI 报表，Dashboard 等应用场景。

Spark Cube已经开源，欢迎使用和提供建议

https://github.com/alibaba/SparkCube 。

未来

阿里云计算平台事业群总裁贾扬清表示，“阿里云积极拥抱开源技术的同时，也在不断投入自研创新技术，此次阿里云连续两年刷新世界纪录，是多年自研技术的必然成果，阿里云希望用这些创新技术服务更多的企业。

未来的 E-MapReduce 团队还会继续努力，完善 Jindo 核心引擎，在性能、功能和扩展性上更进一步，挑战更大规模的数据集，满足更广泛的云上大数据客户需求，让 E-MapReduce 成为阿里云智能的标杆性产品。更多对Jindo Spark的性能优化和功能增强工作还在进行中，对开源大数据和数据库OLAP场景感兴趣的同学可加入钉钉群交流
https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11