国内Spark开发者的免费入门宝典！首发作者阵容高手云集！

最新推荐文章于 2022-07-31 00:02:08 发布

阿里云技术

最新推荐文章于 2022-07-31 00:02:08 发布

阅读量434

点赞数

文章标签：阿里云

本文链接：https://blog.csdn.net/weixin_43970890/article/details/108129765

版权

《Apache Spark 中文实战攻略》重磅来袭！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略（上册）》—— 让你的数据处理更简单！Spark+AI Summit 2020 中文精华版峰会全新收录！Apache Spark 3.0 性能优化与基础实战一书看遍！

test
test

关于 Apache Spark

Apache Spark是快速、易于使用的框架，允许你解决各种复杂的数据问题，无论是半结构化、结构化、流式，或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一，拥有来自250多个组织的超过1000个贡献者，以及遍布全球570多个地方的超过30万个Spark Meetup社区成员。

精彩导读

Apache Spark 3.0：十年回顾，展望未来

Spark 3.0是Spark有史以来最大的Release，共包含3400多个patch，几乎一半的patch都属于Spark SQL。Spark SQL 的优化不仅服务于SQL language，还服务于机器学习、流计算和Dataframes等计算任务，这使得社区对Spark SQL的投入非常大。此外，Spark团队还付出了大量努力使Spark 2.0的用户方便地升级到3.0。

今年是Spark发布的第十年，回顾Spark如何一步步发展到今天，其发展过程所积累的经验，以及这些经验对Spark未来发展的启发，对Spark大有脾益。Databricks Spark研发部主管李潇带来了《Apache Spark 3.0简介:回顾过去的十年，并展望未来》的全面解析，为大家介绍了Spark的起源、发展过程及最新进展，同时展望了Spark的未来。

数据湖：数据工程师的得力助手

相信作为一个数据工程师，心中都有这么一个理想的工具:

可以持续不断地对各种各样的数据源进行增量处理;
批流合一;
处理速率高效，智能化生成报表。

Databricks开源组技术主管范文臣从数据工程师的角度出发向大家介绍了Delta Lake

实时数仓，快速构建Near-RealTime的Data Pipeline.

当离线的同步方案已经不能满足业务需求，现有离线任务基本都是动辄几百行SQL，逻辑复杂，核桃编程数据架构师卢圣刚分享了核桃编程应用EMR建设 Delta Lake 实时数仓的实践。

SQL性能改进：不断进化

从spark 2.4开始，大概有超过一年半的时间。对于一个比较活跃的开源项目来说，这个时间是非常长的。所以里面包含了大量的这种功能增强，性能优化，等各方面的新的feature在里面。大概超过50%的相关的issue都是和 SQL相关的。阿里巴巴高级技术专家李呈祥为大家带来Apache Spark 3.0中的SQL性能改进概览的介绍。

原文链接

本文为阿里云原创内容，未经允许不得转载。