限免首发 | 《Apache Spark 中文实战攻略》下册

《Apache Spark 中文实战攻略》重磅来袭!

点击文末阅读原文下载
>>《Apache Spark 中文实战攻略(下册)》<<

或复制该链接到浏览器完成下载或分享:https://developer.aliyun.com/topic/download?id=822

上册链接:

国内Spark开发者的免费入门宝典!首发作者阵容高手云集!

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

《Apache Spark 中文实战攻略(下册)》—— 让企业大数据平台性能更优。阿里、Databricks、领英、Intel、Facebook 都在用!Spark 企业级最佳实践中文解读全收纳!

关于Apache Spark

Apache Spark是快速、易于使用的框架,允许你解决各种复杂的数据问题,无论是半结构化、结构化、流式,或机器学习、数据科学。它也已经成为大数据方面最大的开源社区之一,拥有来自250多个组织的超过1000个贡献者,以及遍布全球570多个地方的超过30万个Spark Meetup社区成员。

精彩导读

使用 Databricks 作为分析平台

YipitData是一家咨询公司,其客户主要是投资基金以及财富五百强中的一些公司。该公司通过自己的数据产品进行分析,提供给客户相应的数据分析报告。YipitData的主要产出方式和赚钱方式就是做数据分析,其公司内部有53个数据分析师,却只有3个数据工程师。数据分析的基础是数据,所以对于该公司来说大数据分析的平台是非常重要的。阿里巴巴高级技术专家章剑锋介绍了YipitData公司基于Databricks平台搭建的分析平台。

点击查看更多内容:使用Databricks作为分析平台


在 kubernetes 上运行 apache spark

k8s 和 spark 的结合是出现在 spark 2.3 版本以后的事情,在此之前有几种方式。第一种就是 Standalone,大家使用的并不是非常的多。第二种是 Apache mesos,在国外用的比较多,但是市场规 模也在逐渐缩小。第三种是 Yarn,我们现在绝大多数的企业都是跑在 Yarn 的集群里面了。第四种是 Kubernetes,现在大家也逐渐的把 spark 跑在 k8s 上面。
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。

点击查看更多内容:在kubernetes上运行apache spark:最佳实践和陷阱


Ray on Spark

开源了BigDL之后,英特尔又开源了统一的数据分析和AI平台Analytics Zoo,用户可以根据不同的需求,在大数据的平台上直接运行由使用TensorFlow、PyTorch、Keras、Ray、等框架构建的应用。Analytics Zoo可以将用户的大数据平台作为数据存储、数据处理挖掘、特征工程、深度学习等一体化的pipeline平台。

 RayOnSpark 能够让Ray的分布式应用直接无缝地集成到Apache Spark的数据处理流水线中,省去集群间数据传输的overhead,支持用户使用Spark处理的数据做新兴人工智能应用的开发。由Intel大数据团队软件工程师黄凯为大家介绍Ray和Intel的开源项目Analytics Zoo,开发RayOnSpark的动机和初衷,同时结合实际案例分享RayOnSpark的落地实践。

点击查看更多内容:使用RayOnSpark在大数据平台上运行新兴的人工智能应用


EMR Spark-SQL性能极致优化揭秘

在 2019 年的打榜测试中,我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化 对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩,相比去年的成绩,无论从性能还有性价比都取得了 2 倍+的优秀成绩!这次的优化里面,引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

阿里巴巴计算平台事业部EMR团队高级开发工程师陆路分享了EMR这一突破性的实战经验。

点击查看更多内容:EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。

Apache Spark技术交流社区公众号,微信扫一扫关注

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值