近日,在“A Look Back at Spark Summit East 2016: Thank you NYC!”一文中, Databrciks对前些时间刚结束的Spark Summit East 2016进行了回顾。其中包括Spark Summit现状以及3天会议的全部亮点,而值得一提的是,今年5月份,由Databricks支持,CSDN主办的Spark Summit 中国也将拉开帷幕,敬请期待。
About Spark Summit East
总体来说,Spark Summit一年比一年火,单看纽约的峰会中,规模已从900人增加到500个公司的1300人,更吸引到更多大型公司的分享,包括Bloomberg、Capital One、Novartis、Comcast等公司。而在这次会议上,Databricks还发布了两款产品——Community Edition Beta和Dashboards。
Spark Summit East集锦
Day 1
第一天是Training,训练这个东西一直是惯例了,不过今年的规模有些大,从初学者到有经验的超过500人。而在动手环节的设置中,也包括了基础和数据科学进阶两个部分。
Day 2
上文说到了Databricks Community Edition这个产品的发布,在Day 2的主会中,Databricks联合创始人兼CEO Ali Ghodsi对这个产品进行了详细讲解——一个免费版的云端Spark平台,旨在降低Spark的学习门槛。Ali的演讲最后发布了一个Michael Armbrust(Databricks)制作的demo,可以到[这里](https://vimeo.com/155716963)查看(PS,demo notebook链接)。在此之外,Spark创建者、Databricks联合创始人兼CTO Matei Zaharia的演讲无疑最受关注,因为他讲的议题是Spark 2.0概览,详情就见下文的Day 2 slides集锦吧。
- Databricks联合创始人兼CTO Matei Zaharia——Spark 2.0
- Databricks联合创始人兼CEO Ali Ghodsi——Democratizing Access to Data
- Shaun Connolly, VP of Business Strategy, Hortonworks——Accelerating Enterprise Spark
- Anjul Bhambhri, VP of Big Data Engineering, IBM——Apache Spark, the Analytics Operating System
- Ken Tsai, Head of Cloud Platform & Data Management, SAP——Spark Usage in Enterprise Business Operations
从Day 2可以看出,Spark已走在企业级应用。
Day 3
Spark 2.0的重点在什么?从Databricks联合创始人兼首席架构师Reynold Xin(辛湜)的演讲中可以看出是实时性,也就是未来Spark Streaming上的动作。同样,详情我们看下文的slides集锦:
- Reynold Xin, Co-Founder & Chief Architect, Databricks——The Future of Real-Time in Spark
- Suren Nathan, Head of Big Data Analytics, Razorsight——Data Profiling and Pipeline Processing with Spark
- Seshu Adunuthula, Head of Analytics Infrastructure, eBay—— Role of Spark in transforming eBay’s Enterprise Data Platform
PS,因为连接性问题,本文slides已从SlideShare下载到CSDN 下载。