如下:
♦ 添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架;
♦ 引入了许多内置的高阶函数,以便更容易处理复杂的数据类型(比如数组和 map);
♦ 开始支持 Scala 2.12;
♦ 允许我们对 notebooks 中的 DataFrame 进行热切求值(eager evaluation),以便于调试和排除故障;
♦ 引入新的内置 Avro 数据源。
除了这些新功能外,该版本还重点关注可用性,稳定性和优化,解决了超过1000 个tickets。 Spark 贡献者的其他显着特征包括:
♦ 消除 2GB 块大小的限制 [SPARK-24296, SPARK-24307]
♦ 提升 Pandas UDF [SPARK-22274, SPARK-22239, SPARK-24624]
♦ 图片模式数据源(Image schema data source )[SPARK-22666]
♦ Spark SQL 加强[SPARK-23803, SPARK-4502, SPARK-24035, SPARK-24596, SPARK-19355]
♦ 内置文件源改进 [SPARK-23456, SPARK-24576, SPARK-25419, SPARK-23