浅析Hive/Spark SQL读文件时的输入任务划分

最新推荐文章于 2023-09-19 15:50:30 发布

Apache Spark中国社区

最新推荐文章于 2023-09-19 15:50:30 发布

阅读量536

点赞数 1

本文链接：https://blog.csdn.net/weixin_45906054/article/details/104489560

版权

本文深入探讨了Hive和Spark SQL在处理HDFS上结构化数据时如何划分输入任务。Hive依赖Hadoop的InputFormat进行Split划分，而Spark SQL的DataSource表通过自定义Partition进行切分，Hive表则可能使用Hadoop的InputFormat或Spark的Data Source实现。文件合并的控制主要由参数决定，低效的划分会影响执行效率。文章提出思考问题：如何关闭Spark SQL data source表的文件合并，并邀请读者加入技术社区进行讨论。

摘要由CSDN通过智能技术生成

作者：
王道远，花名健身，阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口，大大降低了ETL等操作的门槛，也因此在实际生产中有着广泛的应用。SQL是非过程化语言，我们写SQL的时候并不能控制具体的执行过程，它们依赖执行引擎决定。而Hive和Spark SQL作为Map-Reduce模型的分布式执行引擎，其执行过程首先就涉及到如何将输入数据切分成一个个任务，分配给不同的Map任务。在本文中，我们就来讲解Hive和Spark SQL是如何切分输入路径的。

Hive

Hive是起步较早的SQL on Hadoop项目，最早也是诞生于Hadoop中，所以输入划分这部分的代码与Hadoop相关度非常高。现在Hive普遍使用的输入格式是CombineHiveInputFormat，它继承于HiveInputFormat，而HiveInputFormat实现了Hadoop的InputFormat接口，其中的getSplits方法用来获取具体的划分结果，划分出的一份输入数据被称为一个“Split”。在执行时，每个Split对应到一个map任务。在划分Split时，首先挑出不能合并到一起的目录——比如开启了事务功能的路径。这些不能合并的目录必须单独处理，剩下的路径交给私有方法getCombineSplits，这样Hive的一个map task最多可以处理多个目录下的文件。在实际操作中，我们一般只要通过set mapr

最低0.47元/天解锁文章

Apache Spark中国社区

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅析Hive/Spark SQL读文件时的输入任务划分

作者：王道远，花名健身，阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上...
复制链接

扫一扫