1、Spark on Hive与Hive on Spark
1.1、Hive on Spark
Hive默认使用MapReduce作为执行引擎,即Hive on MapReduce。实际上,Hive还可以使用Tez或Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark
由于MapReduce的中间计算均需要写入磁盘,Spark则是存入内存,所以总体来讲,Spark比MapReduce效率高很多,因此,企业也较少使用MapReduce
Hive on Spark是Hive既作为存储又负责SQL的编译、解析和优化,Spark只负责执行。这里Hive的执行引擎换成了Spark,不再是MapReduce
1.2、Spark on Hive
Spark on Hive是Hive只作为存储角色,Spark负责SQL的编译、解析、优化和执行。这里可以理解为Spark通过SparkSQL使用Hive语法操作Hive表,底层运行的仍然是Spark RDD
具体步骤如下:
-
执行SparkSQL,加载Hive的配置文件,获取Hive的元数据信息
-
根据获取到的Hive元数据信息得到Hive表的数据
-
通过SparkSQL来操作Hive表的数据
也就是说,Spark使用Hive来提供表的Metadata信息
2、Spark数仓建表相关问题
前些天,在基于Spark数仓建表时,报了如下错误:
Can not create the managed table('db.table'). The associated location('hdfs://date/warehouse/tablespace/external/hive/db/table') already exists.
报错信息显示:不能创建管理表,外表已存在…
不得不说,这个报错还真有点奇怪…
事情的起因也很简单,由于我们使用的是Spark数仓,即Spark on Hive模式,相较于Hive,Spark建表默认为外(External)表,而Hive是管理(Managed)表
由于基于Spark on Hive,因此,Spark在获取Hive表的数据时会先去获取Hive的元数据信息,因此,Spark建表会先根据元数据信息校验管理表是否存在,如果已经存在一个相同的管理表,Spark建表则会报如上异常
解决的方案也很简单,删除已存在的不必要的管理表,然后重新建表;或者创建管理表不存在的Spark表即可
参考文章:
https://baijiahao.baidu.com/s?id=1757731374695957147&wfr=spider&for=pc