在使用Cloudera安装好Spark和Hive后,将含有操作Hive相关表的Spark任务以yarn模式提交到集群运行时,一直报错,通过
yarn logs -applicationId 命令发现无法连接Hive,在spark-submit命令后添加--files /etc/hive/conf/hive-site.xml就可以正常运行。参考了Cloudera官网的相关介绍(https://www.cloudera.com/documentation/enterprise/5-10-x/topics/admin_hos_oview.html#concept_i22_l1h_1v__section_k22_l1h_1v),修改了Hive的配置和Spark配置后,不再需要添加--files /etc/hive/conf/hive-site.xml就可以运行。步骤如下:
1、在Cloudera 中点击Hive,选择配置,搜索“Spark On YARN Service”,选择“spark”,如下图所示:
2、在Cloudera中点击Spark,选择配置,搜索“Hive”,选择“Hive”,如下图所示:
3、按照要求重启集群服务,使配置生效。