背景:想通过jdbc连接hive的方式,用spark引擎,hive的数据,来处理业务需求。
环境:一台1C2G的ECS,渣渣机器;需要搭建集群的只需要更改yarn、slaves的配置即可。
接下来肯定会关注的问题就是版本了,版本的选择有千千万万种,这边的参考版本可在下面的参考配置中获得。
最关键的就是版本的匹配了,之前瞎配,最后会导致各种无法解决的问题。所以还是在动手前,先好好看看官方文档吧。
Hive和Spark版本匹配官方文档:
https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark:+Getting+Started
Spark和Hadoop、Scala、Java、Python等版本匹配官方文档:
http://spark.apache.org/documentation.html
----------------------------------------------------------------------------------------
首先配置Hive:
hive-site.xml增加或修改以下内容:
set spark.master=yarn-cluster; //默认即为yarn-cluster模式,该参数可以不配置
set hive.execution.engine=spark;
set spark