sparksql读取hive数据源配置

最新推荐文章于 2024-04-22 15:26:55 发布

xjping0794

最新推荐文章于 2024-04-22 15:26:55 发布

阅读量2k

点赞数

分类专栏： spark hive 文章标签： spark hive

本文链接：https://blog.csdn.net/xjping0794/article/details/77542271

版权

本文介绍了如何配置SparkSQL以读取Hive数据源，包括将hive-site.xml配置到Spark conf，添加MySQL连接器，修改spark-defaults.conf，启动Hive metastore服务，以及启动Spark Thriftserver以通过JDBC方式连接。

摘要由CSDN通过智能技术生成

1、将hive-site.xml内容添加到spark conf配置文件中，内容仅需要元数据连接信息即可
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property>
            <name>hive.metastore.uris</name>
            <value>thrift://master-centos:9083</value>
            <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
    </property>
</configuration>
并分发到各个节点中
2、如hive元数据采用的是mysql，则需将mysql-connector-java-5.1.25-bin.jar放置 spark/lib下
3、修改 spark-defaults.conf 配置文件
spark-default.conf
spark.master    spark://192.168.130.140:7077
spark.driver.memory     512m
spark.executor.memory 512m
spark.eventLog.enabled true
spark.eventLog.dir hdfs://192.168.130.140:8020/user/spark/logs （需提前在hadoop上创建好该目录）