spark如何读取hive里面的数据

最新推荐文章于 2022-12-09 11:03:48 发布

yoohhwz

最新推荐文章于 2022-12-09 11:03:48 发布

阅读量1k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/yoohhwz/article/details/102693365

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先，将hive-site.xml copy到spark/conf目录下

spark shell和spark sql：指定mysql驱动包位置，--jars只会在executor端读取到，driver-class-path可以在driver端读取到
spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-5.1.47-bin.jar --driver-class-path ~/lib/mysql-connector-java-5.1.47-bin.jar 

idea配置读取hive数据：
1.首先将hadoop一系列配置文件(core-site.xml/hdfs-site.xml/mapred-site.xml/yarn-site.xml/hive-site.xml)copy到idea上的Resources目录下，其实可能只需要hive-site.xml

2.启动hive元数据thrift服务，后台启动，将日志输出到指定文件
nohup hive --service metastore > metastore.log 2>&1 &

3.hive-site.xml文件中增加
 <property>
        <name>hive.metastore.uris</name>
        <value>thrift://hadoop001:9083</value>
    </property>
  <property>
    	<name>hive.metastore.warehouse.dir</name>
    	<value>/user/hive/warehouse</value>
  </property>
  
4.代码中设置用户
   System.setProperty("HADOOP_USER_NAME","hadoop")

以上针对物理机均没用问题


云主机的话可能不太一样，除了需要打开部分端口外，在通过idea查询hive的数据的时候会报错：
2019-12-18 01:43:05,710 WARN org.apache.hadoop.hdfs.DFSClient Failed to connect to /192.168.0.3:50010 for block, add to deadNodes and continue. java.net.ConnectException: Connection timed out: no further information
java.net.ConnectException: Connection timed out: no further information

其实就是一个内外网的问题，这里你配置的主机名都是内网ip，但是访问datanode需要使用外网，所以才会报这样的错

解决方案：
在copy到idea的配置文件hdfs-site.xml中增加
	<property>
      <name>dfs.client.use.datanode.hostname</name>   
      <value>true</value>
	</property>
	意思就是就是访问datanode使用主机名
	或者在你的代码创建SparkSession对象的时候使用config("dfs.client.use.datanode.hostname", "true")也是可以的

yoohhwz

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark如何读取hive里面的数据

首先，将hive-site.xml copy到spark/conf目录下spark shell和spark sql：指定mysql驱动包位置，--jars只会在executor端读取到，driver-class-path可以在driver端读取到spark-shell/spark-sql --master local[2] --jars ~/lib/mysql-connector-java-...
复制链接

扫一扫