SparkSQL创建RDD：<7>读取Hive中的数据加载成DataFrame【Java，Scala纯代码】

最新推荐文章于 2021-02-19 19:41:23 发布

道法—自然

最新推荐文章于 2021-02-19 19:41:23 发布

阅读量3.2k

点赞数

本文链接：https://blog.csdn.net/wyqwilliam/article/details/81429478

版权

本文介绍了如何使用SparkSQL的HiveContext从Hive中读取数据并加载为DataFrame。内容包括配置Hive-site.xml，启动Hive metastore、Zookeeper和HDFS集群，以及提供了Java和Scala版本的代码示例。

摘要由CSDN通过智能技术生成

HiveContext是SQLContext的子类，连接Hive建议使用HiveContext。
由于本地没有Hive环境，要提交到集群运行，提交命令

Spark On Hive的配置

在Spark客户端配置Hive On Spark

在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml：

配置hive的metastore路径

<configuration>
   <property>
        <name>hive.metastore.uris</name>
        <value>thrift://node1:9083</value>
   </property>
</configuration>

启动Hive的metastore服务

hive --service metastore

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

道法—自然

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark-RDD创建方式

weixin_43569343的博客

04-16

672

RDD的创建方式从外部存储系统中获取从父RDD转换得到新的RDD 调用SparkContext的parallelize方法，将Driver上的数据集并行化，转化为分布式的RDD。更改RDD的持久性（persistence），例如cache()函数。默认RDD计算后会在内存中清除。通过cache函数将计算后的RDD缓存在内存中。创建方式两种： #第一类方式是通过文件系统构造R...

【Spark篇】---SparkSQL on Hive的配置和使用

L先生AI课堂

02-09

6301

一、前述Spark on Hive： Hive只作为储存角色，Spark负责sql解析优化，执行。二、具体配置1、在Spark客户端配置Hive On Spark 在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml：配置hive的metastore路径<configuration> &lt...

参与评论您还未登录，请先登录后发表或查看评论

【五】Spark SQL中HiveContext的使用（操作hive中的表）（提交到服务器上执行）（Hadoop HA）

热门推荐

Sid小杰的博客

07-25

1万+

HiveContext在基本的SQLContext上有了一些新的特性，可以用Hive QL写查询，可以读取Hive表中的数据，支持Hive的UDF。要把hive/conf/hive-site.xml文件拷贝到spark/conf下。 cd /app/hive/conf scp hive-site.xml root@node1:/app/spark/spark-2.2.0-bin-2.9.0...

在spark中运行HiveContext

叫我小名

02-12

3541

1.添加配置程序只需要读取hive配置文件hive-site.xml，不用hdfs-site.xml.若在ide中直接运行，可以将配置文件直接放在工程resources目录下一起打包，程序会自动到该目录下读取。也可以spark-submit时在–files中设置hdfs路径

spark 将dataframe数据写入Hive分区表

weixin_33939843的博客

04-20

2171

从spark1.2 到spark1.3，spark SQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。DataFrame将数据写入hive中时，默认的是hive默认数据库，insertInto没有指定数据库的参数，本文使用了下面方式将数据写入hive表或者hive表的分区中，仅供参考。1、将DataFra...

配置sparksql读hive，dataframe和RDD，将RDD转换成Dataframe，视图，withcolumn

qq_36459386的博客

01-02

2369

退出spark-shell :quit 使用spark自带文件 [hadoop@hadoop000 resources]$ pwd /home/hadoop/app/spark-2.4.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources scala&amp;amp;amp;amp;amp;gt; val df = spark.read.json(&amp;amp;amp;amp;quot;file:///hom

spark: RDD与DataFrame之间的相互转换方法

01-20

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架，但其经过了优化...而在Java API中，用户需要Dataset<Row>用来表示DataFrame。在本文档中，我们经常将Scala/Java数据

Spark系列---SparkSQL(三)读取Txt文件、Json文件、Hive、Mysql数据源(Java、Scala版本)

Mr.Cao

10-31

8297

1.读取txt文件 scala版本 package com.kevin.scala.dataframe import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext /** * 读取txt文件转成DataFrame形式操作 */ object DataFrameTx...

Spark（第五节） RDD、DataFrame、DataSet的介绍与比较，创建DataFrame和DataSet，三者之间互相转换，scala代码创建和使用DataFram

hwq317622817的博客

02-19

546

目录RDD、DataFrame、DataSet的介绍与比较概述RDD基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别创建DataFrame读取文本文件创建DataFrame第一种方式：通过RDD配合case class进行转换DF第二种方式：通过sparkSession构建DataFrame读取json文件创建DataFrame读取parquet列式存储格式文件创建DataFrame创建DataSet第一种方式创建DataSet第二种方式创建DataSet第三种方式创建DataS

spark集成hivecontext配置

weixin_30709809的博客

06-29

226

spark版本：spark-1.6.0-bin-hadoop2.6hive版本：hive 1.2.11.hive-site.xml<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value></property>2.配置将ha...

spark sql 访问hive数据的配置详解

duncan

07-15

573

spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过 3、使...

Spark读取Hive中的数据加载为DataFrame

墨玉浮白的博客

07-30

2255

读取Hive中的数据，必须开启enableHiveSupport。 val spark = SparkSession.builder() .appName("hive") .enableHiveSupport() .getOrCreate() //创建student_infos和student_scores表并从本地加载进来数据 spark.s...

hive-mysql-DataFrame

Taoxiaoku的博客

11-22

165

将json文件转成DataFrame： spark-shell： 1.开启spark-shell 2.val df=spark.read.json(“file:///opt/File/users.json”) 默认读取hdfs，file:// 读取本地文件 3.df.show java： val conf = new SparkConf().setAppName(“1”).setMaster(“local[*]”) val sc = new SparkContext(conf) val rdd1 = sc

spark sql 配置hive

LMR的博客

05-16

8901

1.安装MySQL（hive的元数据库）并创建一个普通用户，并且授权 CREATE USER 'xiaoniu'@'%' IDENTIFIED BY '123568'; GRANT ALL PRIVILEGES ON hivedb.* TO 'lin'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIVILEGES; ...

spark创建RDD方式

青于蓝胜于蓝的博客

10-08

507

Spark RDD基本创建所需要的数据源（集合、本地文件、HDFS、Hbase和HiveSQL等） 1利用集合创建RDD，就是为了方便测试。调用SparkContext的parallelize()方法进行创建并行化的数据集合。 val arrays =Array(1,3,4,5,6,7,11,29) val arrayRDD = sc.par

[Spark]Spark-sql与hive连接配置

weixin_30455365的博客

11-01

一.在Mysql中配置hive数据库创建hive数据库，刷新root用户权限 create database hive; grant all on *.* to root@'%' identified by'111111'; flush privileges; 修改hive目录下/bin/hivevim /usr/local/src/apache-h...

Spark SQL 1.x之Hive Context

vincent_duan的专栏

03-26

334

使用SparkSQL时，并不需要搭建一个Hive，只需要一个HiveSite就可以添加Hive配置文件将Hive中的hive-site.xml复制到spark中的conf文件夹下。添加依赖在pom.xml文件中添加HiveContext的依赖： <dependency> <groupId>org.apache.spark</groupId&...

sparksql支持hive数据源

qq_41458071的博客

05-31

223

第一种idea直接调用metastore(引入spark-hive依赖包,引入hive-hcatalog-core依赖包) val spark = SparkSession.builder().master("local").appName("datasource") .config("fs.defaultFS", "hdfs://wml.com:9000") .config("spark.sql.warehouse.dir", "hdfs://wml.com:9000/test") ...

Spark SQL入门：DataFrame与SQL接口详解

DataFrame是SparkSQL中的核心概念，它是一个分布式的、带Schema的二维数据集，可以看作是增强版的RDD，不仅包含了数据，还包含了元数据，这使得DataFrame能够更好地处理结构化数据，支持SQL查询和数据分析。...