在spark中将数据插入HIVE表

本文介绍了如何在Spark中高效地将数据插入Hive表。首先创建Hive的school数据库和student表,然后利用pyspark将本地文件数据转化为DataFrame并插入表中。此外,还展示了如何处理Parquet文件并将其插入到新的Hive表name_age2中,同时提到了通过条件查询和自定义用户函数操作数据的方法。
摘要由CSDN通过智能技术生成

在spark中将数据插入HIVE表
用spark导入到HIVE中效率较高

1    创建数据集的spark D啊他Frames:

                    TmpDF=spark.createDataFrame(RDD,schema)

                    这里schema是由StructFied函数定义的

 2    将数据集的DataFrames格式映射到零时表:

                    TmpDF.createOrReplaceTempView('TmpData')

3    用spark sql语句将零时表的数据导入hive的tmp_table表中:

                    sqlContext.sql('insert overwrite table tmp_table select *from TmpData')

首先创建一个数据库

spark.sql('create database school')

 可以通过show(sql语句)来查看创建的表

接着我在school数据库中创建了个student表:

    strspark='''
create table student(id varchar(20),name varchar(20),sex varchar(20),result      varchar(20))   row format delimited fields terminated by ','

(三引号在python既可以充当注释也能多行输出)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值