在spark中将数据插入HIVE表
用spark导入到HIVE中效率较高
1 创建数据集的spark D啊他Frames:
TmpDF=spark.createDataFrame(RDD,schema)
这里schema是由StructFied函数定义的
2 将数据集的DataFrames格式映射到零时表:
TmpDF.createOrReplaceTempView('TmpData')
3 用spark sql语句将零时表的数据导入hive的tmp_table表中:
sqlContext.sql('insert overwrite table tmp_table select *from TmpData')
首先创建一个数据库
spark.sql('create database school')
可以通过show(sql语句)来查看创建的表
接着我在school数据库中创建了个student表:
strspark='''
create table student(id varchar(20),name varchar(20),sex varchar(20),result varchar(20)) row format delimited fields terminated by ','
(三引号在python既可以充当注释也能多行输出)