需求:
需要对hive表中的数据进行操作,比如说读取a表中的数据,写入b表
学习的时候,我发现了有三个方案
1 使用表输入读取,再使用表输出写入
2 使用表输入读取,再使用Hadoop File Output输出到文件,之后再将文件和表进行关联
3 直接使用 执行SQL脚本,使用脚本读取表,并创建表
第一种方案,存在问题,写入数据,每写一条都会创建一个mr任务,不知道是我设置的问题,搜索了,没有解决方案。
第二种理论上应该是可行性的,但是对比第三种,感觉要复杂了点,
第三种只能操作hive里面的表,如果需要同步其他环境的表,可以先同步再操作。
方案3:
1添加数据库连接

2设置执行SQL脚本
drop table tmp.o_spidertw_mgj_gmv_tmp;
create table tmp.o_spidertw_mgj_gmv_tmp stored as orc as
select * from default.o_spidertw_mgj_gmv

这里还有参数可以设置,应该是可以对sql添加参数,具体实现的话可以尝试一下
1406

被折叠的 条评论
为什么被折叠?



