SQL语句

1.数据库中随机抽取数据

Hive: select  *  from 表名  order by rand() limit 条数;

Mysql: select  *  from 表名  order by rand() limit 条数;

Oracle:select * from (select * from tableName order by dbms_random.value) where rownum < N

2.Hive中使用python脚本处理数据

Hive中可以直接使用python脚本处理数据,而不用写MapReduce程序或者Spark程序处理。因为python是脚本语言,无需编译,可以在hive中直接使用。

Hive会以输出流的形式将数据交给python脚本,python脚本以输入流的形式来接受数据,接受来数据以后,在python中就可以一行行做一系列的数据处理,处理完毕后,又以输出流的形式交给Hive,交给了hive就说明了就处理后的数据成功保存到hive表中了。

Hive中添加python脚本:

Hive中使用python脚本:

 

3.将Hive中的数据导入到本地

insert overwrite local directory '/root/test/traindata' row format delimited fields terminated by '\t' select * from dw_rcm_hitop_prepare2train_dm;

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值