Hive 结合Python抽数据

Hive 数据仓库,但是项目中偶尔需要你进行进行数据抽取,单纯的SQL不好解决该类问题,编写UDF(User Defined Function,自定时函数),Hive 中的transform 可以帮助你实现该功能;

1、既然用到Python 强烈装一个anaconda3  因为里面所有包都集成好了,能够更方便解决问题,设置好环境变量;

2、编写Python代码,将你需要的逻辑代码化,再利用if __name__=="__main__" 封装好,记住:最终Return的数据,即是你获得的数据;

3、add python文件 

4、select   transform(table 字段) as alias  from tablenmae 完成转换输出;

PS:如果add python 文件时报错,请注意一下anaconda3 的环境变量设置是否正确,倘若要下载包或者自定义包,可以用pip 或者conda 后者使用更频繁,能够安装依赖;pip不具备这一功能

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值