Hive 数据仓库,但是项目中偶尔需要你进行进行数据抽取,单纯的SQL不好解决该类问题,编写UDF(User Defined Function,自定时函数),Hive 中的transform 可以帮助你实现该功能;
1、既然用到Python 强烈装一个anaconda3 因为里面所有包都集成好了,能够更方便解决问题,设置好环境变量;
2、编写Python代码,将你需要的逻辑代码化,再利用if __name__=="__main__" 封装好,记住:最终Return的数据,即是你获得的数据;
3、add python文件
4、select transform(table 字段) as alias from tablenmae 完成转换输出;
PS:如果add python 文件时报错,请注意一下anaconda3 的环境变量设置是否正确,倘若要下载包或者自定义包,可以用pip 或者conda 后者使用更频繁,能够安装依赖;pip不具备这一功能