因为业务需要,需要udf辅助开发,就仿照官网案例和参考了一些博客,自己试着开发了一个简单的时间戳转日期字符串的函数,用来简化hql代码。
总结一下开发hive udf的几个步骤:
1. 用java开发udf代码
2. 打包上传至hdfs
3. 在hive中声明udf函数
4. 使用
下面根据我的案例依次介绍:
1. 用java开发udf代码
先说下我的udf要完成的功能,比如拿到一个时间戳,不管是10位的还是13位的,不管是long还是string类型的,希望通过函数转换得到"yyyy-MM-dd"这种形式。因为源数据的时间戳不规范,有的而是10位的秒的,有的是10位的毫秒的,又为了增强拓展性,希望技能支持long,也能支持string输入。用hive原有的函数也可以实现,但是写起来较长,因为要大量用到这个功能,决定还是写个udf来实现。
下面是udf的代码(我java用的不好,应该还是又很多不规范/漏洞之类的,还望指正)
主要就是创建一个类,继承UDF 这个类,然后重写里面的evaluate 方法。
package com.mylab.udf;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.joda.time.DateTime;
import org.joda.time.DateTimeZone;
public class TimeStamp2Day extends UDF {
pu