hive UDF 过滤字符串中的中英文标点符号

使用hive 过程中 需要做一些UDF的开发,简单贴一个UDF 是用来去除字符串中的所有中英文符号

本人JAVA 菜鸟 代码可能不好看勿喷啊。仅供参考

package com.fccs.utils;

import java.text.ParseException;

import org.apache.hadoop.hive.ql.exec.UDF;

/***
 * 本类是用于字符串替换支持正则表达
 * @author yqj@fccs.com
 * @date 2015-5-28
 * @version 1.0
 *
 */
public class F_str_replace extends UDF{

	public String evaluate(String str,String ...args) {
		if(str != null){
			str = str.trim();
		}
		if(str == null || "".equals(str)){
			return "null";
		}
			
		
		return get_str_replace( str,args);
		
	}

	/**
	 * 传入一个字符串,把所有符合条件的字符串和空字符转换为“null”,不符合条件的就返回原字符串
	 * 比如:get_str_replace("金成·江南春城 (·竹海水韵)")
	 * 转换后:"金成江南春城竹海水韵"
	 * @param subject 
	 * @param args  多参数 args[0] 要替换成的字符串, args[1] 正则表达式
	 * @use:get_str_replace(subject,replacement,pattern)
	 * @return result
	 */
	private static String get_str_replace(String subject,String...args){
    	
		String text = "null";
		if(subject != null){
			subject = subject.trim();
		}
		if(subject == null || "".equals(subject)){
			return "null";
		}
		 
		 
		if(args.length==0){
			text =  subject.replaceAll( "\\p{Punct}","" );      
            text =  text.replaceAll("\\pP" , "");      
       	   	text =  text.replaceAll("\\p{P}" ,""); 
       	   	text =  text.replaceAll( "[\\p{P}+~$`^=|<>~`$^+=|<>¥×]" , ""); 
       	   	
		}else if (args.length==1){
			String replacement = args[0].length()>0?args[0]:"";
			text =  subject.replaceAll( "\\p{Punct}",replacement );      
            text =  text.replaceAll("\\pP" , replacement);      
       	   	text =  text.replaceAll("\\p{P}" ,replacement); 
       	    text =  text.replaceAll( "[\\p{P}+~$`^=|<>~`$^+=|<>¥×]" , replacement); 
       	   	
		}else{
			String pattern  = args[1];
			String replacement = args[0] ;
			 text =  subject.replaceAll( pattern,replacement);      
             
		}
		
		text = text.replaceAll("\\s+", ""); //过滤多余空格
		return text;
    }

}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值