URLDecoder: Incomplete trailing escape (%) pattern错误处理

爬虫过程中可能会碰到url中含有普通的%字符的情况,如果直接用URLDecode.decode()则会出现如题的错误,解决方法就是先将’%’编码为’%25’,再对url解码。

public static void main(String[] args) throws Exception{
    String test = "http://www.baidu.com?123%";//随意构造的
    //URLDecoder.decode(test, "utf8");//如直接接就会报如题的错误。
    System.out.println(URLDecoder.decode(test.replaceAll("%", "%25"), "utf8"));

}

输出:

http://www.baidu.com?123%

上述是最简单的一种情况,但是绝大多数情况会掺杂着%为编码的含义,此时只把%替换为%25是不能解出正确的url的,如下:

public static void main(String[] args) throws Exception{
    String test = "http://www.baidu.com?%e4%b8%ad%e5%9b%bd123%";//%e4%b8%ad%e5%9b%bd为中国
    System.out.println(URLDecoder.decode(test.replaceAll("%", "%25"), "utf8")); 
}

输出:

http://www.baidu.com?%e4%b8%ad%e5%9b%bd123% 

解决方法:

public class ConverPercent {

    //判断是否为16进制数
    public static boolean isHex(char c){
        if(((c >= '0') && (c <= '9')) || 
                ((c >= 'a') && (c <= 'f')) || 
                ((c >= 'A') && (c <= 'F')))
            return true;
        else
            return false;
    }

    public static String convertPercent(String str){
        StringBuilder sb = new StringBuilder(str);

        for(int i = 0; i < sb.length(); i++){
            char c = sb.charAt(i);
            //判断是否为转码符号%
            if(c == '%'){
                if(((i + 1) < sb.length() -1) && ((i + 2) < sb.length() - 1)){
                    char first = sb.charAt(i + 1);
                    char second = sb.charAt(i + 2);
                    //如只是普通的%则转为%25
                    if(!(isHex(first) && isHex(second)))
                        sb.insert(i+1, "25");
                }
                else{//如只是普通的%则转为%25
                    sb.insert(i+1, "25");
                }

            }
        }

        return sb.toString();
    }

    public static void main(String[] args) throws UnsupportedEncodingException{
        String test = "http://www.baidu.com?%e4%b8%ad%e5%9b%bd123%";
        //URLDecoder.decode(test, "utf8");//如直接接就会报如题的错误。   
        String url = convertPercent(test);
        System.out.println(url);
        System.out.println(URLDecoder.decode(url,"utf8"));

    }
}

输出:

http://www.baidu.com?%e4%b8%ad%e5%9b%bd123%25
http://www.baidu.com?中国123%
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值