1. URL编码 java提供了URLEncoder,URLDecoder类
eg:
import java.io.UnsupportedEncodingException;
import java.net.URLDecoder;
import java.net.URLEncoder;
public class EncoderDemo {
public static void main(String[] args){
try {
String url = "http://www.vjia.com/StyleDetail_244413_1083850_0/【Justyle】NanZhuangShiShangBaiDaBaoNuanZhuangSeLiLingZhuaRongWeiYi40113027.html";
System.out.println("url:"+url);
String eurl = URLEncoder.encode(url,"utf-8");
System.out.println("eurl:"+eurl);
String durl = URLDecoder.decode(url,"utf-8");
System.out.println("durl:"+durl);
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
2. HTML编码规则
字符"a"-"z","A"-"Z","0"-"9",".","-","*",和"_" 都不被编码,维持原值,
空格" "被转换为加号"+"。
所有其他的字符都被认为是不安全的,首先都根据指定的编码scheme被转换为1个或者多个字节
然后每个字节都被表示成"%xy"格式的由3个字符组成的字符串,xy是字节的2位16进制的表达,推荐的编码scheme为UTF-8.
所以URL中只要包含有不安全的字符都必须编码,服务端自动解码.
但是有些网站的URL确实又包含中文等不安全字符.一个是浏览器可能会自动编码,还有个就是在服务端处理.