为什么要编码
- 计算机中存储信息的最小单元是1个字节,(1Byte = 8 bit),能够表示的字符范围是 0- 255.
- 需要表示的字符太多,无法用1 个字符表示。
编码格式
- 1,ASCII码: 总共有128个,用1 个字节的低7位表示,
- 2,ISO-8859-1:总共能表示256个字符
- 3,GB2312:双字节编码,含6763个汉字
- 4,GBK:含21003个汉字,它的编码和GB2312是兼容的,即用GB2312编码的汉字可以用GBK来解码。且不会乱码,这是因为GBK编码的范围比GB2312更大。
- 5,UTF-16:采用定长的表示方法,用两个字节来表示,两个字节是16bit,不论什么字符都可以用两个字节来表示。
- 6,UTF-8:采用变长技术, 由于很大一部分字符用一个字节就可以表示,不需要用两个字节。
- 几种编码方式的比较:
- GBK和GB2312编码规则类似,但GBK范围更大,它能处理所有汉字字符,应选择GBK。
- UTF-16和UTF-8都是处理Unicode编码,编码规则不太相同,UTF-16编码效率较高,但UTF-8更适合网络传输,
- 编码效率上: GBK < UTF-8 < UTF-16 ,但UTF-8更适合在网络传输,因为网络传输容易损坏字节流,
3,Java Web中的编解码
数据经过网络传输时都是以字节为单位的,所以所有的数据都必须能够被序列化为字节,在Java中数据要被序列化,必须继承Serializable接口。
用户从浏览器发起一个HTTP请求,需要存在编码的地方是URL、Cookie、Parameter,服务器接收到HTTP请求后要解析HTTP,其中URL、Cookie和POST表单参数需要解码,服务器可能需要读取数据库中的数据–本地或网络中的文本文件,都可能存在编码问题,当Servlet 处理完所有请求的数据后,需要将这些数据再编码,通过Socket发送到用户请求的浏览器里,再经过浏览器解码成为文本。
对URL的URI部分进行解码的字符集是在connector的< Connector URIEncoding = “UTF-8” />中定义的,如果没有定义,则以默认的ISO-8859-1解析,所以有中文URL时最好把URIEncoding设置成 UTF-8 编码。
当然在我们的服务器端server.xml中最好设置< Connector URIEncoding =”UTF-8” useBodyEncodingForURI=”true” />这两个参数。
POST表单的编解码:一定要在第一次调用 request.getParameter 方法之前就设置 request.setCharacterEncoding(charset), 否则POST 表单提交上来的数据可能出现乱码。MySQL中设置 characterEncoding=GBK。
在JS中的乱码问题:使用 encodeURIComponent()函数进行转换,
- -