Java Web中文乱码问题

最新推荐文章于 2024-07-12 16:26:30 发布

yuchao1076244056

最新推荐文章于 2024-07-12 16:26:30 发布

阅读量423

点赞数

分类专栏： Java-Web 文章标签： java java web 编码

本文链接：https://blog.csdn.net/yuchao1076244056/article/details/52974106

版权

5 篇文章 0 订阅

订阅专栏

为什么要编码
- 计算机中存储信息的最小单元是1个字节，(1Byte = 8 bit)，能够表示的字符范围是 0- 255.
- 需要表示的字符太多，无法用1 个字符表示。
编码格式
- 1，ASCII码：总共有128个，用1 个字节的低7位表示，
- 2，ISO-8859-1：总共能表示256个字符
- 3，GB2312：双字节编码，含6763个汉字
- 4，GBK：含21003个汉字，它的编码和GB2312是兼容的，即用GB2312编码的汉字可以用GBK来解码。且不会乱码，这是因为GBK编码的范围比GB2312更大。
- 5，UTF-16：采用定长的表示方法，用两个字节来表示，两个字节是16bit，不论什么字符都可以用两个字节来表示。
- 6，UTF-8：采用变长技术，由于很大一部分字符用一个字节就可以表示，不需要用两个字节。
几种编码方式的比较：
- GBK和GB2312编码规则类似，但GBK范围更大，它能处理所有汉字字符，应选择GBK。
- UTF-16和UTF-8都是处理Unicode编码，编码规则不太相同，UTF-16编码效率较高，但UTF-8更适合网络传输，
- 编码效率上： GBK < UTF-8 < UTF-16 ，但UTF-8更适合在网络传输，因为网络传输容易损坏字节流，

3，Java Web中的编解码

数据经过网络传输时都是以字节为单位的，所以所有的数据都必须能够被序列化为字节，在Java中数据要被序列化，必须继承Serializable接口。
用户从浏览器发起一个HTTP请求，需要存在编码的地方是URL、Cookie、Parameter，服务器接收到HTTP请求后要解析HTTP，其中URL、Cookie和POST表单参数需要解码，服务器可能需要读取数据库中的数据–本地或网络中的文本文件，都可能存在编码问题，当Servlet 处理完所有请求的数据后，需要将这些数据再编码，通过Socket发送到用户请求的浏览器里，再经过浏览器解码成为文本。
对URL的URI部分进行解码的字符集是在connector的< Connector URIEncoding = “UTF-8” />中定义的,如果没有定义，则以默认的ISO-8859-1解析，所以有中文URL时最好把URIEncoding设置成 UTF-8 编码。
当然在我们的服务器端server.xml中最好设置< Connector URIEncoding =”UTF-8” useBodyEncodingForURI=”true” />这两个参数。
- POST表单的编解码：一定要在第一次调用 request.getParameter 方法之前就设置 request.setCharacterEncoding(charset)，否则POST 表单提交上来的数据可能出现乱码。MySQL中设置 characterEncoding=GBK。
- 在JS中的乱码问题：使用 encodeURIComponent()函数进行转换，
- -

关注