一、介绍
很多时候,我们在写JavaEE的Servlet程序时,需要从前端页面获取数据,在控制台打印输出,或者在Servlet中设置名称,在其它页面显示或其他程序中输出等。如果数据带有中文字符,经常容易出现乱码问题。
二、原因分析
乱码产生的原因是在一方编码后,另一边解码时,解码的字符集和编码的不一致而导致的。可以简单理解为(各种字符需要先编码以后,再传输,对方接收以后再按照指定的字符集进行解码,同时显示到页面,或者打印到控制台)。
不同数据来源的编(解)码格式不同:
数据来源 | 默认编码格式 |
---|---|
浏览器页面 | GBK (可在浏览器页面右键切换) |
request(get) | ISO-8859-1 |
request(post) | GBK(同浏览器),但是如果是服务器来的页面一般已经设置了UTF-8(例如JSP提交的页面) |
Servlet(response) | ISO-8859-1 |
三、解决思路
1.在 request 中接收中文参数乱码时:
- GET 请求:
new String(string.getBytes("ISO-8859-1"),"UTF-8");
分析:表单中文数据在页面以ISO编码后,通过Http协议传输,到达Servlet后,若以UTF-8解码,会出现乱码。所以需要先转成字节(ISO-8859-1解码,传过来的是以它编码的),再包装成字符串(UTF-8编码)。Servlet中就可以显示了(UTF-8)。 post方式
- POST 请求:
request.setCharacterEncoding("UTF-8");
分析:这里单向设置服务器端的解码方式UTF-8即可(注意是通过request设置)。因为从服务器来的页面一般已经设置成了UTF-8格式了(例如JSP提交的页面)。
2.在 response 中输出中文数据乱码时:
- 字符流:
// 设置 UTF-8 编码
response.setCharacterEncoding("UTF-8");
// 通知浏览器使用 UTF-8 编码方式解码网页
response.setHeader("Context-Type","text/html;charset=utf-8");
分析:这种场景一般是Servlet程序中有中文字符,需要向页面输出。先设置服务器端的编码方式UTF-8(注意是通过response设置),再通过设置响应的头字段,通知浏览器以UTF-8进行解码即可。 字节流
- 字节流:
// 设置浏览器默认打开的时候采用的字符集编码
response.setHeader("Content-Type", "text/html;charset=UTF-8");
// 设置中文转成字节数组的时候取出的编码,默认会是ISO-8859-1
response.getOutputStream().write("中文".getBytes("UTF-8"));
分析:字节流的中文输出包括两步:先通知浏览器以UTF-8解码。再想页面(字节流)输出字节。输出内容:将中文字符串转成字节数组(并设置以指定的UTF-8编码)。
四、总结
1,一般情况下,JSP页面的默认编码字符集要设置成UTF-8。否则无法完成中文显示和数据传输。这里不考虑GBK的情况
2,在服务器端的程序之间,数据传输都是以UTF-8格式传输的。所有不用考虑中文乱码问题
3,setCharacterEncoding(“UTF-8”)是设置字符集,request调用是设置解码方式(因为是从页面过来的),而response调用时设置编码方式(因为要想页面输出内容,先在Servlet中编码)
4,getBytes(“UTF-8”);方法通过字符串调用,是按照指定字符集编码。
5,new String(string.getBytes(“ISO-8859-1”),”UTF-8”);方法将string字符串先以原始(ISO-8859-1)进行解码转成字节数组,在以(UTF-8)编码封装成新字符串。