分析Java中乱码问题产生的根

最新推荐文章于 2023-07-02 11:34:42 发布

zgmzyr

最新推荐文章于 2023-07-02 11:34:42 发布

阅读量859

点赞数

分类专栏： encoding 文章标签： java byte string servlet variables login

encoding 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

最近用到了字符串的压缩，用到了GZipInputStream和GZipOutputStream，再次遇到了阔别已久的中文乱码问题。

　　看了一些相关的文章，觉得我们之所以会遇到这样那样的乱码问题，基本上都是由于我们在某些地方隐含了byte到char的转换，而这种隐含的转换采用的是iso-8859-1的编码进行的。

　　以jsp页面中文传递为例子，假设客户端的编码是GB2312,表单中的中文提交后，首先根据GB2312编码转换为字节流，到达服务器端后，如果我们直接在servlet中调用request.getParameter(String name)等方法，由于方法返回的是String 对象，所以其中必然隐含了一次从byte到char的转换，错误也就是在这里产生的，如果这次转换采用的编码是iso-8859-1，得到的当然是乱码。

　　public class Login

　　extends HttpServlet {

　　private static final String CONTENT_TYPE = "text/html; charset=UTF-8";

　　.....

　　//Initialize global variables

　　public void init() throws ServletException {

　　}

　　//Process the HTTP Get request

　　public void doGet(HttpServletRequest request, HttpServletResponse response) throws

　　ServletException, IOException {

　　String name = request.getParameter("userid");//隐含的转换

　　name = new String(name.getBytes("iso-8859-1"), "GB2312");//还原字节，重新构造

　　response.setContentType(CONTENT_TYPE);

　　PrintWriter out = response.getWriter();

　　out.println("<html>");

　　out.println("<head><title>Login</title></head>");

　　out.println("<body bgcolor=/"#ffffff/">");

　　out.println("The servlet has received a GET. This is the reply.");

　　out.println("</body>");

　　out.println("</html>");

　　out.close();

　　}

　　}

　　幸好，以iso-8859-1进行的默认转换不会损失字节，也不会增加字节，我们只要按照iso-8859-1的方式返回原来的字节数组，重新按照GB2312的方式进行byte 到char的转换就可以了。

　　再以压缩流为例（文件流实际上也是一样的)

　　public String uncompress(byte[] cmp) {

　　String ret = "";

　　int i;

　　byte[] buf = new byte[512];

　　try {

　　/**

　　*新的方式，始终保持以字节为核心，最后再按照合适的编码进行组装

　　*/

　　BufferedInputStream bis = new BufferedInputStream(new GZIPInputStream(new

　　ByteArrayInputStream(cmp)));

　　/**

　　* 以前的方式

　　* 在 new InputStreamReader()的时候发生了隐含的byte到char的转换，导致之后出来的都是乱码

　　*/

　　//

　　BufferedReader bis = new BufferedReader(new InputStreamReader(new

　　//

　　GZIPInputStream(new

　　//

　　ByteArrayInputStream(cmp))));

　　ByteArrayOutputStream baos = new ByteArrayOutputStream();

　　BufferedOutputStream bos = new BufferedOutputStream(baos);

　　while ( (i = bis.read(buf)) > 0) {

　　bos.write(buf, 0, i);

　　}

　　bos.close();

　　baos.close();

　　bis.close();

　　ret = new String(baos.toByteArray());//用平台默认的编码进行组装，我是GB2312

　　}

　　catch (IOException ex) {

　　ex.printStackTrace();

　　}

　　return ret;

　　}

　　reader是以字符为核心，inputStream是以byte为核心的，当他们转换的时候就会进行byte到char的转换，所以我们要注意自己的调用的顺序。

　　我们如果今后再遇到乱码的问题，就去找找自己是不是什么地方进行了隐含的byte到char的转换。

zgmzyr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分析Java中乱码问题产生的根

 最近用到了字符串的压缩，用到了GZipInputStream和GZipOutputStream，再次遇到了阔别已久的中文乱码问题。 　　看了一些相关的文章，觉得我们之所以会遇到这样那样的乱码问题，基本上都是由于我们在某些地方隐含了byte到char的转换，而这种隐含的转换采用的是iso-8859-1的编码进行的。 　　以jsp页面中文传递为例子，假设客户端的编码是GB2312,表单中的中文提交后，首先根据GB2312编码转换为字节流，到达服务器端后，如
复制链接

扫一扫

专栏目录