中文转码问题总结

中文转码问题总结

出处:http://www.cnblogs.com/tangyanbo/

1. 编码基础知识

1.1 编码

ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号

单字节,即一个字节对应一个编码,不能编码汉字

1.2 GBK

1) 能编码汉字,一个汉字用2个字节编码

2) 编码的汉字比GB2312更多

1.3 GB2312

能编码汉字,一个汉字用2个字节编码

1.4 UTF-8

能编码汉字,一个汉字用3个字节编码

汉字,字母,特殊符号,gbk和utf-8之间是可以互相转换的

2. Web系统转换编码

2.1 原理

这里边有个编码和解码的过程

网络传输发送端需要将字符串编码成字节

可以是utf-8,gbk等,转换成字节的过程中不能丢失编码

接收端需要用发送端同样的编码方式进行解码,否则将出现乱码

一般由服务端确定一种编码和解码的方式,

然后告知客户端编码和解码的方式

网络传输编码
2.2.1 接收浏览器POST请求

设置浏览器编码和解码方式为utf-8

如:

<%@ page pageEncoding="utf-8" contentType="text/html; charset=utf-8" language="java"%>

服务端解码方式1:

String name = new String(request.getParameter("name").getBytes("ISO-8859-1"),"UTF-8");

服务端解码方式2:

request.setCharacterEncoding("UTF-8");
2.2.2 接收浏览器GET请求

如:

http://localhost:8888/webtest/EncodeServlet?name=你好

浏览器将会对url进行urlEncode,编码方式为UTF-8

服务端解码方式:

String name = new String(request.getParameter("name").getBytes("ISO-8859-1"),"UTF-8");

此处用request.setCharacterEncoding("UTF-8");来设置解码,不能奏效,原因是get请求将参数拼在url后面进行url encode,而web容器对url的解码是在调用servlet之前,且默认解码方式是iso-8859-1

2.2.3 响应给浏览器

Response设置编码:

Response是指响应给客户端时,字节的编码方式,默认为ISO-8859-1

可用如下方法查看:

response.getCharacterEncoding();

设置响应流的编码方式:

response.setCharacterEncoding("UTF-8");

设置浏览器的编码和解码方式:

response.setContentType("text/html;charset=UTF-8");

jsp设置:

<%@ page pageEncoding="utf-8" contentType="text/html; charset=utf-8" language="java"%>

pageEncoding:设置jsp文件存储编码

contentType里面的charset:设置浏览器端传输的编码和解码

解析响应时解码,发送请求时编码

要保持响应流和编码和浏览器解码方式一致,才能不乱码

2.2.4 HTTPClient设置编码
控制编码

Struts.xml中做如下配置:

<constant name="struts.i18n.encoding" value="utf-8"></constant>

2.4 Spring控制编码

Web.xml中配置如下:

复制代码
复制代码
<filter>

<filter-name>encodingFilter</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter

</filter-class>

<init-param>

<param-name>encoding</param-name>

<param-value>UTF-8</param-value>

</init-param>

<init-param>

<param-name>forceEncoding</param-name>

<param-value>true</param-value>

</init-param>

</filter>
复制代码
复制代码

其中encoding设置服务端编码和解码的方式

forceEncoding表示强制编码的方式

3. 字符串转字节转码

复制代码
复制代码
String s = "s汉";

byte[] bytes1 = s.getBytes("ISO-8859-1");//丢失字符

byte[] bytes2 = s.getBytes("GBK");

byte[] bytes3 = s.getBytes("UTF-8");
复制代码
复制代码

4. 字节转字符串

String s1 = new String(bytes1,"utf-8");//丢失

String s2 = new String(bytes2,"GBK");

String s3 = new String(bytes3,"utf-8");
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值