Java Web中文乱码问题

  • 为什么要编码

    • 计算机中存储信息的最小单元是1个字节,(1Byte = 8 bit),能够表示的字符范围是 0- 255.
    • 需要表示的字符太多,无法用1 个字符表示。
  • 编码格式

    • 1,ASCII码: 总共有128个,用1 个字节的低7位表示,
    • 2,ISO-8859-1:总共能表示256个字符
    • 3,GB2312:双字节编码,含6763个汉字
    • 4,GBK:含21003个汉字,它的编码和GB2312是兼容的,即用GB2312编码的汉字可以用GBK来解码。且不会乱码,这是因为GBK编码的范围比GB2312更大。
    • 5,UTF-16:采用定长的表示方法,用两个字节来表示,两个字节是16bit,不论什么字符都可以用两个字节来表示。
    • 6,UTF-8:采用变长技术, 由于很大一部分字符用一个字节就可以表示,不需要用两个字节。
  • 几种编码方式的比较:
    • GBK和GB2312编码规则类似,但GBK范围更大,它能处理所有汉字字符,应选择GBK。
    • UTF-16和UTF-8都是处理Unicode编码,编码规则不太相同,UTF-16编码效率较高,但UTF-8更适合网络传输,
    • 编码效率上: GBK < UTF-8 < UTF-16 ,但UTF-8更适合在网络传输,因为网络传输容易损坏字节流,

3,Java Web中的编解码

  • 数据经过网络传输时都是以字节为单位的,所以所有的数据都必须能够被序列化为字节,在Java中数据要被序列化,必须继承Serializable接口。

  • 用户从浏览器发起一个HTTP请求,需要存在编码的地方是URL、Cookie、Parameter,服务器接收到HTTP请求后要解析HTTP,其中URL、Cookie和POST表单参数需要解码,服务器可能需要读取数据库中的数据–本地或网络中的文本文件,都可能存在编码问题,当Servlet 处理完所有请求的数据后,需要将这些数据再编码,通过Socket发送到用户请求的浏览器里,再经过浏览器解码成为文本。

  • 对URL的URI部分进行解码的字符集是在connector的< Connector URIEncoding = “UTF-8” />中定义的,如果没有定义,则以默认的ISO-8859-1解析,所以有中文URL时最好把URIEncoding设置成 UTF-8 编码。

  • 当然在我们的服务器端server.xml中最好设置< Connector URIEncoding =”UTF-8” useBodyEncodingForURI=”true” />这两个参数。

    • POST表单的编解码:一定要在第一次调用 request.getParameter 方法之前就设置 request.setCharacterEncoding(charset), 否则POST 表单提交上来的数据可能出现乱码。MySQL中设置 characterEncoding=GBK。

    • 在JS中的乱码问题:使用 encodeURIComponent()函数进行转换,

    • -
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值