解决tomcat中文乱码,了解乱码背后的原因
Tomcat接受浏览器请求,在处理数据时产生乱码,原因是:tomcat不知道浏览器发来数据的编码格式,此时tomcat会使用默认的ISO8859-1去解析,导致乱码。
让tomcat选择正确的编码解析是解决乱码的根本。
请求编码的处理
1. GET请求:
Connector的两个配置项
1.URIEncoding
这个参数用来针对url传参方式,也就是get请求的编码类型的设定
2.useBodyEncodingForURI
一个boolean类型的参数,用来决定url传参方式的编码是否与请求体编码一致,那么请求体编码又如何获取?请看下文”POST请求“
<Connector connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI = “true”/>
注意:这两个参数只是针对url传参方式,也就是get请求,选其一进行配置即可,tomcat在处理get请求时,会关注这两个参数,并按所指定的编码去解码请求,未设置,默认以ISO8859-1。
2. POST请求
tomcat在接受到一个post请求时,对于请求体编码的获取最多分为3步
1.检查请求头Content-Type是否包含编码信息,比如对于头:Content-Type:application/json;charset=utf-8
tomcat会按ut8的方式进行解码。
2.如果第一步从Content-Type未能找到对应编码,tomcat会检查是否使调用过ServletRequest.setCharacterEncoding(xx)设置过编码,如果有,则使用此编码。
3.对于servlet4.0规范的接口ServletContext新增的接口方法setRequestCharacterEncoding(java.lang.String encoding)用于设置当前应用上下文下所有请求的请求体的编码格式。
4.如果以上三步都没有找到,则使用默认的ISO8859-1。
知道背后原因后就可以总结出解决乱码的方法:对于get请求,我们可以使用useBodyEncodingForURI来让tomcat按照请求体编码去解析请求,对于请求体编码,我们又可以通过过滤器进行拦截,并通过ServletRequest.setCharacterEncoding(xx)设置正确的编码,这样get与post请求编码都统一了。
响应编码的处理
ServletResponse有两个方法用于设置响应的编码格式:
setContentType(“text/html;charset=UTF-8”)
setCharacterEncoding(“UTF-8”)
这两个方法其实有两个作用:
1.向客户端浏览器回响应时,会添加一个content-type头,并指定编码类型为UTF-8,让浏览器知道字节数据的解码类型并正确显示。
2当通过ServletResponse.getWriter()获取Writer,并通过其写入的所有字符串都会默认以UTF-8进行编码为字节输出到浏览器。
当然如果你是通过ServletResponse.getOutputStream()进行直接写入时,tomcat不做任何处理,直接输出到浏览器。