解决URL传中文参数乱码问题及原理

最新推荐文章于 2021-12-20 15:06:04 发布

Xu_jesse

最新推荐文章于 2021-12-20 15:06:04 发布

阅读量479

点赞数

分类专栏： java

原文链接：https://blog.csdn.net/yangfu1608/article/details/82415410

版权

java 专栏收录该内容

34 篇文章 0 订阅

订阅专栏

解决方案
在前台，对URL的中文参数执行两次encodeURI：

var param = encodeURI(encodeURI("中文"));

后台取数据时使用 URLDecoder进行解码：

String param = (String)request.getParameter("param");
param = URLDecoder.decode(param,"UTF-8");

原理解析
前台传的参数“中文”：

第一次encodeURI，按照utf-8方式获取字节数组变成[-28,-72,-83,-34,-67,-41]，对字节码数组进行遍历，把每个字节转化成对应的16进制数，这样就变成了[e4,b8,ad,e6,96,87]，最后变成[%e4,%b8,%ad,%e6,%96,%87]。

第二次encodeURI，把数组最后变成[%25e4,%25b8,%25ad,%25e6,%2596,%2587]然后就把处理后的数据[%25e4,%25b8,%25ad,%25e6,%2596,%2587]发往后台服务器端。

当服务器调用getParameter方法获取参数时，服务器将读取前台传过来的[%25e4,%25b8,%25ad,%25e6,%2596,%2587]，然后执行一次URLdecode操作，然后将操作的结果[%e4,%b8,%ad,%e6,%96,%87]返回给getParameter，此时再执行一次URLdecode就可以把数据还原成最初页面发送过来的“中文”了。

URL编码与两次encodeURI
当使用地址栏提交查询参数时，如果不编码，非英文字符会按照操作系统的字符集进行编码提交到服务器，服务器会按照配置的字符集进行解码，所以如果两者不一致就会导致乱码。

encodeURI函数采用UTF-8对URL进行编码，所以如果服务器在进行解码时使用的是其他的编码方式就会出现乱码，默认的服务器配置的解码字符集都不是UTF-8，所以大部分情况下地址栏提交中文查询参数时会产生乱码；针对这种情况，可以连续使用两次encodeURI在客户端(主要指浏览器)对非英文字符进行编码，然后在服务端使用Java.NET.URLDecoder(String.“UTF-8”)解码，即可得到正确的中文。

如果只进行一次encodeURI，得到的是UTF-8形式的URL，服务器端通过request.getParameter()解码查询参数(通常是iso-8859-1)就会得到乱码。

如果进行两次encodeURI,第一次编码得到的是UTF-8形式的URL，第二次编码得到的依然是UTF-8形式的URL，但是在效果上相当于首先进行了一次UTF-8编码(此时已经全部转换为ASCII字符)，再进行了一次iso-8859-1编码，因为对英文字符来说UTF-8编码和ISO-8859-1编码的效果相同。在服务器端，首先通过request.getParameter()自动进行第一次解码(可能是gb2312,gbk,utf-8,iso-8859-1等字符集,对结果无影响)得到ascii字符，然后再使用UTF-8进行第二次解码，通常使用java.net.URLDecoder("",“UTF-8”)方法。

两次编码两次解码的过程为：

UTF-8编码->UTF-8(iso-8859-1)编码->iso-8859-1解码->UTF-8解码，编码和解码的过程是对称的，所以不会出现乱码。

encodeURL函数主要是来对URI来做转码，它默认是采用的UTF-8的编码.
. UTF-8编码的格式:一个汉字来三个字节构成，每一个字节会转换成16进制的编码，同时添加上%号

原文地址：https://blog.csdn.net/yangfu1608/article/details/82415410