前几天学JSP,发现当<%@include file=" 1.html"%> <%@include file=" 1.txt"%> 会出现乱码的情况,但是<%@include file=" 1.jsp"%> 就不会出现乱码情况。
然后看了好多的博客修改了很多地方,将所有的文件都改为UTF-8,或者gbk、gb2312,然并卵。包括修改web.xml依然没有效果。然后就对起其中的原理进行了一番探索,得到了以下这些结论:
关于JSP页面中的pageEncoding和contentType两种属性的区别:
pageEncoding是jsp文件本身的编码
contentType的charset是指服务器发送给客户端时的内容编码
JSP要经过两次的“编码”,第一阶段会用pageEncoding,第二阶段会用utf-8至utf-8,第三阶段就是在客户端浏览器里看到的网页,用的是contentType。
第一阶段是jsp编译成.java,它会根据pageEncoding的设定读取jsp,结果是由指定的编码方案翻译成统一的UTF-8JAVA源码(即.java),如果pageEncoding设定错了,或没有设定,出来的就是中文乱码。
第二阶段是由JAVAC的JAVA源码至javabyteCode的编译,不论JSP编写时候用的是什么编码方案,经过这个阶段的结果全部是UTF-8的encoding的java源码。
JAVAC用UTF-8的encoding读取java源码,编译成UTF-8encoding的二进制码(即.class),这是JVM对常数字串在二进制码(javaencoding)内表达的规范。
第三阶段是Tomcat(或其的application container)载入和执行阶段二的来的JAVA二进制码,输出的结果,也就是在客户端见到的,这时隐藏在阶段一和阶段二的参数contentType就发挥了功效。
而include指令就是在第一阶段之前执行的,注意这个是在第一阶段之前,所以,如果包含文件和被包含文件的文件编码不是utf-8,那么,该指令就会工作不太正常,不能正确的把被包含的文件从原来编码转换为包含文件的编码,就会出现乱码现象.
解决办法:在1.HTML最上边添加
<%@pagelanguage=”java”pageEncoding=”UTF-8”%>
这是告诉 HTML页以UTF-8的格式转译,这样在@include 包含html时,才做到编码统一。否则将会出现独立不乱码,一旦包含就将会乱码
在1.txt最上边添加
<%@pagelanguage=”java”pageEncoding=”gbk”%>
这里pageEncoding如果是utf-8的话在部分eclipse中可以实现不乱码,但是gbk一定可以实现。所以我们采用gbk。
在很多博客中建议修改的是web.xml。如果你们按照以上方法不行的话,可以尝试修改,此处不过多介绍。