web开发中的中文问题

HTTP-GET和HTTP-POST

  HTTP-GET和HTTP-POST是使用HTTP的标准协议动词,用于编码和传送变量名/变量值对参数,并且使用相关的请求语义。每个HTTP-GET和HTTP-POST都由一系列HTTP请求头组成,这些请求头定义了客户端从服务器请求了什么,而响应则是由一系列HTTP应答头和应答数据组成,如果请求成功则返回应答。

  HTTP-GET以使用MIME类型application/x-www-form-urlencoded的urlencoded文本的格式传递参数。Urlencoding是一种字符编码,保证被传送的参数由遵循规范的文本组成,例如一个空格的编码是"%20"。附加参数还能被认为是一个查询字符串。

  与HTTP-GET类似,HTTP-POST参数也是被URL编码的。然而,变量名/变量值不作为URL的一部分被传送,而是放在实际的HTTP请求消息内部被传送。
       URLEncoded是用ISO-88591进行编码
 

在tomcat5中发现了以前处理tomcat4的方法不能适用于处理直接通过url提交的请求,上网找资料终于发现了最完美的解决办法,不用每个地方都转换了,而且无论get,和post都正常。写了个文档,贴出来希望跟我有同样问题的人不再像我一样痛苦一次:-)

上传文件有问题,只好直接贴了,难看点:-)

-------------------
Tomcat 5中文问题
author:kiss__sky@163.com
-------------------

问题描述:

1 表单提交的数据,用request.getParameter(“xxx”)返回的字符串为乱码或者??
2 直接通过url如http://localhost/a.jsp?name=中国,这样的get请求在服务端用request. getParameter(“name”)时返回的是乱码;按tomcat4的做法设置Filter也没有用或者用request.setCharacterEncoding("GBK");也不管用

原因:
1 tomcat的j2ee实现对表单提交即post方式提示时处理参数采用缺省的iso-8859-1来处理
2 tomcat对get方式提交的请求对query-string 处理时采用了和post方法不一样的处理方式。(与tomcat4不一样,所以设置setCharacterEncoding(“gbk”))不起作用。


解决办法:

首先所有的jsp文件都加上:


1 实现一个Filter.设置处理字符集为GBK。(在tomcat的webapps/servlet-examples目录有一个完整的例子。请参考web.xml和SetCharacterEncodingFilter的配置。)

1)只要把%TOMCAT安装目录%/ webapps/servlets-examples/WEB-INF/classes/filters/SetCharacterEncodingFilter.class文件拷到你的webapp目录/filters下,如果没有filters目录,就创建一个。
2)在你的web.xml里加入如下几行:


<filter>
<filter-name>Set Character Encoding</filter-name>
<filter-class>filters.SetCharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>GBK</param-value>
</init-param>
</filter>

<filter-mapping>
<filter-name>Set Character Encoding</filter-name>
<url-pattern>/*</url-pattern>
</filter-mapping>


3)完成.

2 get方式的解决办法
1) 打开tomcat的server.xml文件,找到 区块,加入如下一行:
URIEncoding=”GBK”
完整的应如下:


<Connector
port="80" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
debug="0" connectionTimeout="20000"
disableUploadTimeout="true"
URIEncoding="GBK"
/>



2)重启tomcat,一切OK。

执行如下jsp页页测试是否成功


<%@ page contentType="text/html;charset=gb2312"%>
<%@ page import="java.util.*"%>

<%

String q=request.getParameter("q");
q = q == null? "没有值" : q;

%>


<HTML>
<HEAD><TITLE>新闻列表显示</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META http-equiv=pragma content=no-cache>
<body>
你提交了:
<%=q%>

<br>
<form action="tcnchar.jsp" method="post">
输入中文:<input type="text" name="q"><input type="submit" value="确定">
<br>
<a href="tcnchar.jsp?q=中国">通过get方式提交</a>

</form>
</BODY></HTML>



测试结果如果你输入文本框或者点超链都会显示:你提交了”中国”,说明成功!!!!!



特别感谢下面这篇帖子,帮我解决了中文问题.最后祝大家好运!!!
参考网址:

http://www.javaworld.com.tw/jute/post/view?bid=9&id=44042&sty=1&tpg=1&age=0

Java 中文问题一直困扰许多学习者。总结了下面的一些情况的解决方法。
希望对大家有帮助。

连接 Mysql Database Server:
-------------------------------------------------------------------------------
 mysql 不支持 unicode,所以比较麻烦。
 将 connectionString 设置成 encoding 为 gb2312
 String connectionString
 = "jdbc:mysql://localhost/test?useUnicode=true&characterEncoding=gb2312";

测试代码:
       String str = "汉字";
       PreparedStatement pStmt = conn.prepareStatement("INSERT INTO test VALUES (?)");
       pStmt.setString(1,str);
       pStmt.executeUpdate();

数据库表格:
 create table test (
   name char(10)
 )


连接 Oracle Database Server
-------------------------------------------------------------------------------
 在把汉字字符串插入数据库前做如下转换操作:
 String(str.getBytes("ISO8859_1"),"gb2312")

测试代码:
       String str = "汉字";
       PreparedStatement pStmt = conn.prepareStatement("INSERT INTO test VALUES (?)");
       pStmt.setString(1,new String(str.getBytes("ISO8859_1"),"gb2312");
       pStmt.executeUpdate();


Servlet
-------------------------------------------------------------------------------
 在 Servlet 开头加上两句话:
 response.setContentType("text/html;charset=UTF-8");
 request.setCharacterEncoding("UTF-8");

JSP
-------------------------------------------------------------------------------
 在 JSP 开头加上:

10:52 | 评论 (0)

2005年1月20日 #

自定义错误页面

在web.xml中定义

<error-page>
   <error-code>500</error-code>
  <location>/error.jsp</location>
  </error-page>

注意的是不能和jsp中的%@page errorpage=””%共用

不然以jsp的errorpage为准,但是如果出现404,500等错误时,就依旧以web服务器的默认页面出线而非自定义错误页面,这时候应去掉errorPage定义,而通过web.xml进行设置

15:23 | 评论 (0)

2005年1月19日 #

汉字编码及相关问题

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。
  在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。
  后来,由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。
  例如在GB-2312字符集中,“连通”的编码为C1 AC CD A8,其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留,例如“0”的编码是30H(30H表示十六进制的30)。软件在读取时,如果看到30H,知道它小于128就是标准ASCII,表示“0”,看到C1大于128就知道它后面有一个另外的编码,因此C1 AC一同构成一个整个的编码,在GB-2312字符集中表示“连”。
  由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了Unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。
  例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为:DE 8F 1A 90
而其UTF-8编码为:E8 BF 9E E9 80 9A
  最后,当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码:
  最标准的途径是检测文本最开头的几个字节,如下表:

开头字节 Charset/encoding
EF BB BF    UTF-8
FE FF     UTF-16/UCS-2, little endian
FF FE     UTF-16/UCS-2, big endian
FF FE 00 00  UTF-32/UCS-4, little endian.
00 00 FE FF  UTF-32/UCS-4, big-endian.

  例如插入标记后,连通”两个字的UTF-16 (big endian)和UTF-8码分别为:
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A
  但是MBCS文本没有这些位于开头的字符集标记,更不幸的是,一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此,软件不能依赖于这种途径。这时,软件可以采取一种比较安全的方式来决定字符集及其编码,那就是弹出一个对话框来请示用户,例如将那个“连通”文件拖到MS Word中,Word就会弹出一个对话框。
  如果软件不想麻烦用户,或者它不方便向用户请示,那它只能采取自己“猜”的方法,软件可以根据整个文本的特征来猜测它可能属于哪个charset,这就很可能不准了。使用记事本打开那个“连通”文件就属于这种情况。
  我们可以证明这一点:在记事本中键入“连通”后,选择“Save As”,会看到最后一个下拉框中显示有“ANSI”,这时保存。当再当打开“连通”文件出现乱码后,再点击“File”->“Save As”,会看到最后一个下拉框中显示有“UTF-8”,这说明记事本认为当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明,记事本猜测了“连通”文件的字符集,认为它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的,这是一个巧合,不是所有文字都这样。可以使用记事本的打开功能,在打开“连通”文件时在最后一个下拉框中选择ANSI,就能正常显示了。反过来,如果之前保存时保存为UTF-8编码,则直接打开也不会出现问题。
  如果将“连通”文件放入MS Word中,Word也会认为它是一个UTF-8编码的文件,但它不能确定,因此会弹出一个对话框询问用户,这时选择“简体中文(GB2312)”,就能正常打开了。记事本在这一点上做得比较简化罢了,这与这个程序的定位是一致的。
  我们再次感谢高工给我们带来的解释,让我们对这一现象有了比较清楚的认识。

 

汉字编码测试

以下是对windows(本例在windows XP下)环境下关于汉字编码的测试,原理可以参见汉字编码问题

  打开windows附带的计事本,输入“中文zZ”四字符,保存为“中文.txt”后再打开,不会发现任何问题。用UltraEdit(本例为10.0版本,以下同)查看其十六进字编码为:D6 D0 CE C4 7A 5A (前四字节为两中文编码,后两个字节为英文编码) 编码状态栏显示:DOS

  把用记事本打开的“中文.txt”的文件选择“另存为”,下拉框里由“ansi”改为选择“unicode”,存为“中文-unicode.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE 2D 4E 87 65 7A 00 5A 00 (前两个字节为文件编码标志,此后四字节为中文unicode编码,最后四个字节为两英文字符。),编码状态显示:U-DOS

  把用记事本打开的“中文.txt“文件选择“另存为”,下拉框里由“ansi”改为选择“unicode-big-endian”,存为“中文-unicode-big-endian.txt”,用记事本打开能正常显示,用UltraEdit打开出现乱码,查看其十六进制编码为:FE FF 4E 2D 65 87 00 7A 00 5A (怎么跟unicode一比是倒了个个儿)。编码状态显示为: DOS (没把它当Unicode ,怪不得显示不正常)。

  把用记事本打开的“中文.txt”文件选择“另存为”,下拉框里由“ansi”改为选择“UTF-8”,存为“中文-utf-8.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 2D 4E 86 65 7A 00 5A 00 (前四个字节为文件前导字符,中间四个为两汉字,最后四个为两字母。),编码状态显示为:U8-DOS

  新建一个.txt文件,用windows附带的计事本打开,输入“联通zZ”二字,保存为“联通.txt”后再打开,出现乱码(用另存为可以看到记事本误认为编码为UTF-8)。用UltraEdit查看其十六进制编码为:FF FE 6A 00 68 03 7A 00 5A 00(编码状态为U8-DOS)。

  打开记事本,输入“联通zZ”,选择另存为“联通utf-8.txt”,按默认“UTF-8”保存,用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 54 80 1A 90 7A 00 5A 00 (前四个字节为文件前导,中间四字节为两汉字,最后四字节为两英文件字符)。编码状态显示为:U8-DOS

  打开记事本,输入“联通zZ”,选择另存为“联通unicode.txt”,按“unicode”保存,再用UltraEdit打开,查看其十六进制编为:FF FE 54 80 1A 90 7A 00 5A 00 (前面两字节为前导符,其后四字节为两汉字,后面四字节为两英文)。编码状态为:U-DOS

  因此,这里有个怪现象(BUG),在Windows下不管是用记事本,或是UltraEdit,或是,Dreamweaver 如果只是以“联通”打头的文档,保存后再打开就不能正常显示了,也就是说“联通”(当然还有其它的汉字如“连通”)两字打头的文档都不能正常的保存为ANSI格式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值