用Java做编码转化

最新推荐文章于 2024-08-23 15:54:50 发布

zxy838279821

最新推荐文章于 2024-08-23 15:54:50 发布

阅读量1.7k

点赞数

分类专栏： JAVA 文章标签： java exception string byte 编程 c

JAVA 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

在做网页预处理的时候，遇到了网页的编码格式问题，系统默认以GBK解析文件，但遇到以Big5或utf-8编码的网页，则中文字符就变成了乱码。怎么办？听过有个名词叫编码国际化，似乎与该问题有关。
求教于同寝的C程序小牛人，一提起编码国际化，他就大摇其头，说用C来解决编码的问题那是相当的复杂。果然很复杂，一中午他也没弄出满意的结果。
于是，只好抱着我的Java自己想办法。用Java编程的一大好处，就是你可以省却很多细节处理上的麻烦，很多东西它都为你想到了。
其实用Java做编码的国际化非常方便，它本身就支持Unicode，更是提供了方便的接口进行编码互换，一个getBytes()，足以。代码如下：

......
   try
   {
       byte[] temp_1=stringgbk.getBytes("GBK");
       temp_2=new String(temp_1,"utf-8");
   }
   catch(Exception e)
   {
      e.printStackTrace();
   }
......

Java内在机制是以Unicode传输字符的，假设在转化前字符串是按照GBK进行解码的，Java程序读入的是GBK解码后的字符，则getBytes是将读入字符串重新还原成字节流；而后，将字符流按照要求的编码进行重新解码，示例中是用utf-8重新解码，得temp_2。

这个方法，简单，并且也基本实现了 gbk、utf-8以及big-5之间的转换；但今天又遇到了新的问题，对于iso-8859-1编码的字符串，此方法失效，换句话说，我还没有弄明白，java到底支持什么样的编码格式进行转换，或者，也许对java这种编码转化方法的理解根本上就存在问题？

zxy838279821

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
用Java做编码转化

在做网页预处理的时候，遇到了网页的编码格式问题，系统默认以GBK解析文件，但遇到以Big5或utf-8编码的网页，则中文字符就变成了乱码。怎么办？听过有个名词叫编码国际化，似乎与该问题有关。求教于同寝的C程序小牛人，一提起编码国际化，他就大摇其头，说用C来解决编码的问题那是相当的复杂。果然很复杂，一中午他也没弄出满意的结果。于是，只好抱着我的Java自己想办法。用Java编程的一大好处，就
复制链接

扫一扫

专栏目录