Java字符编码问题

编程时通常会遇到两种编码形式ANSIUTF-8形式,ANSI是根据地区而更改的编码格式,在中国大陆为GBK,在美国就是ASCII编码.而UNF-8Unicode编码的一个小分支,Unicode是全世界统一

字符串乱码的产生

本质上都是由于 字符串原本的编码格式读取时解析用的编码格式 不一致导致的

Java中getBytes函数的作用

使用命名Charset将此字符串置入一系列字节,将结果存储到新字节数组中。简单说就是
byte[] a = b.getBytes("UTF-8");
将b字符串按照UTF-8的形式编码

乱码案例

public static void main(String a[]) throws UnsupportedEncodingException
	{
		String s = "你好哦!";
		System.out.println( new String(s.getBytes(),"UTF-8")); 
		//因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。
	}

因为默认getbyte()的默认参数是GBK,因为两次的编码形式不同而导致乱码

解决的方法

解决办法就是将两次编码形式统一起来

System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

如何正确的将GBK转UTF-8 ?

String gbkStr = "你好哦!"; //源码文件是GBK格式,或者这个字符串是从GBK文件中读取出来的, 转换为string 变成unicode格式
//利用getBytes将unicode字符串转成UTF-8格式的字节数组
byte[] utf8Bytes = gbkStr.getBytes("UTF-8"); 
//然后用utf-8 对这个字节数组解码成新的字符串
String utf8Str = new String(utf8Bytes, "UTF-8");

简化后的操作就是:

unicodeToUtf8 (String s) {
return new String( s.getBytes("utf-8") , "utf-8");
}
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值