1个汉字的字节数真是2吗？

喝粥也会胖的唐僧

于 2018-07-30 16:19:08 发布

阅读量1.6k

点赞数

分类专栏： Java基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhou_438/article/details/81287005

版权

Java基础专栏收录该内容

37 篇文章 3 订阅

订阅专栏

问题缘由是最近做了一个简单的试验，无意间发现并不是这样的。先附上代码，如下：

public class ChineseBytes {

	public static void main(String[] args) {

		String str=new String("你好，世界。");
		System.out.print("+");                          
        for (int i = 0; i < str.getBytes().length; i++) {               
            System.out.print("-");                      
        }
        System.out.println("+"); 
        System.out.println("你好，世界。"); 
		
	}
		 
	}

结果如下：

+------------------+
你好，世界。

仔细一下就不对劲，平时我们都讲一个中文对应2个字节，我无聊数了一下，刚好18个字节，也就是刚好一个中文对应3个字节，难道真的是巧合吗？然后就去查了相关的资料，发现不同的编码方式字节码是不同，由于我的eclipse用的编码方式是UTF-8（因为有段时间打开网上的源码中文注释是乱码的，原是使用GBK的，才改用的UTF-8），刚好是三倍。资料显示，如果是采用GBK的话，会是2个字节，于是我试了一下：

+------------+
你好，世界。

结果果然如此。下表总结了不同的编码对应的字节数。

英文字母：

GB2312

1

GBK

1

GB18030

1

ISO-8859-1

1

UTF-8

1

UTF-16

4

UTF-16BE

2

UTF-16LE

2

中文汉字：

GB2312

2

GBK

2

GB18030

2

ISO-8859-1

1

UTF-8

3

UTF-16

4

UTF-16BE

2

UTF-16LE

2

我们可以看到，UTF-16不管中文还是英文，都是对应4个字节。英文多数都是对应1个字节，和平常所说的一个英文对应一个字节很符合，除了UTF-8以后的都是1；西欧编码（ISO-8859-1）的中文居然只有1个字节。

喝粥也会胖的唐僧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
1个汉字的字节数真是2吗？

问题缘由是最近做了一个简单的试验，无意间发现并不是这样的。先附上代码，如下：public class ChineseBytes { public static void main(String[] args) { String str=new String("你好，世界。"); System.out.print("+"); ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。