你知道JDK9 为何要将 String 的底层实现由 char[] 改成了 byte[]吗 ?

辰溪0502

已于 2022-05-12 10:18:31 修改

阅读量467

点赞数 2

文章标签： java java-ee

于 2022-03-25 11:27:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43788143/article/details/123727671

版权

JDK 8：
在这里插入图片描述
JDK9：

从 char[] 到 byte[]，最主要的目的是为了节省字符串占用的内存。内存占用减少带来的另外一个好处，就是 GC 次数也会减少。

众所周知，char 类型的数据在 JVM 中是占用两个字节的，并且使用的是 UTF-8 编码。也就是说，使用 char[] 来表示 String 就导致了即使 String 中的字符只用一个字节就能表示，也得占用两个字节。而实际开发中，单字节的字符使用频率仍然要高于双字节的。

当然了，仅仅将 char[] 优化为 byte[] 是不够的，还要配合 Latin-1 的编码方式，该编码方式是用单个字节来表示字符的，这样就比 UTF-8 编码节省了更多的空间。

换句话说，对于：

String name = "bobo";

这样的，使用 Latin-1 编码，占用 4 个字节就够了。

但对于：

String name = "辰溪";

这种汉字只能用只能使用 UTF16 来编码。

针对 JDK 9 的 String 源码里，为了区别编码方式，追加了一个 coder 字段来区分。如下图所示：
在这里插入图片描述
Java 会根据字符串的内容自动设置为相应的编码，要么 Latin-1 要么 UTF16。

也就是说，从 char[] 到 byte[]，中文是两个字节，纯英文是一个字节，在此之前呢，中文是两个字节，英文也是两个字节。

为什么用UTF-16而不用UTF-8呢？

在 UTF-8 中，0-127 号的字符用 1 个字节来表示，使用和 ASCII 相同的编码。只有 128 号及以上的字符才用 2 个、3 个或者 4 个字节来表示。所以UTF-8 是变长的，那对于 String 这种有随机访问方法的类来说，就很不方便。所谓的随机访问，就是charAt、subString这种方法，随便指定一个数字，String要能给出结果。如果字符串中的每个字符占用的内存是不定长的，那么进行随机访问的时候，就需要从头开始数每个字符的长度，才能找到你想要的字符。

虽然UTF-16 也使用 2 个或者 4 个字节来存储字符，但是其编码的长度是不变的，如下图所示：
在这里插入图片描述

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
你知道JDK9 为何要将 String 的底层实现由 char[] 改成了 byte[]吗 ?

你知道JDK9 为何要将 String 的底层实现由 char[] 改成了 byte[]吗 ?
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

辰溪0502 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。