Java 之码点与代码单元

最新推荐文章于 2022-07-24 11:21:10 发布

zysns

最新推荐文章于 2022-07-24 11:21:10 发布

阅读量409

点赞数

分类专栏： Java 文章标签： java 编码笔记

本文链接：https://blog.csdn.net/zysns/article/details/100152614

版权

Java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Java 之码点与代码单元

一个码点是信息原子的单元。文本是一连串的码点。每一个码点是一个由标准的Unicode编码规定的数字。

而代码单元是用于存储码点的单位，一个代码单元可以存储一个码点或码点的一部分。

在Java中，String是由一串char排列而成。而char数据类型是一个采用UTF-16编码表示Unicode码点的代码单元。大多数的常用Unicode字符使用一个代码单元就可以表示出来，但一部分辅助字符则需要一对代码单元才能表示出来。

在String中，length本质上是对String的代码单元的个数进行计数，由于一部分双代码单元的辅助字符存在，会有极小部分情况下length返回的长度并不是字符串的实际长度。

以“?”为例：

public class demo2 {
    public static void main(String[] args) {
        String string = "\uD835\uDD46";
        System.out.println(string + " " + string.length());
    }
}

在这里插入图片描述

可以看到，虽然字符串中只有一个字符存在，但字符串的长度却返回为2。

如何解决这个问题呢?

要想得到实际的长度，即码点数量，我们可以采用如下代码：

int cpCount = string.codePointCount(0, string.length())

两个参数的含义分别为计数的起始位置以及结束位置（前闭后开）。

同理，如果我们调用charAt()函数，将返回的是位置n的代码单元，而不是码点。

如果需要获取第i位置的码点，可以采用以下代码：

int cp = string.codePointAt(string.offsetByCodePoints(0, i))

返回此 String 中从给定的 index 处偏移 codePointOffset 个代码点的索引。

如果想要遍历整个字符串并获得字符串的所有码点，可以使用如下代码：

int[] ch = string.codePoints().toArray();
        for (int ch1: ch
             ) {
            System.out.println(ch1);
        }

反之，要把一个码点数组转换成一个字符串，这可以使用如下代码;

String str = new String(codePoints, 0, codePoints.length)

总之，我们可以看到使用char时会产生一些问题，因此，我们尽量不要使用char类型。

zysns

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录