Unicode和char类型的详细讲解（小白专属）

最新推荐文章于 2024-06-14 18:28:08 发布

Sunny凝眸

最新推荐文章于 2024-06-14 18:28:08 发布

阅读量3.0k

点赞数

文章标签： Unicode char

本文链接：https://blog.csdn.net/weixin_45360456/article/details/97811960

版权

char类型用于表示单个字符，通常用来表示字符常量，字符是由编码进行记录的。例如：'A’是编码为65所代表的字符常量，而"A"是一个包含字符A的字符串。

Unicode编码可以表示为十六进制，范围从\u0000到\uffff。例如：\u005B表示“[”，而\u005D表示“]”。除了使用转义序列符\u表示Unicode代码单元的编码外，还有一些用于表示特殊字符的转义序列符，比如我们常见的"\b、\n、\t、\r"等。所有这些转义序列符都可以出现在字符常量以及字符串的引号内。而\u还可以出现在字符常量或字符串的引号外。

Unicode字符超过65536个后，16位的char类型已经不能满足所有Unicode字符的需要。

Java解决Unicode字符不够用的解决办法。是从JDK5.0开始。
码点是指与一个编码表中的某个字符对应的代码值。在Unicode标准中，代码点采用十六进制书写，并且加上前缀U+，例如U+0041就是字母’A’的代码点。Unicode的码点分为17个代码级别。第一个码点被称为基本的多语言级别，码点从U+0000到U+FFFF，其中包括了经典的Unicode代码。其余的16个附加级别，码点从U+10000到U+10FFFF，其中包括了一些辅助字符。

UTF-16编码采用了不同长度的编码表示所有的Unicode码点。在基本的多语言级别中，每个字符用16位表示，通常被称为代码单元；而辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内，通常被称为替代区域（surrogate area）[U+D800–U+DBFF用于第一个代码单元，U+DC00–U+DFFF用于第二个代码单元]。这样设计十分巧妙，我们可以迅速地知道一个代码单元是一个字符的编码，还是一个辅助字符的第一或第二部分。

在Java中，char类型用UTF-16编码描述一个代码单元。所以在Java编程中强烈建议不要使用char类型，除非确实需要对UTF-16代码单元操作。最好将需要处理的字符串用抽象数据类型表示。

Sunny凝眸

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Unicode和char类型的详细讲解（小白专属）

char类型用于表示单个字符，通常用来表示字符常量，字符是由编码进行记录的。例如：'A’是编码为65所代表的字符常量，而"A"是一个包含字符A的字符串。Unicode编码可以表示为十六进制，范围从\u0000到\uffff。例如：\u005B表示“[”，而\u005D表示“]”。除了使用转义序列符\u表示Unicode代码单元的编码外，还有一些用于表示特殊字符的转义序列符，比如我们常见的"\b、...
复制链接

扫一扫