Java Unicode 总结

最新推荐文章于 2024-07-27 13:31:57 发布

zju_acr

最新推荐文章于 2024-07-27 13:31:57 发布

阅读量125

点赞数

文章标签： java

本文链接：https://blog.csdn.net/zju_acr/article/details/84012949

版权

Unicode 可以代表当年世界所有的字符！
代码点其实就是某个字母相关联的数字，计算机世界上每个字符都有唯一的对应数字
UTF-8，UTF-16是指编码标准方案，比如utf8,就是指一个字符用1-4个byte 进行表示！
utf16是指一个字符用一到2 个 16位为单位的代码单元进行表示。其中有规定，如果用一个编码单元进行标识时，不能用U+D800 至 U+DFFF 保留用于 UTF-16；没有这些值分配字符作为代码点来表示！ 因为他们用来表示需要2个代码单元来表示时，作为相应的高低位范围。高代理范围（U+D800 至U+DBFF），第二个单元来自于低代理范围（U+DC00至 U+DFFF）来表示。

  String s = "\u0041\u00DF\u6771\uD801\uDC00";
        System.out.println(s.length());
        System.out.println(s.getBytes("UTF-8").length);
        System.out.println("Print out length one by one...");
        System.out.println("\u0041".getBytes("UTF-8").length);
        System.out.println("\u00DF".getBytes("UTF-8").length);
        System.out.println("\u6771".getBytes("UTF-8").length);
        System.out.println("\uD801\uDC00".getBytes("UTF-8").length);

上面输出5，表示5个utf16编码单元！

5
10
Print out length one by one...
1
2
3
4

字符编码基本概念：

Q: 什么是字符？

A: 字符(character )是抽象的最小文本单位。它没有固定的形状（可能是一个字形），而且没有值。“A”是一个字符,“严”是一个字符，“€”（德国、法国和许多其他欧洲国家通用货币的标志）也是一个字符。

Q: 什么是字符集？

A: 字符集(character set )是字符的集合。例如，汉字字符是中国人最先发明的字符，在中文、日文、韩文和越南文的书写中使用。

Q:什么是编码字符集？

A:编码字符集(coded characterset )是一个字符集，它为每一个字符分配一个唯一数字。Unicode 标准的核心是一个编码字符集，字母“A”的编码为 0041₁₆ 和字符“€”的编码为 20AC₁₆ 。Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，所以“A”的编码书写为“U+0041”。

Q: 什么是代码点？

A: 代码点(Code points )是指可用于编码字符集的数字。编码字符集定义一个有效的代码点范围，但是并不一定将字符分配给所有这些代码点。有效的 Unicode 代码点范围是 U+0000 至 U+10FFFF。Unicode 4.0 将字符分配给一百多万个代码点中的 96,382 代码点。

比如 unicode U+20C30 的代码点为134192，U+20C30和134192是等价的。在java中可通过int i =Integer.parseInt("20C30", 16);得到其代码点。

Q: 什么是增补字符？

A: 增补字符(Supplementarycharacters )是代码点在 U+10000 至 U+10FFFF 范围之间的字符，也就是那些使用原始的 Unicode 的 16 位设计无法表示的字符。从 U+0000 至 U+FFFF 之间的字符集有时候被称为基本多语言面 (BMP)。因此，每一个 Unicode 字符要么属于 BMP，要么属于增补字符。

Q: 什么是字符编码方案？

A: 字符编码方案(character encodingscheme )是从一个或多个编码字符集到一个或多个固定宽度代码单元序列的映射。最常用的代码单元是字节，但是 16 位或 32 位整数也可用于内部处理。UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案。

Q: UTF-32、UTF-16 、UTF-8 都是什么意思？

A: 这些都是unicode的编码方式，说白了就是如何用二进制来表示unicode。

UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。很明显，它是内部处理最方便的表达方式，但是，如果作为一般字符串表达方式，则要消耗更多的内存。

UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码。值 U+0000 至U+FFFF 编码为一个相同值的 16位单元。增补字符编码为两个代码单元，第一个单元来自于高代理范围（U+D800 至U+DBFF），第二个单元来自于低代理范围（U+DC00至 U+DFFF）。这在概念上可能看起来类似于多字节编码，但是其中有一个重要区别：值U+D800 至 U+DFFF 保留用于 UTF-16；没有这些值分配字符作为代码点。这意味着，对于一个字符串中的每个单独的代码单元，软件可以识别是否该代码单元表示某个单单元字符，或者是否该代码单元是某个双单元字符的第一个或第二单元。这相当于某些传统的多字节字符编码来说是一个显著的改进，在传统的多字节字符编码中，字节值 0x41 既可能表示字母“A”，也可能是一个双字节字符的第二个字节。

UTF-8 使用一至四个字节的序列对编码 Unicode 代码点进行编码。U+0000 至U+007F 使用一个字节编码，U+0080至 U+07FF 使用两个字节，U+0800 至 U+FFFF使用三个字节，而U+10000 至 U+10FFFF 使用四个字节。UTF-8 设计原理为：字节值 0x00 至0x7F 始终表示代码点U+0000 至 U+007F（Basic Latin 字符子集，它对应 ASCII 字符集）。这些字节值永远不会表示其他代码点，这一特性使 UTF-8 可以很方便地在软件中将特殊的含义赋予某些 ASCII 字符。

Unicode符号范围 | UTF-8编码方式

zju_acr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java Unicode 总结

Unicode 可以代表当年世界所有的字符！代码点其实就是某个字母相关联的数字，计算机世界上每个字符都有唯一的对应数字UTF-8，UTF-16是指编码标准方案，比如utf8,就是指一个字符用1-4个byte 进行表示！utf16是指一个字符用一到2 个 16位为单位的代码单元进行表示。其中有规定，如果用一个编码单元进行标识时，不能用U+D800 至 U+DFFF ...
复制链接

扫一扫