字符编码

最新推荐文章于 2023-12-31 08:15:00 发布

czw10000

最新推荐文章于 2023-12-31 08:15:00 发布

阅读量1.3k

点赞数

分类专栏： javase IO 文章标签： java

本文链接：https://blog.csdn.net/weixin_48722971/article/details/111348399

版权

130 篇文章 2 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

字符编码：

按照某种规则，将字符存储到计算机中，称为编码；反之，将存储在计算机中的二进制数按照某种规则解析显示出来，称为解码。在进行编码和解码过程中，我们必须采用是同一种规则，才能数据正常，否则，会会导致乱码现象。

字符集：

字符集：是一个系统可支持的所有字符的集合，包括各国文字，标点符号，图形符号，数字等，也叫编码表。

计算机中要准确的存储和识别各种文字的字符符号，需要进行字符编码，一套字符集至少有一个套字符编码

常见的字符编码集有ASCII字符集、GBK字符集、Unicode字符集。

ASCII字符集：

ISO-8859-1字符集：

GB系列字符集

GB2312：称为简体中文码表，里面大概含有7000多个简体汉字，此外数学符号，罗马希腊的字母、日本的假名都编进去了，连在ASCII里的原来就与的数字、标点、字母都统统重新用的两个字节编写进去了。
GBK：最常用的中文编码。是在原来GB23121码表基础上进行扩展。使用双字节编码。共收录了21000多个汉字，完全兼容GB2312,标准，同时支持繁体汉字以及日韩汉字等。
GB18030：最新的中文码表，共收录了7万多个汉字，采用多字节编码，每个字可以由1个字节，2个字节或者4个字节组成，支持国内少数名族的文字，同时支持繁体字以及日韩汉字等。

Unicode字符集：

Unicode编码系统为表达任意语言的任意字符而设计的，是业界的一种标准，也成为统一编码，标准万国码表。
它最多使用4个字节的数字来表示每个字母、符号、或者文字，有三种常见的编码方案：UTF-8，UTF-16，UTF-32。
UTF-8编码表，用来表示Unicode标准中的任意字符，编码规则：
1. 128个US-ASCII字符，使用的是一个字节编码
2. 拉丁字的字母，需要两个字节编码
3. 大部分常见的汉字，使用的是三个字节编码
4. 其他极少数的辅助字符，采用的四个字节编码。