字符编码

最新推荐文章于 2024-09-14 20:32:24 发布

xiaoshihd

最新推荐文章于 2024-09-14 20:32:24 发布

阅读量371

点赞数

分类专栏：其他文章标签：乱码 unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoshihd/article/details/107893970

版权

其他专栏收录该内容

6 篇文章 1 订阅

订阅专栏

字符编码

参考自：https://www.bilibili.com/video/BV12741127qm

计算机内部用晶体管表示0，1。所以用的是二进制。二进制转换成十进制就是我们用到的数字。

而计算机在显示字符方面，数字与字符之间的一一对应叫做字符编码。

最早的计算机在设计时以字节（byte）为基本存储单位，一字节占八个比特位（bit）。可以表示一个8位二进制数。即00000000（0）~11111111（256）。

美国国家标准学会（American National Standard Institute：ANSI）将常用的数字，字母和符号总结起来，一共127个，用256的容量表示绰绰有余。

所以就有了ASCII码，即美国信息交换标准代码。

但是，当计算机推广到全球，这套只能够存储256个字符的代码就不够用了。

比如中文就有10万多个，当计算机普及到中国时，这套代码完全不够表示中文。

于是中国在1980年发表了《信息交换用汉字编码字符集》，标准号GB 2312。

这套字符集用1~2个字节表示一个字符，是一套简体中文字符集，有6763个常用汉字和682个全角的非汉字字符。很快通行于中国内地。

但是这套标准还是不够表示所有中文，一再扩展。最后在1995年中华人民共和国制定了《汉字内码扩展规范》，即GBK字符集。

其包含了GB 2312的所有字符，并在此基础上增加了两万多个汉字（包括繁体）和符号。

后来少数民族也要用电脑了，GBK就扩展成了GBK18030，又加了几千个新的少数民族的字。

这样看来，GBK18030兼容GBK，GBK兼容GB 2312，GB 2312兼容ASCII码。所以中英文在计算机中得以显示。

既然一个字节的ASCII码和两个字节的汉字都可以表示出来，那么计算机又是如何识别一个字符是单字节字符还是双字节字符呢？

我们知道一个字节能表示的最大数是 $2^{8}$ ，也可以写成 $16^2$ ，所以用两个16进制数来表示一个字节很方便。127用16进制表示为7F，ASCII码一共包含127个字符，所以当第一个字节小于7F时，计算机认为它是ASCII字符；当第一个字节大于7F时，计算机就认为该字符是GBK双字节字符。

再放眼全世界，每个国家都有每个国家的文字和编码方式。这时候如果你打开一个全是日文的网站，你用GBK编码肯定就全是乱码，你不得不下载一份日文编码。

这时候如果你去看一个多语言的网站，乱码就不可避免。

所以1990年，国际标准化组织ISO开始研发一套通用的标准字符集。

在1994年推出unicode标准，该标准为每一种语言的每一个字符设定了统一并且唯一的二进制编码，以满足跨语言，跨平台的文本转换需求。

可以看到Unicode标准还有很大的空间未使用。

在Unicode标准中保留了部分用户自定义标准区，这里可以保存用户自定义的符号。比如微信的小表情。

Unicode标准只是为了统一字符而定义的一套标准，它可以有很多种实现方式。

比如最常见的就是UTF-8（Unicode/UCS Transformation Format）。当然还有UTF-16、UTF-32。

UTF-8是Unicode的一种储存，传输方式，是一种可变长编码方式。他的长度可以是单字节，双字节，三字节以及四字节。

如果将英文字符转换成UTF-8，与ASCII完全一致。所以ASCII码可以看做是UTF-8的一部分。

在cmd中输入chcp可以查看计算机的编码方式。

C:\Users\lenovo>chcp
活动代码页: 936

比如我在中国大陆，代码是936，936表示GBK字符集。

当使用记事本写入汉字，以ANSI编码（即计算机默认编码GBK）保存后，再用sublime Text打开我们会发现乱码了。因为Sublime text不支持GB2312和GBK编码，汉会被当成UTF-8编码进行转换，就会出现乱码。这个时候可以安装插件ConvertToUTF8。

参考：https://segmentfault.com/a/1190000009611209

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xiaoshihd CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

3万+: 周排名

234万+: 总排名

53万+: 访问

: 等级

3358: 积分

1534: 粉丝

1948: 获赞

140: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

测量学 10篇
Arduino 5篇
STM32 1篇
Java 3篇
python 1篇
C# 2篇
其他 6篇
Android 1篇
vue 2篇
数据库 1篇

最新评论

STM32新手入门教程
好家伙VCC: 我在大佬的评论区瑟瑟发抖,我也写了一篇手把手STM32电机控制+openmv视觉处理，这是文章：https://blog.csdn.net/qq_46187594/article/details/138110155?spm=1001.2014.3001.5502 欢迎互粉互赞，嘿嘿
STM32新手入门教程
好家伙VCC: 博主写的真棒！我最近也写关于STM32智能小车 PID 控制遥控避障跟随循迹的文章和视频，大家可以一起交流学习一下，这是文章:https://blog.csdn.net/qq_46187594/article/details/138110155?spm=1001.2014.3001.5502
Arduino串口通信
上岸后我一定好好学: 每秒传送的位数不是比特率吗
Arduino + RS485测温装置
damomneee: 您好，请问您后来解决了嘛，能麻烦告诉一下嘛
Arduino + RS485测温装置
kang_mr: 你好，我想问一下电池该用什么线来连接到测温模块？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。