ASCII, UTF8, UTF16编码学习笔记

魏_魏

已于 2022-02-21 12:40:23 修改

阅读量538

点赞数

分类专栏： C#学习笔记文章标签：学习

于 2022-02-18 15:34:30 首次发布

原文链接：https://www.jianshu.com/p/8cf9bfc76149

版权

C#学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一. ASICII编码

在计算机中，所有的数据在存储和运算时都要使用二进制数表示（因为计算机用高电平和低电平分别表示1和0），例如，像a、b、c、d这样的52个字母（包括大写）、以及0、1等数字还有一些常用的符号（例如*、#、@等）在计算机中存储时也要使用二进制数来表示，而具体用哪些二进制数字表示哪个符号，当然每个人都可以约定自己的一套（这就叫编码），而大家如果要想互相通信而不造成混乱，那么大家就必须使用相同的编码规则，于是美国有关的标准化组织就出台了ASCII编码，统一规定了上述常用符号用哪些二进制数来表示。ASCII是基于拉丁字母的一套电脑编码系统，它主要用于显示现代英语和其他西欧语言，是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646。
ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。其中：
0～31及127(共33个)是控制字符或通信专用字符（其余为可显示字符），如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（响铃）等；通信专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示，但会依不同的应用程序，而对文本显示有不同的影响。
32～126(共95个)是字符(32是空格），其中48～57为0到9十个阿拉伯数字。
65～90为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。
ASCII对照表：

ASCII编码对照表_911查询 (911cha.com)http://ascii.911cha.com/

同时还要注意，在标准ASCII中，其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种：

奇校验：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；
偶校验：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

扩展ASCII 字符是从128 到255（0x80-0xff）的字符。许多基于x86的系统都支持使用扩展（或“高”）ASCII。它将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。针对扩展的ASCII码，不同的国家有不同的字符集，所以它并不是国际标准。

1.1 ASCII控制字符

ASCII字符集前32个，0-31，即0x00-0x1F，都是不可见字符。这些字符，就叫做控制字符。这些字符没法打印出来，但是每个字符，都对应着一个特殊的控制功能的字符，简称功能字符或功能码Function Code。

详细控制字符：

2.1.2.1. ASCII字符集中的功能/控制字符 - - 字符编码详解 (crifan.com)https://www.crifan.com/files/doc/docbook/char_encoding/release/webhelp/ascii_ctrl_char.html

为何ASCII字符集中的控制字符的值都是很小的，即0-32，而DEL控制字符的值却很大，是127。

这是由于这个特殊的字符是为纸带而定义的。而在那个时候，绝大多数的纸带，都是用7个孔洞去编码数据的。

而127这个值所对应的二进制值为111 1111b，表示所有7个比特位都是高，所以，将DEL用在现存的纸带上时，所有的洞就都被穿孔了，就把已经存在的数据都擦出掉了，就起到了对应的删除的作用了。

二. UTF编码

2.1 Unicode字符集

有一种编码，将世界上所有的符号都纳入其中，无论是英文、日文、还是中文等，大家都使用这个编码表，就不会出现编码不匹配现象。每个符号对应一个唯一的编码，乱码问题就不存在了。这就是Unicode编码。

Unicode开始制订时，计算机的存储器容量极大地发展了，空间再也不成为问题了。于是 ISO 就直接规定必须用两个字节，也就是16位来统一表示所有的字符，对于ASCII里的那些“半角”字符，Unicode包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。由于”半角”英文符号只需要用到低8位，所以其高8位永远是0，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。

从Unicode开始，无论是半角的英文字母，还是全角的汉字，它们都是统一的”一个字符“！同时，也都是统一的”两个字节“，请注意”字符”和”字节”两个术语的不同，“字节”是一个8位的物理存贮单元，而“字符”则是一个文化相关的符号。在Unicode中，一个字符就是两个字节。一个汉字算两个英文字符的时代已经快过去了。

Unicode同样也不完美，这里就有两个的问题，一个是，如何才能区别Unicode和ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储空间来说是极大的浪费，文本文件的大小会因此大出二三倍，这是难以接受的。

这就导致Unicode在很长一段时间内无法推广，直到互联网的出现，为解决unicode如何在网络上传输的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种Unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，注意的是unicode一个中文字符占2个字节，而UTF-8一个中文字符占3个字节）。从Unicode到utf-8并不是直接的对应，而是要过一些算法和规则来转换。

2.2 UTF8 &UTF16

UTF-8是Unicode的实现方式之一。

UTF-8（UCS Transformation Format 8bit）就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16（字符用两个字节或四个字节表示）和UTF-32（字符用四个字节表示），不过在互联网上用的很少。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

三. 区别编码字符集和字符集编码

要注意的是ASCII、ANSI、Unicode是编码字符集，而UTF-8、UTF-16、UTF-32是字符集编码(好绕哎有没有)。下面我来具体解释一下：

比如汉字的”汉”，在Unicode中，汉”的Unicode值为0x6C49。问：把这个”汉”字保存到计算机中(硬盘、内存)，机器码是多少呢？

学过《计算机组成原理》的人都知道，计算机内部存储的形式都是0101的二进制数字串。”汉”字保存在计算机里肯定也是0101的数字串。”汉”的Unicode值是0x6C49，转化为2进制 1101100 01001001，那么把这个”汉”字保存到计算机中也是 1101100 01001001 吗？答案：NO！

答案:取决于用到的字符集编码是哪种

比如你用到的字符集编码是UTF-8，那么”汉”字在计算机内部保存的值为0xE6B189，也就是111001101011000110001001，可以看到”汉”字变成了3个字节。UTF-8用1-3个字节来保存unicode编码的字符。

而如果用UTF-16来保存，那么”汉”字仍为仍为0x6C49，也就是 1101100 01001001。UTF-16只能是选两字节或四字节来保存字符，通常是两字节表示，而Unicode编码字符集一般刚好也是用两字节表示一个字符，所以两者虽然概念上不等同，但是实际上是一样的。

而UTF-32就是把所有的字符都用32bit也就是4个字节来表示。

所以这就是编码字符集和字符集编码的区别。

文本文档是用UTF-8编码保存的。这样可以最大限度的节省空间。但是当你对这个文本文档进行操作的时候，计算机是先把UTF-8转化为Unicode然后放到内存中，让用户进行操作，操作完成后在内存中还是Unicode模式。当你需要保存的时候在转化为UTF-8格式保存（节省空间）。

四. UTF-8 与UTF-16的区别

UTF-16比较好理解,就是任何字符对应的数字都用两个字节来保存.我们通常对Unicode的误解就是把Unicode与UTF-16等同了.但是很显然如果都是英文字母这做有点浪费.明明用一个字节能表示一个字符为啥整两个啊.

于是又有个UTF-8,这里的8非常容易误导人,8不是指一个字节,难道一个字节表示一个字符?实际上不是.当用UTF-8时表示一个字符是可变的,有可能是用一个字节表示一个字符,也可能是两个,三个.当然最多不能超过3个字节了.反正是根据字符对应的数字大小来确定.

于是UTF-8和UTF-16的优劣很容易就看出来了.如果全部英文或英文与其他文字混合,但英文占绝大部分,用UTF-8就比UTF-16节省了很多空间.而如果全部是中文这样类似的字符或者混合字符中中文占绝大多数.UTF-16就占优势了,可以节省很多空间.另外还有个容错问题,等会再讲

举个例子.假如中文字"汉"对应的unicode是6C49(这是用十六进制表示,用十进制表示是27721为啥不用十进制表示呢?很明显用十六进制表示要短点.其实都是等价的没啥不一样.就跟你说60分钟和1小时一样.).你可能会问当用程序打开一个文件时我们怎么知道那是用的UTF-8还是UTF-16啊.自然会有点啥标志,在文件的开头几个字节就是标志.

EF BB BF 表示UTF-8

FE FF 表示UTF-16.

部分转载自: https://www.jianshu.com/p/8cf9bfc76149

部分转载自: :https://blog.csdn.net/adminlpx/article/details/79304078

部分转载自: Unicode 和 UTF-8 有什么区别？ - 知乎 (zhihu.com)

部分转载自:

(1条消息) 字符编码：ANSI和ASCII区别、Unicode和UTF-8区别_koln频道-CSDN博客_ansi as utf-8

魏_魏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ASCII, UTF8, UTF16编码学习笔记

一. ASICII编码在计算机中，所有的数据在存储和运算时都要使用二进制数表示（因为计算机用高电平和低电平分别表示1和0），例如，像a、b、c、d这样的52个字母（包括大写）、以及0、1等数字还有一些常用的符号（例如*、#、@等）在计算机中存储时也要使用二进制数来表示，而具体用哪些二进制数字表示哪个符号，当然每个人都可以约定自己的一套（这就叫编码），而大家如果要想互相通信而不造成混乱，那么大家就必须使用相同的编码规则，于是美国有关的标准化组织就出台了ASCII编码，统一规定了上述常用符号用哪些二进制数来
复制链接

扫一扫

专栏目录