【零基础】编码格式问题

最新推荐文章于 2022-08-23 11:24:24 发布

逍神

最新推荐文章于 2022-08-23 11:24:24 发布

阅读量222

点赞数

分类专栏：软件设计师笔记文章标签：编程语言

本文链接：https://blog.csdn.net/yaotuzhi/article/details/108429536

版权

软件设计师笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近用Doxygen生成文档总是遇到转字符的问题Unicode转GB3213，现在来理理为何要转字符

位、位数、字、字节、字长的概念

从数学学科切入对位、位数的理解，数学学科上的计数是十进制的计数方法，计算机上的计数是二进制的计数方法，所以在位和位数上的理解是一致的。

位：数学学科上有个位、十位、百位，这个位就是位的概念，也就是bite，百位也是位，只是他们位置不同所以叫了“……”位。

位数：即位的个数，如数学学科十进制的1314，位数为4，对于计算机二进制如101010，位数为6。

字节：它是计量单位！计量单位！计量单位！存储空间的基本计量单位。1个字节为8位，如10101010，计算机是以字节为单位存储和解释信息。（小知识：最开始计算机只是处理数据运算，也就是0-9，加上运算符号，4bit足够了。举个例子(实际不是这样):用0000表示0，0001表示1，0010表示2，依次类推。后来加入了字母，程序符号等，8bit也足够了，而这时诞生了美国信息交换标准码(ASCII)编码的标准，大家就说把8bit表示出来的值叫做字节(byte)吧，于是就有了字节这个单位。所以1字节等于8位是计算机发展中的一个约定出来的规则）

字：我们把它理解广义上统称的概念，比如一个运算是13145208，这样是个字，12121212这也是个字，好比人的概念，你是人，他也是人。

字长：即字的长度。如10101010，从位数的角度可以说它的字长：位数为8；从字节的角度可以说它的字长：字节为1。

为什么会有不同的编码格式

由于计算机只能处理数字，因此，处理文本，就必须先把文本处理为数字之后，计算机才能进行后续处理。

最早的时候，美国人把127个字符编码到计算机里面，也就是大小写英文字母、数字和一些符号，这个编码也就被成为ASCII编码。

一个字节是8位，所能表示的最大整数就是255，两个字节是65535，要处理中文，显然一个字节是不够的，至少需要两个字节，而且不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来编码中文。

但全世界有上百种语言，每种语言都有自己编码的情况下，不可避免会产生冲突，于是，在多语言混合的文本中，显示出来就会有乱码。Unicode（万国码）的出现就是为了解决这一问题，他把所有语言都统一到一套编码中，这样就不会有乱码问题。

紧接着，还存在问题：如果都用Unicode编码的话，乱码问题是解决了，但是如果你的文本内容都是英文的话，Unicode编码要比ASCII编码多一倍，那么存储和传输就会存在浪费。怎么办呢？出现了UTF-8编码，它是可变长的编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。可以认为，UTF-8就是一种视情况而定的编码方式，根据数字、英文、汉字而使用不同的字节数，这样就解决了上述存储和传输的浪费问题。

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

最后，总结一下整个编码发展过程的逻辑：

最开始是使用ASCII进行编码，但它对中文进行编码字节位不够，于是乎中国使用了GBK，但多种语言，多种编码格式，势必会造成乱码问题，为了解决乱码问题，我们使用了Unicode来进行统一编码。但统一编码存在存储和传输的资源浪费问题，所以我们使用了可变长编码的UTF8编码来进行灵活处理。

字符编码问题

现代操作系统和大多数编程语言都直接支持Unicode，如VS

ASCII编码是1个字节，而Unicode编码通常是2个字节，因为这么多的编码格式，所以出现了转换情况，Unicode编码常见MFC的CString、ASCII编码常见string

CString 转 string

CString cstrTest = _T("test");
string strTest;
strTest = CW2A(cstrTest.GetString());

string 转 CString

string strTest="test";
CString cstrTest;
cstrTest = CA2W(strTest.c_str());

总结

正因为不同的编码格式以不同字节单位存储和解释信息，导致Unicode和GB3213对字存取出现不同方式，故需要转换。

逍神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录