计算机编码小结

最新推荐文章于 2022-04-18 22:38:13 发布

珍惜当下

最新推荐文章于 2022-04-18 22:38:13 发布

阅读量128

点赞数

本文链接：https://blog.csdn.net/weixin_44831499/article/details/89923183

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文为基于Python语言的计算机编码方式小结，内容参考自：(https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896)
由于计算机内只能存放二进制数字，当我们需要存放字符、阿拉伯数字、中文等等，就必须将每个字符转化为一个二进制数字序列，存入计算机，而将字符转化为二进制序列的过程，就叫做编码。
目前为止，我们了解到三种计算机编码方式：ASCII，Unicode，UTF-8。还有一种中国制定专门加入中文的编码标准gb2312，在此不讨论。
ASCII是最早的编码标准，因为计算机是美国人发明的，因此他们最早提出的这套中只有大小写字母和阿拉伯数字以及一些最常用的符号，每个字符用一个字节即8位2进制数字表示。
随着计算机技术的发展，更多的国家开始推广计算机，因而需要一种能编码更多语言字符的编码方式，Unicode就应运而生了。它使用2个字节表示一个字符，从而将各种常用语言中的字符都容纳进去。
UTF-8是在Unicode的基础上发展而来的，它使用1-6个字节对字符进行变长编码，类似于哈夫曼编码，使用频率越高的字符，其编码序列越短，最短1个字节，最长6个字节。
Unicode编码和UTF-8编码之间的关系：在计算机内存中，统一使用Unicode编码，但当文件被存入硬盘或在网络上传输时，就会转换为UTF-8编码。例如，我们使用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。
Python的字符串类型是str，在内存中使用Unicode编码，当需要存入文件时，会通过隐式调用.encode()转化为bytes类型，Python对bytes类型的数据用带b前缀的单引号或双引号表示。`s = b'abc'`

>>> s = 'qwer'.encode('UTF_8')
>>> s
b'qwer'

值得注意的是，当使用len()函数获取字符串长度时，对str类型的字符串获得的是字符个数，对转化为bytes类型的字符串则是字节数。例如：

s = '中文'
print(len(s))
print(len(s.encode('UTF-8')))

2
6

珍惜当下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算机编码小结

本文为基于Python语言的计算机编码方式小结，内容参考自：(https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896)由于计算机内只能存放二进制数字，当我们需要存放字符、阿拉伯数字、中文等等，就必须将每个字符转化为一个二进制数字序列，存入计算机，而将字符转化为二进制序列的过程，就叫做编码。目前为止，我们了解到三种计算...
复制链接

扫一扫