计算机编码小结

本文为基于Python语言的计算机编码方式小结,内容参考自:(https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896)
由于计算机内只能存放二进制数字,当我们需要存放字符、阿拉伯数字、中文等等,就必须将每个字符转化为一个二进制数字序列,存入计算机,而将字符转化为二进制序列的过程,就叫做编码。
目前为止,我们了解到三种计算机编码方式:ASCII,Unicode,UTF-8。还有一种中国制定专门加入中文的编码标准gb2312,在此不讨论。
ASCII是最早的编码标准,因为计算机是美国人发明的,因此他们最早提出的这套中只有大小写字母和阿拉伯数字以及一些最常用的符号,每个字符用一个字节即8位2进制数字表示。
随着计算机技术的发展,更多的国家开始推广计算机,因而需要一种能编码更多语言字符的编码方式,Unicode就应运而生了。它使用2个字节表示一个字符,从而将各种常用语言中的字符都容纳进去。
UTF-8是在Unicode的基础上发展而来的,它使用1-6个字节对字符进行变长编码,类似于哈夫曼编码,使用频率越高的字符,其编码序列越短,最短1个字节,最长6个字节。
Unicode编码和UTF-8编码之间的关系:在计算机内存中,统一使用Unicode编码,但当文件被存入硬盘或在网络上传输时,就会转换为UTF-8编码。例如,我们使用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件。
Python的字符串类型是str,在内存中使用Unicode编码,当需要存入文件时,会通过隐式调用.encode()转化为bytes类型,Python对bytes类型的数据用带b前缀的单引号或双引号表示。`s = b'abc'`
>>> s = 'qwer'.encode('UTF_8')
>>> s
b'qwer'
值得注意的是,当使用len()函数获取字符串长度时,对str类型的字符串获得的是字符个数,对转化为bytes类型的字符串则是字节数。例如:
s = '中文'
print(len(s))
print(len(s.encode('UTF-8')))

2
6
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值