编码问题的理解

最新推荐文章于 2019-12-17 00:22:40 发布

xiaobaicai4552

最新推荐文章于 2019-12-17 00:22:40 发布

阅读量239

点赞数

分类专栏： python学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaobaicai4552/article/details/80209219

版权

python学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

当我们定义一个变量：

a = '中'

实际上在内存中找了一个区域存入了'中'，我们知道在内存中的编码方式统一为Unicode，所以'中'实际上占用了2个字节

>>> ord('中')
20013

20013的二进制表示为01001110 00101101，即ord()功能是显示存入内存中的以Unicode编码方式的二进制数，既然如此，我们可以将这个以Unicode编码方式的二进制数以utf-8的编码方式进行编码：

>>> '中'.encode()  #编码方式默认utf-8
b'\xe4\xb8\xad'

以utf-8编码后，发现'中'会占用3个字节（欺负人！）

至于解码decode()，只有当给我们一堆二进制数的时候，才可以使用，比如 b'\xe4\xb8\xad'，只有我们使用utf-8的编码方式解码（decode）时才会显示'中'，用其他编码方式解码无效，因为b'\xe4\xb8\xad'是'中'的utf-8编码方式

操作一个文本文档txt时，读取文本文档，由于文本文档中的内容是由utf-8的编码方式保存的，所以需要以utf-8编码方式进行解码（decode），解码后知道了文本文档的具体内容，需要将这些内容放入内存，所以以Unicode编码方式存入内存，然后我们对文本内容进行修改，修改的都是内存中的数据，修改完后需要保存，所以内存中的Unicode会以utf-8的编码方式进行编码（encode）。当然也可以不用utf-8，使用其他编码方式如GBK等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编码问题的理解

当我们定义一个变量：a = '中'实际上在内存中找了一个区域存入了'中'，我们知道在内存中的编码方式统一为Unicode，所以'中'实际上占用了2个字节&gt;&gt;&gt; ord('中')2001320013的二进制表示为01001110 00101101，即ord()功能是显示存入内存中的以Unicode编码方式的二进制数，既然如此，我们可以将这个以Unicode编码方式的二进制数以ut...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。