python中 utf-8 和GBK 的关系

最新推荐文章于 2023-07-20 09:40:51 发布

不会说话的渔

最新推荐文章于 2023-07-20 09:40:51 发布

阅读量3.1k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/zy50721235/article/details/102648202

版权

python 专栏收录该内容

38 篇文章 0 订阅

订阅专栏

unicode其实是一种在操作过程中存在的字符状态，一般来讲，例如python中的str都是以“unicode”编码，在进行操作时会具化成为“utf-8”与“gbk”，往往是前者居多。

如上图所示，在python中不同编码的转换都要经过Unicode，不论是UTF-8或者是GBK，整个过程都是先通过编码decode转换为Unicode告诉Unicode当前的编码格式是什么、然后再通过解码encode转换为自己想要实现的编码格式或类型

那么“utf-8”与“gbk”两者区别是什么呢：

一、GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准（好像还不是国家标准）。GBK编码专门用来解决中文编码的，是双字节的。不论中英文都是双字节的。GBK包含全部中文字符。
二、UTF－8 编码是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8 节省空间。另外，如果是外国人访问你的GBK网页，需要下载中文语言包支持。访问UTF-8编码的网页则不出现这问题。可以直接访问。UTF-8则包含全世界所有国家需要用到的字符。

不会说话的渔

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python中 utf-8 和GBK 的关系

unicode其实是一种在操作过程中存在的字符状态，一般来讲，例如python中的str都是以“unicode”编码，在进行操作时会具化成为“utf-8”与“gbk”，往往是前者居多。如上图所示，在python中不同编码的转换都要经过Unicode，不论是UTF-8或者是GBK，整个过程都是先通过编码decode转换为Unicode告诉Unicode当前的编码格式是什么、然后再通过解码enco...
复制链接

扫一扫

专栏目录