python之编码

最新推荐文章于 2024-01-03 18:35:21 发布

zt3032

最新推荐文章于 2024-01-03 18:35:21 发布

阅读量243

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zt3032/article/details/80356043

版权

python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

一、编码相关概念

1、 ASCII

计算机内部都是由二进制值，字符集就是用一种对应关系来表示二进制与字符的映射关系。一个字节有8个bit，2**8就可以表示256个符号，当时，20世纪60年代，美国只用低7位制定了128个字符的ASCII字符集。

2、非ASCII

Ø 从128到255被称为扩展ASCII字符集，不是国际标准。

Ø 中文的数字量大用双字节（DBCS：double-byte character set）的方式进行表示，gb2312—gbk—gb18030

gb2313: 高字节 0xA1-0xF7 低字节 0xA1-0xFE

gbk: 高字节 0xA1-0xF7 低字节 0x00-0xFE

3、 Unicode

Ø 为了统一这种情况，将世界的所有符号都纳入其中，每个符号都有独一无二的编码，这就是Unicode。

Ø 由2个字节组成（UCS-2），后续扩展到4个字节(UCS-4)

Ø UTF-8和Unicode 的关系：UTF-8是 Unicode 的实现方式之一,用于传输和存储（节省空间）。

Ø 在传输、存储使用UTF-8变长的，在内存中使用unicode固定长的。

Ø 中文unicode编码表：http://www.chi2ko.com/tool/CJK.htm

Ø UTF-8编码规则：

1) 对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2) 对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

Unicode符号范围 | UTF-8编码方式

(十六进制) | （二进制）

----------------------+---------------------------

0000 0000-0000007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx10xxxxxx

0000 0800-0000 FFFF | 1110xxxx10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx10xxxxxx 10xxxxxx 10xxxxxx

举个栗子：

比如：张的unicode5F20 对应的二进制101111100100000

格式：1110xxxx10xxxxxx 10xxxxxx

二进制：101111100100000

UTF-8：11100101 10111100 10100000

二、 python中的编码

1、 python2

Ø python2默认的编码字符集是ASCII

Ø python2中有两种字符序列的类型：str(字符串)和unicode(Unicode字符)

Ø 编码：unicode.encode() -> bytes(str)

解码：Bytes.decode -> unicode

2、文件编码

why:

需要对文件进行编码然后由python解释器执行

how:

指定方式：文件头# coding=<encoding name>

-*- coding: <encodingname> -*-

vim: setfileencoding=<encoding name> :

3、 python解析器/分词器的工作逻辑：

Ø 读取文件

Ø 不同的文件，根据其声明的编码去解析为Unicode

Ø 转换为UTF-8字符串

Ø 针对UTF-8字符串，去分词

Ø 编译之，创建Unicode对象

摘自：https://www.python.org/dev/peps/pep-0263/

4、指定系统默认编码（默认是ACSII）

why:

s = '中文' # 注意这里的 str 是 str 类型的，而不是 unicode
s.encode(“utf-8”)

Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb18030。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下sys.defaultencoding 是 ASCII，如果 s 不是这个类型就会出错。我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

等价于 s.decode(“acsii”).encode(“utf-8”)

改成s.decode(“utf-8”).encode(“utf-8”)

how:

在文件头加入以下代码：

# encoding=utf8

         import sys

         reload（sys）

         sys.setdefaultencoding(“utf-8”)

or

                 在Lib\site-packages文件夹下新建一个sitecustomize.py，内容为：
　　          #encoding=utf8
　　          importsys
　　          reload(sys)
　　          sys.setdefaultencoding('utf8')

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zt3032 CSDN认证博客专家 CSDN认证企业博客

码龄14年

33: 原创

25万+: 周排名

48万+: 总排名

13万+: 访问

: 等级

1429: 积分

17: 粉丝

34: 获赞

5: 评论

68: 收藏

私信

关注

热门文章

分类专栏

HTTP 1篇
shell 2篇
git 2篇
python 25篇
zookeeper 2篇
tcp/ip 3篇
计算机基础 3篇
openresty 1篇
工具 4篇
mysql 4篇
linux 1篇
项目
go 2篇

最新评论

jupyter删除查找历史记录
weixin_52579164: 关了怎么办
openresty简单部署
@傲视邪主: 厉害厉害，我今天遇到的问题解决了，非常感谢大佬
&#是什么编码
cout_helloWorld: 大佬牛，这些知识哪里找的啊
python之操作kafka
就是爱编程-都有人重名: 写的很棒，不过博主的某几个消费者例子后面，好像忘记写一句consumer.close()

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。