UnicodeDecodeError—UTF-8 编码（Python 中的底层基础）

荔枝科研社

已于 2022-04-12 21:26:37 修改

阅读量2k

点赞数

分类专栏： # Python旅程 # 科研和哲思文章标签： python 开发语言后端

于 2022-01-06 15:13:55 首次发布

本文链接：https://blog.csdn.net/weixin_46039719/article/details/122342778

版权

科研和哲思同时被 2 个专栏收录

34 篇文章 17 订阅

订阅专栏

Python旅程

25 篇文章 10 订阅

订阅专栏

1 概述

2 基本概念

2.1 字符（Character）

2.2 字符集（Character set）

2.3 字符编码（Character encoding）

4.2 UnicodeEncodeError & UnicodeDecodeError 根源

5 小结

1 概述

托勒密的地心说，稳定的统治西方的农业文明1400年；哥白尼的日心说出来，四百年都没到，大部分都是错的，他说太阳是宇宙的中心，然后太阳只是太阳系的中心，他说行星都围绕太阳转是正圆形轨道，然后，被开普勒证明是错的，应该是椭圆形轨道才对，牛顿的绝对时空说，只出来两百年，就被爱因斯坦的相对时空说挤到后排座了，然后爱因斯坦赶紧宣布，我的学说只是一个过渡。今天看来他说得很对，量子纠缠的超光速给了相对时空说一个沉重的打击。爱因斯坦说，宇宙就像一个打不开的表的表壳，我们只能站在外面逻辑模拟他，永远得不到这表真真是怎么运作的。我们能做的就是不断的模拟。

在中国，一切讲究学以致用，我们的科学也属于实用科学，大家都只关心实用，比如学习Python，根本不愿意抽时间去了解他的底层逻辑，其实就是地基。地基牢固了，楼房可以建得很高，而不会遥遥欲坠。

2 基本概念

2.1 字符（Character）

在电脑和电信领域中，字符是一个信息单位，它是各种文字和符号的总称，包括各国家文字、标点符

号、图形符号、数字等。比如，一个汉字，一个英文字母，一个标点符号等都是一个字符。

2.2 字符集（Character set）

字符集是字符的集合。字符集的种类较多，每个字符集包含的字符个数也不同。比如，常见的字符集有 ASCII 字符集、GB2312 字符集、Unicode 字符集等，其中， ASCII 字符集共有 128 个字符，包含可显示字符（比如英文大小写字符、阿拉伯数字）和控制字符（比如空格键、回车键）； GB2312 字符集是中国国家标准的简体中文字符集，包含简化汉字、一般符号、数字等； Unicode 字符集则包含了世界各国语言中使用到的所有字符。

2.3 字符编码（Character encoding）

字符编码，是指对于字符集中的字符，将其编码为特定的二进制数，以便计算机处理。常见的字符编码有 ASCII 编码， UTF-8 编码， GBK 编码等。一般而言，字符集和字符编码往往被认为是同义的概念，比如，对于字符集 ASCII ，它除了有「字符的集合」这层含义外，同时也包含了「编码」的含义，也就是说，ASCII 既表示了字符集也表示了对应的字符编码。

计算机存储数据的单元，一个8位（bit）二进制数。

3 常见的字符编码简介

常见的字符编码有 ASCII 编码， GBK 编码， Unicode 编码和 UTF-8 编码等等。这里，我们主要介绍 ASCII 、 Unicode 和 UTF-8。

3.1 ASCII 编码

计算机是在美国诞生的，人家用的是英语，而在英语的世界里，不过就是英文字母，数字和一些普通符号的组合而已。

在 20 世纪 60 年代，美国制定了一套字符编码方案，规定了英文字母，数字和一些普通符号跟二进制的转换关系，被称为 ASCII (American Standard Code for Information

Interchange ，美国信息互换标准编码 ) 码。

比如，大写英文字母 A 的二进制表示是 01000001 （十进制 65 ），小写英文字母 a 的二进制表示是 01100001 （十进制 97 ），空格 SPACE 的二进制表示是 00100000 （十进制 32 ）。

3.2 Unicode 编码

ASCII 码只规定了 128 个字符的编码，这在美国是够用的。可是，计算机后来传到了欧洲，亚洲，乃至世界各地，而世界各国的语言几乎是完全不一样的，用 ASCII 码来表示其他语言是远远不够的，所以，不同的国家和地区又制定了自己的编码方案，比如中国大陆的 GB2312 编码和 GBK 编码等，日本的 Shift_JIS 编码等等。虽然各个国家和地区可以制定自己的编码方案，但不同国家和地区的计算机在数据传输的过程中就会出现各种各样的乱码（mojibake ），这无疑是个灾难。

怎么办？想法也很简单，就是将全世界所有的语言统一成一套编码方案，这套编码方案就叫

Unicode ，它为每种语言的每个字符设定了独一无二的二进制编码，这样就可以跨语言，跨平台进行文本处理了，是不是很棒！

Unicode 1.0 版诞生于 1991 年 10 月，至今它仍在不断增修，每个新版本都会加入更多新的字符，目前最新的版本为 2016 年 6 月 21 日公布的 9.0.0 。

Unicode 标准使用十六进制数字，而且在数字前面加上前缀 U+ ，比如，大写字母「 A 」的

unicode 编码为 U+0041 ，汉字「严」的 unicode 编码为 U+4E25 。更多的符号对应表，可

以查询 unicode.org ，或者专门的汉字对应表。

3.3 UTF-8编码

Unicode 看起来已经很完美了，实现了大一统。但是， Unicode 却存在一个很大的问题：资源浪费。为什么这么说呢？原来，Unicode 为了能表示世界各国所有文字，一开始用两个字节，后来发现两个字节不够用，又用了四个字节。比如，汉字「严」的 unicode 编码是十六进制数 4E25 ，转换成二进制有十五位，即 100111000100101 ，因此至少需要两个字节才能表示这个汉字，但是对于其他的字符，就可能需要三个或四个字节，甚至更多。

这时，问题就来了，如果以前的 ASCII 字符集也用这种方式来表示，那岂不是很浪费存储空间。比如，大写字母「A 」的二进制编码为 01000001 ，它只需要一个字节就够了，如果 unicode 统一使用三个字节或四个字节来表示字符，那「A 」的二进制编码的前面几个字节就都是 0 ，这是很浪费存储空间的。

为了解决这个问题，在 Unicode 的基础上，人们实现了 UTF-16, UTF-32 和 UTF-8 。下面只说一下 UTF-8 。

UTF-8 (8-bit Unicode Transformation Format) 是一种针对 Unicode 的可变长度字符编

码，它使用一到四个字节来表示字符，例如， ASCII 字符继续使用一个字节编码，阿拉伯文、希腊文等使用两个字节编码，常用汉字使用三个字节编码，等等。

因此，我们说， UTF-8 是 Unicode 的实现方式之一，其他实现方式还包括 UTF-16 （字符用两个或四个字节表示）和 UTF-32 （字符用四个字节表示）。

4 Python中的字符类型

4.1 Python 中的字符类型

Python2 的默认编码是 ASCII，Python3 的默认编码是 utf-8

Python2 中有两种和字符串相关的类型： str 和 unicode ，它们的父类是 basestring 。其中，

str 类型的字符串有多种编码方式，默认是 ascii ，还有 gbk ， utf-8 等， unicode 类型的字符

串使用 u'...' 的形式来表示，下面的图展示了 str 和 unicode 之间的关系：

4.2 UnicodeEncodeError & UnicodeDecodeError 根源

用 Python2 编写程序的时候经常会遇到 UnicodeEncodeError 和 UnicodeDecodeError ，它

们出现的根源就是如果代码里面混合使用了 str 类型和 unicode 类型的字符串， Python 会默认使用 ascii 编码尝试对 unicode 类型的字符串编码 (encode) ，或对 str 类型的字符串解码 (decode) ，这时就很可能出现上述错误。
下面有两个常见的场景，我们最好牢牢记住：在进行同时包含 str 类型和 unicode 类型的字符串操作时， Python2 一律都把 str 解码（decode ）成 unicode 再运算，这时就很容易出现 UnicodeDecodeError 。

让我们看看例子：
1. >>> s = '你好' # str 类型, utf-8 编码 
2. >>> u = u'世界' # unicode 类型 
3. >>> s + u # 会进行隐式转换，即 s.decode('ascii') + u 
4. Traceback (most recent call last): 
5. File "<stdin>", line 1, in <module> 6. UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
为了避免出错，我们就需要显示指定使用 ‘utf-8’ 进行解码，如下：
1. >>> s = '你好' # str 类型，utf-8 编码 
2. >>> u = u'世界' 
3. >>> 
4. >>> s.decode('utf-8') + u # 显示指定 'utf-8' 进行转换 5. u'\u4f60\u597d\u4e16\u754c' # 注意这不是错误，这是 unicode 字符串

这个破问题也困扰了我一晚上，UnicodedecodeError编码问题解决方法汇总：

(1)Python：UnicodedecodeError编码问题解决方法汇总-彻底解决

(2)异常处理： UnicodeDecodeError: 'utf-8' codec can't

(3)Python 出现的UnicodeDecodeError的几种情况记录及解决办法

(4)将encoding='utf-8'改为encoding='gbk'

除此之外，还可能是导入程序的文件有问题，.csv等等。

5 小结

(1)UTF-8 是一种针对 Unicode 的可变长度字符编码，它是 Unicode 的实现方式之一。

(2)Unicode 字符集有多种编码标准，比如 UTF-8, UTF-7, UTF-16 。

(3)在进行同时包含 str 类型和 unicode 类型的字符串操作时， Python2 一律都把 str 解码

（ decode ）成 unicode 再运算。

(4)如果函数或类等对象接收的是 str 类型的字符串，但你传的是 unicode ， Python2 会默认使

用 ascii 将其编码成 str 类型再运算。

荔枝科研社

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
UnicodeDecodeError—UTF-8 编码（Python 中的底层基础）

目录1 概述2 基本概念2.1 字符（Character）2.2 字符集（Character set）2.3 字符编码（Character encoding）3 常见的字符编码简介3.1ASCII 编码3.2Unicode 编码3.3 UTF-8编码4 Python中的字符类型4.1Python中的字符类型4.2UnicodeEncodeError & UnicodeDecodeError 根源5 小结1 概述托勒密的地心说，...
复制链接

扫一扫