Python_文件编码

最新推荐文章于 2024-03-30 21:14:27 发布

最新推荐文章于 2024-03-30 21:14:27 发布

阅读量818

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_52073430/article/details/120167396

版权

本文介绍了ASCII和UTF-8两种文本编码格式，ASCII用于英语字符，有256个字符，而UTF-8能覆盖全球文字，汉字通常使用3个字节。在Python2中，由于默认使用ASCII编码，导致处理中文时出现错误。解决办法是在源代码首行添加`# -*- coding: utf-8 -*-`注释，并使用`u`前缀定义Unicode字符串。通过这些方法，Python2也能正确处理中文字符串。

摘要由CSDN通过智能技术生成

1. 文本文件的编码方式ASCLL和UTF-8

介绍一下文本文件的编码格式，在计算机中可以直接来查看文本文件的内容，但是在计算机中文本文件本质上同样是以二进制的方式来存储的.

那么文本文件中每一个字符到底是怎样用二进制来表示的呢？需要介绍两个计算机中的编码，一个是古老的ASCLL 编码，一个是UNICODE 编码.

那么先来看一下ASCLL 编码, 之所以说ASCLL 编码是古老的编码，是因为计算机最早是美国人发明的，美国人为了在计算机中使用自己熟悉的英语，就制定了ASCLL 编码方案，在ASCLL 编码中啊，使用一个字节来表示一个字符，在计算机中，一个字节就包含有8个0或者1,

8 个0 或者1进行排列组合，一共有256种组合方式, 2的8次方，因此呢，ASCLL 编码定义的字符，一共就有256个，试想一下，美国人习惯使用的英语用256个字词能够描述吗？下面一张ASCLL 码表，在ASCLL 表中定义有大写的A到大写的Z，然后定义有小写的a到小写的z，英语只有26个字母，大小写加起来不过才50多个.

除此之外呢，还定义有数字0到数字9，同时在ASCLL 码表中, 还针对转义字符定义了一下，熟悉的\t横向制表符, \n换行, \r回车，转义字符，其实都是ASCLL 编码中早就定义好了.

美国人为了在计算机中使用英文, 制定了ASCLL编码，ASCLL编码中一共有256个字符，256个字符完全能够涵盖英文字母以及数字,.

汉字有数以万计个字符，那数以万计的字符显然不能够用256来涵盖，那因此UNICODE 这种编码就应运而生了，UNICODE 是一种编码，而在UNICODE 中有一种非常常见的编码格式叫做UTF-8，UTF-8是使用1~6个字节来描述一个字符的，对比一下，ASCLL 编码是使用一个字节描述一个字符，而UTF-8 最多可以使用6个字节来描述一个字符，意味着UTF-8涵盖的内容会更多, UTF- 8几乎涵盖了地