Python_文件编码

本文介绍了ASCII和UTF-8两种文本编码格式,ASCII用于英语字符,有256个字符,而UTF-8能覆盖全球文字,汉字通常使用3个字节。在Python2中,由于默认使用ASCII编码,导致处理中文时出现错误。解决办法是在源代码首行添加`# -*- coding: utf-8 -*-`注释,并使用`u`前缀定义Unicode字符串。通过这些方法,Python2也能正确处理中文字符串。
摘要由CSDN通过智能技术生成

1. 文本文件的编码方式ASCLL和UTF-8

介绍一下文本文件的编码格式,在计算机中可以直接来查看文本文件的内容,但是在计算机中文本文件本质上同样是以二进制的方式来存储的.

那么文本文件中每一个字符到底是怎样用二进制来表示的呢?需要介绍两个计算机中的编码,一个是古老的ASCLL 编码,一个是UNICODE 编码.

那么先来看一下ASCLL 编码, 之所以说ASCLL 编码是古老的编码,是因为计算机最早是美国人发明的,美国人为了在计算机中使用自己熟悉的英语,就制定了ASCLL 编码方案,在ASCLL 编码中啊,使用一个字节来表示一个字符,在计算机中,一个字节就包含有8个0或者1,

 

8 个0 或者1进行排列组合,一共有256种组合方式, 2的8次方,因此呢,ASCLL 编码定义的字符,一共就有256个,试想一下,美国人习惯使用的英语用256个字词能够描述吗?下面一张ASCLL 码表,在ASCLL 表中定义有大写的A到大写的Z,然后定义有小写的a到小写的z,英语只有26个字母,大小写加起来不过才50多个.

除此之外呢,还定义有数字0到数字9,同时在ASCLL 码表中, 还针对转义字符定义了一下,熟悉的\t横向制表符, \n换行, \r回车,转义字符,其实都是ASCLL 编码中早就定义好了.

 

美国人为了在计算机中使用英文, 制定了ASCLL编码,ASCLL编码中一共有256个字符,256个字符完全能够涵盖英文字母以及数字,.

汉字有数以万计个字符,那数以万计的字符显然不能够用256来涵盖,那因此UNICODE 这种编码就应运而生了,UNICODE 是一种编码,而在UNICODE 中有一种非常常见的编码格式叫做UTF-8,UTF-8是使用1~6个字节来描述一个字符的,对比一下,ASCLL 编码是使用一个字节描述一个字符,而UTF-8 最多可以使用6个字节来描述一个字符,意味着UTF-8涵盖的内容会更多, UTF- 8几乎涵盖了地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值