UnicodeDecodeError: 'gbk' codec can't decode byte 0x80

问题

在打开一个html文件的时候,提示UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80。
Unicode解码错误:gbk编码无法被解码。
在这里插入图片描述

原因

  • 要打开的文件是UTF-8编码,用记事本打开再另存为可以看到文件的编码。
    在这里插入图片描述
  • 文件虽然是utf8编码,但是在计算机里面存储的还是unicode编码数据,即计算机是将文件的内容按照utf8编码成unicode后存到了硬盘上
  • 用open()函数打开文件的时候没有指定编码
  • 而现在执行f.read()的时候,因为没有指定编码,f.read()可能是发现文件中有中文,所以按照gbk来试图将unicode解码,但是因为文件本身是utf8的,应该按UTF-8去解码,所以解码失败。
    在这里插入图片描述

解决方法

  • 方法一:可以在open()函数打开文件时,指定文件的编码方式是UTF-8,如下图所示:
    在这里插入图片描述
  • 方法二:不让pycharm对unicode编码解码,直接读取unicode编码,即在open函数中,指定读取方式是’rb’,b代表读取二进制编码文件,unicode就是二进制编码。

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值