python爬取网页：‘gbk/utf-8‘ codec can‘t decode byte xx in position xx : illegal multibyte sequence的问题

最新推荐文章于 2024-07-20 23:53:26 发布

看到请叫我滚去戒烟

最新推荐文章于 2024-07-20 23:53:26 发布

阅读量1k

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_51143375/article/details/124577752

版权

今天在用python爬某51网址时，用以下代码获取指定网址的数据

无论编码格式是gbk、utf-8、或者gb18030都会报错：

“gbk/utf-8”编解码器无法解码位置xx处的字节xx：非法多字节序列

对于这种问题考虑不是编码的问题，查看一下网页的数据包：

可以看到 Content-Encoding 的类型为gzip，对比一个可以正常爬取的网址：

可以发现一个是gzip一个是br。

那么问题就出现了，第一个网址返回的数据是经过压缩的，也就是说我们要先解压，不然就会导致数据编码溢出的问题。导入gzip包，添加以下代码

def ungzip(data):
    try:
        data=gzip.decompress(data)
    except:
        pass
    return data

然后在html = response.read().decode("utf-8")处用调用函数

html = ungzip(response.read().decode("gbk"))

顺便说一下该网址进行了修改，现在的数据在window.__SEARCH_RESULT__ 中，网页源码并不会像以前一样直接显示数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

看到请叫我滚去戒烟

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取网页：‘gbk/utf-8‘ codec can‘t decode byte xx in position xx : illegal multibyte sequence的问题

爬取网址编码错误问题
复制链接

扫一扫

爬虫时，报错‘utf-8‘ codec can‘t decode byte 0x8b in position 1: invalid start byte和乱码问题

weixin_65588529的博客

02-21

1100

背景：爬虫获取网页数据代码：运行时，显示乱码：使用F12查看网页的编码格式为utf-8 于是，想要通过指定encoding=utf-8的方式修改，即： # content = page.content.decode("utf-8") # print(content) 但再次运行会报如下错误：最终解决方案：去掉header中关于 accept-encoding的指定而且，通过测试还发现，header中只需要指定”User-Agent“即可，其他参数不必.

Python: 'gbk' codec can't encode character '\u30fb' in position 0: illegal multibyte sequence

zoulonglong的博客

11-22

1万+

先上代码：代码是通过爬去王者荣耀官方网站的数据，然后再写入文件中，获取的英雄，铭文等信息写入时都没有问题，但是写入装备信息时就出现编码的问题了 # -*- coding: utf-8 -*- """ Created on Thu Nov 16 16:25:44 2017 @author: 10183930 """ import requests import csv import...

参与评论您还未登录，请先登录后发表或查看评论

爬虫问题解决UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x8b in position 1: invalid start byte

上上迁的专栏

01-23

2238

文章目录问题描述解决思路具体代码问题描述 1 在爬取代码的时候会遇到字符编码和网络解压缩的问题解决思路 1 统一字符编码 2 解压网络字符流具体代码 from urllib import request from io import BytesIO import gzip import io import sys def get_url_data(): #1改变标准输出的默认编码 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encod

解决python读取文件gbk编码和utf-8编码都报错的问题

qq_46213352的博客

03-06

1万+

UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 12423: illegal multibyte sequence，读取ANSI文件问题描述：原因分析：尝试解决：1. 修改编码2. 更换读取模式3. 忽略报错问题描述：在读取文件的时候遇到了报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 12423: illegal multiby

‘gbk‘ codec can‘t decode byte 0xad in position 2: illegal multibyte sequence 错误的解决方法

weixin_44714682的博客

05-03

3万+

UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xad in position 2: illegal multibyte sequence 翻译：'gbk’编解码器无法解码位置2的字节0xad：非法的多字节序列文件包括两种类型：文本文件和二进制文件。文本文件：一般由单一特定编码的字符组成，如UTF-8编码，内容容易统一展示和阅读。二进制文件：直接由比特0和比特1组成，没有统一字符编码。两者最主要的区别在于是否有统一的字符编码。有以上定义可知出

Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

热门推荐

sweet_tea_的博客

06-20

4万+

Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

解决Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 658: illegal multibyte

Xixoqw的博客

01-04

1077

win10安装python3.8.8 命令行运行python报错：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x9a in position 220: illegal multibyte sequence 修改前：修改文件：C:\ProgramData\Anaconda3\Lib\site-packages\pyreadline\lineeditor\history.py 修改位置：（添加encoding='utf-8'）修改后： ...

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

pcy1127918的博客

04-16

7428

针对我上一篇《简易版计算文本相似度》出现的问题：Traceback (most recent call last): File "D:/pythonlianxi/wenbensimi1.py", line 52, in <module> d3 = open(doc3).read()UnicodeDecodeError: 'gbk' codec can't decode byte...

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 2: invalid continuation byte-附件资源

03-02

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 2: invalid continuation byte-附件资源

basemap readshapefile UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb4 in position 0-附件资源

03-05

basemap readshapefile UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb4 in position 0-附件资源

Zenmap 报’utf8′ codec can’t decode byte 0xc0 in position 0: invalid start byte错误部分解决方案

12-21

本文将深入探讨“utf8 codec can’t decode byte 0xc0 in position 0: invalid start byte”这一错误，以及如何针对Zenmap工具提供部分解决方案。首先，让我们了解这个错误的含义。UTF-8是一种广泛使用的字符编码...

Jupyter修改默认路径问题(SyntaxError: (unicode error) ‘utf-8’ codec can’t decode byte 0xb5 in position 0)

01-20

Jupyter修改默认路径问题1、问题描述2、总结 1、问题描述 Exception while loading config file C:\Users\Administrator\.jupyter\jupyter_notebook_config.py Traceback (most recent call last): File C:\my...

【错误解决】UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 20: illegal multibyte seque

知易行难，知行合一

08-17

3826

2.使用正确的编码方式进行解码：尝试使用其他编码方式（如UTF-8）对文本进行解码，而不是使用GBK。你可以通过在解码时指定正确的编码方式来实现。这个错误通常是由于尝试使用GBK编码解码包含非法多字节序列的文本导致的。GBK是一种中文字符编码方式，它无法处理一些非法的多字节序列。1.使用合适的编码方式打开文件：如果你遇到这个问题是在读取文件时发生的，可以在打开文件时使用正确的编码方式。3.忽略错误的字符：你可以使用’ignore’参数来忽略解码过程中出现的错误字符。

UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xbd in position 79: incomplete multibyte sequence

SHZ595468363的博客

08-06

777

新人小白学Python Python文件读写，程序报错如下： UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xbd in position 79: incomplete multibyte sequence 我的任务：在一个脚本中将文件A内容复制到B中我的初始代码： #'''No.10 复制文件内容到另一个文件 from sys import argv from os.path import exists script, from_file, to

Python 基于csv 读取文本文件提示：‘gbk‘ codec can‘t decode byte 0xbf in position 2: illegal multibyte sequence

weixin_49034139的博客

04-10

4707

Python 基于csv 读取文本文件提示：‘gbk‘ codec can‘t decode byte 0xbf in position 2: illegal multibyte sequence。

pandas读取CSV文件报错：编码错误，无法读取

小蜗牛的博客

06-12

5195

错误：UnicodeDecodeError: 'gb18030'/utf-8 codec can't decode byte 0x80 in position 16: illegal multibyte sequence 解决：pd.read_csv('ene_train.csv',encoding = 'utf-8')去掉encoding，pd.read_csv('ene_train.csv')也不行，用记事本打开发现文件是乱码，此时选择“文件”---“另存为”---编码改为utf-8，如图在代

Python爬虫速成之路（6）：Selenium的使用

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交