python爬虫，在response乱码时进行转码的通用格式

西门大盗

已于 2023-04-30 11:26:28 修改

阅读量3.8k

点赞数 1

文章标签： encode encoding decode

于 2018-07-05 13:05:44 首次发布

本文链接：https://blog.csdn.net/xiongzaiabc/article/details/80925355

版权

如果print(response.text)出现非utf-8格式时，通过以下方式进行统一的格式转换。

def get_html(url):

    response = requests.get(url)
    return response.text.encode(response.encoding).decode('utf-8') #response.encoding为原来的编码格式，encode后编码为原来的格式，decode后解码为‘utf-8’

假如上面方法不生效，可以用下面这方法：

import requests
res = requests.get("https://www.baidu.com/")
res.encoding = res.apparent_encoding
print(res.text)

其他方法:

当去掉 accept-encoding: gzip, deflate, br 这个行信息后，响应的内容就可以正常读取文本内容

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

西门大盗

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python 爬虫数据乱码解决方式

weixin_48826751的博客

03-10

6976

数据乱码大多来自于编码格式不支持中文显示，解决方式主要有如下两个： 1.设置对响应对象的编码格式 2.设置爬取到的数据编码格式及解码格式

Python 爬虫：一些常用的爬虫技巧总结

m0_72444380的博客

09-20

194

用 python 也差不多一年多了，python 应用最多的场景还是 web 快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。

2 条评论您还未登录，请先登录后发表或查看评论

爬虫1

qq_45849275的博客

12-13

135

异常，导包，文件，爬虫，自动化，目录，数据库，框架爬虫 import html import requests import lxml from lxml import etree url=“http://www.baidu.cn” headers={} cookies={} referer="" proxies={“http:http://192.168.10.12:8830”} //一定要小...

Python响应对象text属性乱码解决方案

12-20

在获得网页响应对象res后，使用res.text属性可以获得网页源代码，但可能出现乱码！因为requests库会使用自动猜测的解码方式将抓取的网页源码进行解码，然后存储到res对象的text属性中；但有的网站的编码格式和requests库默认的解码格式（）不一样（比如gbk gb2312是gbk的子集），这时候就要自己手动进行解码，先获得content属性，返回的是bytes类型的字符串，再进行解码decode（“网页的编码格式”）这时候可能出现新的问题 'gbk' codec can't decode byte 0xd0 in position 15264: illegal multi

解决字体乱码的最佳实践

m0_56280293的博客

08-07

703

通过采用统一的UTF-8编码标准，并使用上述的文本乱码转码助手进行批量处理，我们成功解决了这个问题，大大提高了工作效率。不同的操作系统、软件甚至是地区，可能会默认使用不同的编码方式，这就增加了乱码出现的可能性。最后，我想说的是，虽然乱码问题看似简单，但它反映了数字时代信息交换的复杂性。使用跨平台兼容的文件格式：如果需要在不同系统间传输文件，考虑使用UTF-8编码的文本文件或跨平台兼容的文档格式。这是一个我最近发现的神器，由"勤学道人"开发的工具，特别适合不太懂技术的小白用户。

python中——requests爬虫【中文乱码】的3种解决方法

热门推荐

2301_82000445的博客

01-25

1万+

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

爬虫中文转码问题

qq_45789906的博客

02-04

1023

今天想去当当爬书籍，结果中文在url里被转码了搜了好久，发现可以解决了还挺简单引urllib.parse 中文转就用quote 转中文就用unquote over 得亏我搜了这么久，没想到这么简单就能解决。。

python打不开text_Python响应对象text属性乱码解决方案

weixin_39738755的博客

11-29

251

Python爬虫利器 ——代码转换

m0_55593211的博客

05-06

3620

背景写爬虫时经常要为程序添加请求头，参数，cookie等信息，但是这些信息的添加都需要手动的去浏览器中找，然后一项一项的复制粘贴，效率非常的低。今天就分享一个开源项目网站，解决这些问题，让你脱离这些没有丝毫意义的劳动时间。网站：curlconverter 除了Python，还支持Go，Java，PHP，Rust等等语言。示例三步走原则 1、打开网页，百度为例网页打开百度，按F12，右键点击 “Copy as cURL (bash)” ，复制请求头等信息。 2、进行转换为代码将复制的请求头

python抓取并保存html页面时乱码问题的解决方法

12-23

在Python中进行网络爬虫时，常常会遇到HTML页面抓取后出现乱码的问题。这个问题主要源于两个方面：一是代码中处理字符编码的方式不正确，二是网页的实际编码与声明的编码不符。解决这类问题的关键在于正确识别和处理...

python爬虫免登录_爬虫使用cookie免登陆

weixin_35203943的博客

12-23

1915

由于前程无忧上岗位投递记录只保留两个月，想记录下。由于之前写过一个爬工作岗位的爬虫，所以这次我就拿之前的代码，改了下，发现爬不到东西。一番折腾后，发现。爬虫下载网页，获取登陆是不会记住你浏览器的登陆状态的，就相当于，在一个新的，从未登陆过该网站的浏览器上下载页面，而我需要的页面是登陆后的页面。程序代码放在Github对于怎么获取登陆后的页面，有两种思路使用账号，密码登陆，如果该网站登陆系统简单的话...

python爬虫遇到验证码、输入验证码后还是不能登录_Python爬虫遇到验证码的处理方式...

weixin_39855186的博客

01-13

735

1Python应用最多的场景还是Web快速开发、爬虫、自动化运维，本篇介绍了Python爬虫一些常用的爬虫技巧，希望对Python的学习有所帮助。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。1、基本抓取网页2、使用代理IP在开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代...

爬虫小问题：链接中文转码和解码

weixin_43788986的博客

10-10

759

在爬取数据是时候很多搜索的词语中在浏览器上显示的是中文，但是我们复制url到本地，中文就会出现我们看不懂的文字。如果我们需要爬虫的时候也是一样，我们需要给浏览器传过去的也是对url中的中文进行转码之后的url地址，否则在url中的关键字直接出现中文会有问题。在python3的环境中的urllib库中 quote模块提供了这一功能。

python的requests响应请求，结果乱码，即使设置了response.encoding也没有用的解决方法

十一姐的博客

09-24

1400

获取的内容的编码方式。

python 输出结果乱码解决方法——res.encoding=‘utf-8‘

weixin_41695715的博客

03-24

8022

Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，导致中文输出乱码。

Python爬虫中文出现乱码、转码

weixin_44415561的博客

06-16

483

参考Python爬虫中文出现乱码、转码

解决python3中response.text返回\u等的字符，编码错误怎么显示中文

weixin_45433224的博客

09-04

351

如果你想要处理 / 这样的转义序列，可以使用 ‘raw_unicode_escape’ 编码来代替 ‘unicode_escape’。不管是通过response.content.decode(“utf-8”)、reponse.content.decode(“unicode_escape”)的方式还是通过response.encoding="utf-8"的方式都可以避免乱码的问题发生。response.text直接用这个的话，是让py猜测页面编码，很多时候返回的都是有问题的，如果这个还是错误的话，

python打印resp.text出现乱码

weixin_50699509的博客

11-07

521

爬虫response.text乱码

Python爬虫出来是乱码