python爬虫文件存储，编码错误时的解决办法

最新推荐文章于 2022-11-09 23:41:45 发布

49.99%

最新推荐文章于 2022-11-09 23:41:45 发布

阅读量431

点赞数

分类专栏：爬虫 python 文章标签： python 爬虫

原文链接：https://cloud.tencent.com/developer/article/1544078

版权

python 同时被 2 个专栏收录

605 篇文章 21 订阅

订阅专栏

爬虫

203 篇文章 15 订阅

订阅专栏

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者：十四君

( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 )
在这里插入图片描述
对于网站采用不容易出异常的方式将网页源码存为文件，一般使用wb的形式写入，取requests返回的response.content

with open(save_file,"wb") as f:
    f.write(response.content)

读取了一个.html的wb形式写入的文件，然后报错：

'utf-8' codec can't decode byte 0xfc in position 14: invalid start byte

解决方法很简单，用各种text reader（我用atom ）将文件打开，我发现当设置编码格式为GBK 的时候，中文显示正常，因此我的文件编码形式是这样的：’GBK’

确定了该wb写入的文件是gbk编码，那么读取的时候也一样加上参数就行了

with open(file_path,"r",encoding='gbk') as f:
    html = f.read()

另外，文件中有不可理解的错误字符，可以用 errors=”ignore” 来忽略之

with open("a.html","r",encoding='GBK', errors="ignore") as f:
    html = f.read()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

49.99%

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫 urllib模块url编码处理详解

09-18

在进行网络请求时，由于URL规范要求URL中不能包含非ASCII字符，而中文等字符在URL中属于非ASCII字符，因此需要进行URL编码处理，以避免在请求过程中产生编码错误。本文针对Python爬虫 urllib模块的URL编码处理进行了...

写入文件的模式为"wb"时，编码格式不能为encoding=‘utf-8’

m0_46268174的博客

04-02

1427

在爬取站长素材中的免费简历模板并将其下载下来时，利用open（）写入本地文件夹时，出现了如下错误： ValueError: binary mode doesn’t take an encoding argument 意味着用wb时，不能添加encoding这个参数，否则报错。在这里自己做个小记录。 ...

参与评论您还未登录，请先登录后发表或查看评论

python 网络爬虫爬取网页数据时网站字符集不是默认编码“UTF-8”，导致爬取出来的网页数据出现其它语言的乱码情况，需要手动添加网页相对应的字符集encoding=“ ”

m0_57781407的博客

04-25

1143

python网络爬虫爬取网页数据时网站字符集不是默认编码“UTF-8”，导致爬取出来的网页数据出现其它语言的乱码情况，需要手动添加网页相对应的字符集encoding=“”

python 解决抓取网页中的中文显示乱码问题

weixin_30287169的博客

06-19

242

关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码转换、还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为解决方式是一致的，故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来后的编码格式不一致。如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现...

爬虫后文件存储乱码问题

最新发布

weixin_49864586的博客

11-09

1180

csv乱码问题

爬虫时遇到的编码问题

m1f2c3的专栏

10-08

563

请谨慎观看，可能会有很多错误目前我认为最稳妥的编码解决方法 1、首先检查网页源码，了解网页源码的编码方式如果网页源码中没有明确表明数据的编码方式，就直接用tcpdump截取数据，一点点对照着看，找出编码方式 2、在已知编码方式的前提下使用requests和beautifulsoup req = requests.get(url) soup = BeautifulSoup(req.conte...

Python 爬虫之超链接 url中含有中文出错及解决办法

09-21

### Python 爬虫之超链接 URL 中含有中文出错及解决办法 在进行网络爬虫开发时，经常需要处理包含各种字符集的网页数据。其中一种常见的问题就是在处理含有中文或其他非 ASCII 字符的 URL 时遇到 `...

Python爬虫源码文件_pachong_python爬虫_python_website_

09-30

8. **异常处理**：良好的错误处理机制是爬虫不可或缺的部分，确保在遇到网络问题、编码错误或页面结构变化时，爬虫能优雅地处理并继续运行。 9. **道德和法律**：在进行爬虫实践时，一定要遵守网站的robots.txt协议...

python爬虫数据保存到mongoDB的实例方法

09-08

总之，Python爬虫结合MongoDB能够高效地从互联网上抓取和存储数据，这为各种数据分析、数据挖掘提供了可能。通过本文的实例方法，读者可以学习到如何将爬虫抓取到的数据保存到MongoDB中，这在处理大量非结构化数据时...

python 爬虫学习笔记

03-09

Python 爬虫学习笔记本文将详细介绍 Python 爬虫学习笔记的知识点，涵盖爬虫基础、网络和前端基础、Requests 模块、请求头、GET 和 POST 请求、代理、Cookie 模拟登录、Quote 和 Unquote、登录和获取 Cookie、Post...

关于爬虫 data:image/jpeg；base64 图片解码问题

qwexzvby的博客

07-12

6560

关于爬虫 data:image/jpeg;base64 图片解码问题

python爬取网页时，编码出错问题

小王的博客

04-06

1204

UnicodeEncodeError: 'gbk' codec can't encode character '\xb9' in position 61513: illegal multibyte sequence

Python爬虫及存入txt中文编码错误的解决（一）

WANGZHUCHEN的博客

04-21

2925

HELLO WORLD!愿这是新生活的开端。最近正在写一篇文本挖掘的论文，但是前期需要大量的文本数据作为挖掘的对象。鉴于需要的文本数量数以千计，所以我决定试着写一个爬虫的程序来进行文本的获取。之前只是零星的学过一点爬虫，但是始终没有自己亲自编写过，也不了解爬虫的过程。所以想借助这个机会，来让自己真正意义上的学会利用python进行爬虫的这项技能，熟悉并掌握爬虫的有关知识。预计的学习内容如下：1.P...

python3爬虫编码问题

初阶农民工的博客

04-01

1万+

使用爬虫爬取网页经常遇到各种编码问题，因此产生乱码今天折腾了一天，全部总结一遍环境：win10,pycharm,python3.4 1.首先先来网页编码是utf-8的：以百度首页为例：使用requests库 import requests url="http://www.baidu.com" response = requests.get(url) content = respo...

python3 爬虫时经常遇到的编码\乱码问题以及解决方法

08-30

1246

对于爬虫字符编码出现错误的终极解决

热门推荐

江月的博客

04-04

1万+

对于爬虫字符编码出现错误的终极解决文章目录对于爬虫字符编码出现错误的终极解决引言解决思路代码实现引言众所周知，网页在编写的时候，会采用不同的编码格式的，因此，在爬虫过程中，很容易就会出现字符编码的乱码的问题，这个问题是很令人烦恼的，但是，这里其实也有一个通用的方法来解决这个烦人的问题。解决思路我们想办法用一种通用的方法去直接获取到所要爬取的网页的具体编码格式，然后在根据这个编码格式进行转码即就可以了，从而也就避免了字符编码乱码的问题。代码实现（我们采用 Jupyter Notebook 来实现

Python3爬虫之中文乱码问题分析与解决方法

1stPeak's Blog

06-15

7109

前言分析解决方法前言：今天简单爬取一个网页的源代码时，发现出现了乱码 python代码： import requests req = requests.get("http://www.ccit.js.cn") req_text = req.text print(req_text) 部分截图：分析：出现这样的情况是什么原因呢？（1）我们先来测试一下python3...

关于python爬虫的编码错误

weixin_30497527的博客

10-16

279

现在才发现很多错误只有自己一点点的去尝试才能发现。不管之前别人怎么和你说，总是不可能面面俱到，所以提升自己的方法就是亲手实践，自己一点点的去发现问题，并一个个的解决。慢慢享受其中无言的快感。今天就发现了一个：运行爬虫时出现了这个错误： UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in pos...

掌握Python爬虫与文件传输技巧

在Python爬虫的上下文中，文件传输可能涉及将爬取的数据保存到本地文件，或者是将数据上传到远程服务器。Python中处理文件传输的常用库包括requests用于网络请求，以及Python内置的open函数用于文件操作。在本...