爬虫问题总结1

最新推荐文章于 2024-04-08 08:45:59 发布

一只眠羊zZ

最新推荐文章于 2024-04-08 08:45:59 发布

阅读量320

点赞数 1

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51728945/article/details/125973026

版权

1、乱码问题（解码）：

使用open函数将爬虫爬取的html时，在控制台下是乱码（要把字节转换成字符串）。

解码方式具体看控制台下面（utf 或gbk）。

输出的时候加上decode("utf-8")即可便正常。

2、HTML文件空白问题：

使用open函数将爬虫爬取的html时，如果前面写上：print(resp.read().decode("utf-8"))，那么后面生成的html文件里面将是空白的。把它注释掉即可。及写入的时候直接写入即可，不要在前面进行其他操作。

去掉之后:

html文件里就有东西了；

3、使用open函数将爬虫爬取的html写入文件，有时候在控制台不会乱码，但是写入文件的html中的中文是乱码的，如上图。

把代码改成如下即可，即再打开文件的时候就解码：

with open("mybaidu.html","w",encoding = "utf-8")as f:

完整代码如下：

from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

#print(resp.read())#不加上解密方式会生成乱码

#print(resp.read().decode("utf-8"))#加上之后后面的html文件里面将会是空白的
with open(mybaidu.html,"w",encoding="utf-8")as f:#如果不加上：encoding="utf-8"，生成的文件是乱码
    f.write(resp.read().decode("utf-8"))

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫问题总结1

爬取HTML时的乱码和文件空白问题
复制链接

扫一扫

一只眠羊zZ CSDN认证博客专家 CSDN认证企业博客

码龄4年

3: 原创

173万+: 周排名

132万+: 总排名

605: 访问

: 等级

39: 积分

1: 粉丝

3: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

（蓝桥杯）平面切分——Java
CSDN-Ada助手: 恭喜你写出了第三篇博客，看来你对蓝桥杯平面切分的Java实现已经有了深入的了解。希望你能继续坚持写博客，分享更多有价值的知识和经验。下一步的创作建议是可以尝试将Java实现与其他语言实现进行比较，探索不同实现方式的优缺点。希望你能不断进步，越来越优秀。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。