Python爬虫-bug处理办法（持续更新）

最新推荐文章于 2022-05-09 02:23:24 发布

莫莫先生

最新推荐文章于 2022-05-09 02:23:24 发布

阅读量627

点赞数 1

分类专栏： # Python爬虫学习文章标签： python爬虫 python_bug

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44835732/article/details/103266764

版权

Python爬虫学习专栏收录该内容

27 篇文章 26 订阅

订阅专栏

学习python爬虫以来，一直有不少小问题出现，解决了也就解决了，但总感觉少了些啥，好吧，不想了，这bug已经够恼人了。总之，在此总结一下，python爬虫出现的bug及其解决方法，之前在博文中说明的“坑”也会慢慢写进来。

文章目录

1.python使用xpath爬取数据返回空列表
2.爬取豆瓣返回418

1.python使用xpath爬取数据返回空列表

问题： 爬取西刺代理网站时，使用xpath解析网页root.xpath("//table[@id='ip_list']/tbody/tr")，该解析式正确，html返回正常，但解析出来的列表长度为0，百思不得其解
在这里插入图片描述
资料： 浏览器会对html文本进行一定的规范化，会自动为路径中添加tbody，导致xpath解析失败
处理办法： 在路径中去除tbdoy这个标签，如：root.xpath("//tr[@class=''] | //tr[@class='odd']")

2.爬取豆瓣返回418

问题： 爬取豆瓣电影TOP250时豆瓣一直返回418状态码，无法正常访问
尝试header请求头加入完整的Cooking等参数均无效果
处理办法： 在请求时候加入参数timeout有效解决豆瓣返回418问题，可参阅博文爬虫练习-爬取豆瓣电影 Top 250信息并存储于本地

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫-bug处理办法（持续更新）

对于爬虫学习过程中出现的BUG整理，持续更新中
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。