![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
weixin_65588529
这个作者很懒,什么都没留下…
展开
-
python爬虫:解决“ResultSet object has no attribute ‘%s‘问题
背景:使用python爬取豆瓣中某个贴子的评论中的邮箱。在实现获取分页数据时,遇到问题 问题: 先获取分页列表: page_list = bs4_obj.find_all("div",attrs={"class":"paginator"}) 得到的是'bs4.element.ResultSet'类型的结果 使用for循环取出结果中的网址时,报错: for page_ele in page_list.find_all("a"): print(page_ele.attrs.get("hr原创 2022-02-22 10:39:41 · 1705 阅读 · 0 评论 -
爬虫时,报错‘utf-8‘ codec can‘t decode byte 0x8b in position 1: invalid start byte和乱码问题
背景:爬虫获取网页数据 代码: 运行时,显示乱码: 使用F12查看网页的编码格式为utf-8 于是,想要通过指定encoding=utf-8的方式修改,即: # content = page.content.decode("utf-8") # print(content) 但再次运行会报如下错误: 最终解决方案: 去掉header中关于 accept-encoding的指定 而且,通过测试还发现,header中只需要指定”User-Agent“即可,其他参数不必.原创 2022-02-21 20:10:07 · 1098 阅读 · 1 评论