爬取知乎碰到的问题-----------------------3、关于url中出现sign的解决办法

最新推荐文章于 2021-10-04 17:41:09 发布

裸睡的雨

最新推荐文章于 2021-10-04 17:41:09 发布

阅读量3.1k

点赞数

分类专栏： python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhao_5352269/article/details/86512356

版权

python 同时被 2 个专栏收录

54 篇文章 1 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

2019-01-16 18:08:37 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.zhihu.com/signin?next=http%3A%2F%2Fwww.zhihu.com%2Fpeople%2Fbantys> (referer: https://zhihu.com/people/libragold/following)
Traceback (most recent call last):
File "D:\Python36\lib\site-packages\scrapy\utils\defer.py", line 102, in iter_errback
yield next(it)
File "D:\Python36\lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 30, in process_spider_output
for x in result:
File "D:\Python36\lib\site-packages\scrapy\spidermiddlewares\referer.py", line 339, in <genexpr>
return (_set_referer(r) for r in result or ())
File "D:\Python36\lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 37, in <genexpr>
return (r for r in result or () if _filter(r))
File "D:\Python36\lib\site-packages\scrapy\spidermiddlewares\depth.py", line 58, in <genexpr>
return (r for r in result or () if _filter(r))
File "G:\zhihuspider\zhihuscrapy\spiders\zhihulogintest.py", line 149, in parse_people
userlinks = userlinks['initialState']['entities']['users'][zhihu_id]
KeyError: 'signin?next=http%3A%2F%2Fwww.zhihu.com%2Fpeople%2Fbantys'

解决办法：

在试了几次之后发现这个链接url，放到知乎的页面会显示该用户已停用，找不到该用户，但是有时候你直接复制的id，也会出现这种问题，所以目前就是直接将访问不到的记录下来，放到文件做最后的处理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
4
评论
爬取知乎碰到的问题-----------------------3、关于url中出现sign的解决办法

2019-01-16 18:08:37 [scrapy.core.scraper] ERROR: Spider error processing &lt;GET https://www.zhihu.com/signin?next=http%3A%2F%2Fwww.zhihu.com%2Fpeople%2Fbantys&gt; (referer: https://zhihu.com/people...
复制链接

扫一扫

专栏目录

裸睡的雨 CSDN认证博客专家 CSDN认证企业博客

码龄9年

136: 原创

5万+: 周排名

15万+: 总排名

28万+: 访问

: 等级

3913: 积分

71: 粉丝

79: 获赞

90: 评论

304: 收藏

私信

关注

热门文章

分类专栏

最新评论

APP 逆向 --- du APP 逆向
以太猪猪: 这个hook是用什么运行的，编程猫吗
Python文件读写模式r,r+,w,w+,a,a+的区别
Kamen Black君: 已收藏与点赞，欢迎回访！
[m(2) for m in multipliers()]-------面试题
爱看书的小鱼: 调试模式，是先运行四次，然后打印列表，得到四个地址，在运行的话，就直接重复运行匿名函数那一句，重复了四次，。我理解是闭包调用外部白能量，这部分计算机就记录了运行逻辑，等到运行到有输入那一步的时候，然后把数据带入，运行得到结果。但是我看了另外一个帖子，那个分析了半天，说是跟闭包没关系，我自己很菜，我感觉应该还是必包。不过这个题，设涉及的知识点真的不少，我刚学，直接蒙了
[m(2) for m in multipliers()]-------面试题
爱看书的小鱼: 确实，应该是这样，我自己也被这个搞了半天想不明白
使用scrapy+splash+Lua脚本实现滚轮动态加载爬取CSDN
qq_38478804: 其实这个并没有加载新的ajax页面，只是设置了浏览器视口大小以适应整个页面，下滑那个操作没起到作用

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

裸睡的雨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。