scrapy关于登录和更多页面的演示

最新推荐文章于 2024-03-27 13:29:35 发布

zy_dream

最新推荐文章于 2024-03-27 13:29:35 发布

阅读量1.1k

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zy_dream/article/details/70336290

版权

本文介绍了如何使用Scrapy框架模拟登录中华讲师网并爬取需要登录后才能查看的电话和QQ信息。通过分析网页，获取登录后的Cookie，避免验证码，进而爬取讲师列表及详情页内容，涉及多次Request跳转。理解Scrapy的selector和Request的使用是关键。

摘要由CSDN通过智能技术生成

这次的任务是爬取中华讲师网-中国最大讲师平台-找讲师-培训师-培训讲师首选网站 http://www.jiangshi.org/ 里面的

红色框框里面的内容。

需要解决的问题第一是，有些电话和QQ只有登录之后才能看到，因此需要模拟登录之后的爬取。

感谢 Scrapy用Cookie实现模拟登录 - 简书 http://www.jianshu.com/p/887af1ab4200 提供的帮助。

让我认识了 cookie，也想到之前从未考虑过的登录网页保存密码，但好久不登网页密码失效的问题。

首先用 Chrome 来进入网站的登录界面，F12 之后点击 Network

下一步，登录用户之后（新用户好像是要跳转到完善用户信息这页面，但是爬虫模拟的话，就直接进入主页，暂时不用管完善资料这页面，直接找下面的元素）

拿到这里的 Cookie ，之后会用到的。这样就可以模拟登录用户了，也不需要考虑验证码问题了，因为 Cookie 就记录一次的登录信息：用户名密码和验证码。

之后就是对你所爬取的网站分析和解析爬取咯。结合我进去的坑，现在所想说的是：关键之处在于明白 scrapy 的 swiper 爬取到元素的属性和 Request 的使用。

最经典的例子就是这个：当你明白如何获取了一个方框里面的 a 之后，我相信你已经在爬取元素方面没有问题了。

hxs.select(

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。