scrapy关于登录和更多页面的演示

这次的任务是爬取 中华讲师网-中国最大讲师平台-找讲师-培训师-培训讲师首选网站  http://www.jiangshi.org/ 里面的


红色框框里面的内容。

需要解决的问题第一是,有些电话和QQ只有登录之后才能看到,因此需要模拟登录之后的爬取。

感谢 Scrapy用Cookie实现模拟登录 - 简书  http://www.jianshu.com/p/887af1ab4200 提供的帮助。

让我认识了 cookie,也想到之前从未考虑过的登录网页保存密码,但好久不登网页密码失效的问题。


首先用 Chrome 来进入网站的登录界面,F12 之后点击 Network


下一步,登录用户之后(新用户好像是要跳转到完善用户信息这页面,但是爬虫模拟的话,就直接进入主页,暂时不用管完善资料这页面,直接找下面的元素)


拿到这里的 Cookie ,之后会用到的。这样就可以模拟登录用户了,也不需要考虑验证码问题了,因为 Cookie 就记录一次的登录信息:用户名密码和验证码。


之后就是对你所爬取的网站分析和解析爬取咯。结合我进去的坑,现在所想说的是:关键之处在于明白 scrapy 的 swiper 爬取到元素的属性和 Request 的使用。


最经典的例子就是这个:当你明白如何获取了一个方框里面的 a 之后,我相信你已经在爬取元素方面没有问题了。

hxs.select(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值