知乎破解登录爬虫scrapy

       之前网络上上多的教程,包括视频教程,都用了很老的方式,老师也说过爬虫和反爬是一场永不停息的战斗。我在这次体会的淋漓尽致,前一天知乎的登录刚刚告破,第二天知乎就改版了,现在知乎的登录方式是通过文件上传的方式,而且每个登录的验证码也是加密的js方式,我这才疏学浅搞不定恨啊。我因为这彻夜难眠搞了3天还是没搞定。平常还得上班,晚上回来都没搞定,最后在不断的深入学习过程中,我发现了一个很牛逼的方式也是直接攻破知乎登录的方式。

       

from scrapy.http import HtmlResponse
import  re
class JSPageMiddleware(object):

    def process_request(self, request, spider):
        # if spider.name == 'jobbole':
        #     spider.browser.get(request.url)
        #     import time
        #     time.sleep(3)
        #     print("访问:{0}".format(request.url))
        #
        #     return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)

        if spider.name == 'zhihu' and not re.match("(.*zhihu.com/question/(\d+))(/|$).*", request.url):
            spider.browser.get(request.url)
            import time
            time.sleep(3)
            if request.url =='https://www.zhihu.com/signin':
                spider.browser.find_element_by_css_selector(".Login-content input[name='username']").send_keys("13460688542")
                spider.browser.find_element_by_css_selector(".Login-content input[name='password']").send_keys("3989441qwe")
                spider.browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue").click()
            time.sleep(3)
            print("访问:{0}".format(request.url))

            return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)

 middlewares.py 中加入

 

 

DOWNLOADER_MIDDLEWARES = {
  # 'Articl
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值