知乎破解登录爬虫scrapy

最新推荐文章于 2024-06-29 16:57:48 发布

zhugeaming1314

最新推荐文章于 2024-06-29 16:57:48 发布

阅读量718

点赞数

文章标签： python 爬虫 xhtml

本文链接：https://blog.csdn.net/zhugeaming1314/article/details/84914601

版权

之前网络上上多的教程，包括视频教程，都用了很老的方式，老师也说过爬虫和反爬是一场永不停息的战斗。我在这次体会的淋漓尽致，前一天知乎的登录刚刚告破，第二天知乎就改版了，现在知乎的登录方式是通过文件上传的方式，而且每个登录的验证码也是加密的js方式，我这才疏学浅搞不定恨啊。我因为这彻夜难眠搞了3天还是没搞定。平常还得上班，晚上回来都没搞定，最后在不断的深入学习过程中，我发现了一个很牛逼的方式也是直接攻破知乎登录的方式。

from scrapy.http import HtmlResponse
import  re
class JSPageMiddleware(object):

    def process_request(self, request, spider):
        # if spider.name == 'jobbole':
        #     spider.browser.get(request.url)
        #     import time
        #     time.sleep(3)
        #     print("访问:{0}".format(request.url))
        #
        #     return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)

        if spider.name == 'zhihu' and not re.match("(.*zhihu.com/question/(\d+))(/|$).*", request.url):
            spider.browser.get(request.url)
            import time
            time.sleep(3)
            if request.url =='https://www.zhihu.com/signin':
                spider.browser.find_element_by_css_selector(".Login-content input[name='username']").send_keys("13460688542")
                spider.browser.find_element_by_css_selector(".Login-content input[name='password']").send_keys("3989441qwe")
                spider.browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue").click()
            time.sleep(3)
            print("访问:{0}".format(request.url))

            return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)

middlewares.py 中加入

DOWNLOADER_MIDDLEWARES = {
  # 'Articl

最低0.47元/天解锁文章

zhugeaming1314

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
知乎破解登录爬虫scrapy

之前网络上上多的教程，包括视频教程，都用了很老的方式，老师也说过爬虫和反爬是一场永不停息的战斗。我在这次体会的淋漓尽致，前一天知乎的登录刚刚告破，第二天知乎就改版了，现在知乎的登录方式是通过文件上传的方式，而且每个登录的验证码也是加密的js方式，我这才疏学浅搞不定恨啊。我因为这彻夜难眠搞了3天还是没搞定。平常还得上班，晚上回来都没搞定，最后在不断的深入学习过程中，我发现了一个很牛逼...
复制链接

扫一扫