之前网络上上多的教程,包括视频教程,都用了很老的方式,老师也说过爬虫和反爬是一场永不停息的战斗。我在这次体会的淋漓尽致,前一天知乎的登录刚刚告破,第二天知乎就改版了,现在知乎的登录方式是通过文件上传的方式,而且每个登录的验证码也是加密的js方式,我这才疏学浅搞不定恨啊。我因为这彻夜难眠搞了3天还是没搞定。平常还得上班,晚上回来都没搞定,最后在不断的深入学习过程中,我发现了一个很牛逼的方式也是直接攻破知乎登录的方式。
from scrapy.http import HtmlResponse
import re
class JSPageMiddleware(object):
def process_request(self, request, spider):
# if spider.name == 'jobbole':
# spider.browser.get(request.url)
# import time
# time.sleep(3)
# print("访问:{0}".format(request.url))
#
# return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)
if spider.name == 'zhihu' and not re.match("(.*zhihu.com/question/(\d+))(/|$).*", request.url):
spider.browser.get(request.url)
import time
time.sleep(3)
if request.url =='https://www.zhihu.com/signin':
spider.browser.find_element_by_css_selector(".Login-content input[name='username']").send_keys("13460688542")
spider.browser.find_element_by_css_selector(".Login-content input[name='password']").send_keys("3989441qwe")
spider.browser.find_element_by_css_selector(".Button.SignFlow-submitButton.Button--primary.Button--blue").click()
time.sleep(3)
print("访问:{0}".format(request.url))
return HtmlResponse(url=spider.browser.current_url,body=spider.browser.page_source,encoding="utf-8",request=request)
middlewares.py 中加入
DOWNLOADER_MIDDLEWARES = {
# 'Articl