使用scrapy-redis做的分布式爬虫,往redis push的待采集队列,是json格式的数据,需要对其进行二次加工再进行请求。
重写make_request_from_data方法即可
def make_request_from_data(self, data):
"""
:param data: 从reids pop到的数据
:return:
"""
ymd = datetime.datetime.now().strftime('%Y%m%d')
hm = datetime.datetime.now().strftime('%H%M')
url = f'https://hk.on.cc/hk/bkn/js/{ymd}/news_dailyList.js?_={ymd+hm}'
return self.make_requests_from_url(url)