scrapy爬取,翻页是js加载的,所以采用scrapy-splash发送请求!
准备存储图片到本地,但是发现存储以后图片打不开,损坏了,然后复制图片地址在浏览器打开试一试,结果发现403禁止访问,应该是反爬,时而可以,时而不行,切换ip以后,依旧如此!
算了,还是把图片地址保存下来吧!
图片网址就不写了,美女图片站,涉嫌色情。。。oh my god
main
class MtSpider(scrapy.Spider):
name = 'mt'
allowed_domains = ['www.?.com']
start_urls = ['https://www.?.com/meinv/changtuimeinv/']
def parse(self, response):
a_list = response.xpath('//*[@id="l"]/a')
for a in a_list:
item = MeituItem()
item[