爬取图片网站

本文讲述了使用Scrapy和Scrapy-Splash来爬取一个使用JS加载的图片网站。在尝试将图片保存到本地时遇到图片损坏和403禁止访问的问题,疑似由于反爬策略。最终决定只保存图片URL至MongoDB。
摘要由CSDN通过智能技术生成

scrapy爬取,翻页是js加载的,所以采用scrapy-splash发送请求!
准备存储图片到本地,但是发现存储以后图片打不开,损坏了,然后复制图片地址在浏览器打开试一试,结果发现403禁止访问,应该是反爬,时而可以,时而不行,切换ip以后,依旧如此!
算了,还是把图片地址保存下来吧!
图片网址就不写了,美女图片站,涉嫌色情。。。oh my god

main

class MtSpider(scrapy.Spider):
    name = 'mt'
    allowed_domains = ['www.?.com']
    start_urls = ['https://www.?.com/meinv/changtuimeinv/']

    def parse(self, response):
        a_list = response.xpath('//*[@id="l"]/a')
        for a in a_list:
            item = MeituItem()
            item[
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值