爬取图片网站

最新推荐文章于 2024-04-15 10:45:30 发布

正义的小熊

最新推荐文章于 2024-04-15 10:45:30 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/wen6663655/article/details/105907545

版权

本文讲述了使用Scrapy和Scrapy-Splash来爬取一个使用JS加载的图片网站。在尝试将图片保存到本地时遇到图片损坏和403禁止访问的问题，疑似由于反爬策略。最终决定只保存图片URL至MongoDB。

摘要由CSDN通过智能技术生成

scrapy爬取，翻页是js加载的，所以采用scrapy-splash发送请求！
准备存储图片到本地，但是发现存储以后图片打不开，损坏了，然后复制图片地址在浏览器打开试一试，结果发现403禁止访问，应该是反爬，时而可以，时而不行，切换ip以后，依旧如此！
算了，还是把图片地址保存下来吧！
图片网址就不写了，美女图片站，涉嫌色情。。。oh my god

main

class MtSpider(scrapy.Spider):
    name = 'mt'
    allowed_domains = ['www.?.com']
    start_urls = ['https://www.?.com/meinv/changtuimeinv/']

    def parse(self, response):
        a_list = response.xpath('//*[@id="l"]/a')
        for a in a_list:
            item = MeituItem()
            item[

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

正义的小熊

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
爬取图片网站

scrapy爬取，翻页是js加载的，所以采用scrapy-splash发送请求！准备存储图片到本地，但是发现存储以后图片打不开，损坏了，然后复制图片地址在浏览器打开试一试，结果发现403禁止访问，应该是反爬，时而可以，时而不行，切换ip以后，依旧如此！算了，还是把图片地址保存下来吧！mainclass MtSpider(scrapy.Spider): name = 'mt' ...
复制链接

扫一扫