scrapy_splash组件的使用

最新推荐文章于 2023-03-10 14:14:43 发布

红山1206

最新推荐文章于 2023-03-10 14:14:43 发布

阅读量242

点赞数

分类专栏： scrapy 文章标签： scrapy

本文链接：https://blog.csdn.net/weixin_44461123/article/details/98651144

版权

scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

scrapy_splash是一个基于Splash的Scrapy组件，用于处理JavaScript加载的数据。通过使用scrapy_splash，可以在Scrapy爬虫中模拟浏览器行为，获取经过JavaScript渲染后的网页源代码。设置包括创建项目和爬虫，配置settings.py，以及在start_requests方法中集成Splash。

摘要由CSDN通过智能技术生成

什么是scrapy_splash？

scrapy-splash加载js数据是基于Splash来实现的。 Splash是一个Javascript渲染服务。
它是一个实现了HTTPAPI的轻量级浏览器，Splash是用Python和Lua语言实现的，基于Twisted和QT等模块构建。
使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。

scrapy_splash的作用

scrapy-splash能够模拟浏览器加载js，并返回js运行后的数据

在scrapy中使用splash

1,创建项目创建爬虫

scrapy startproject 项目名
cd 项目名
scrapy genspider 爬虫名字 域

2,完善settins.py文件

    # 渲染服务的url
    SPLASH_URL = 'http://127.0.0.1:8050'
    # 下载器中间件
    DOWNLOADER_MIDDLEWARES = {
        'scrapy_splash.SplashCookiesMiddleware': 723,
        'scrapy_splash.SplashMiddleware': 725,
        'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    }
    # 去重过滤器
    DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
    # 使用Splash的Http缓存
    HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
    
    # Obey robots.txt rules
    ROBOTSTXT_OBEY = False

3,使用splash 在爬虫文件重写start_requests方法

def start_requests(self):
      yield SplashRequest(self.start_urls[0],
          callback=self.parse_splash,
            args={'wait': 10}, # 最大超时时间，单位：秒
            endpoint='render.html') # 使用splash服务的固定参数