python scrapy scrapy-splash爬取js渲染网站

yftyzs

于 2023-10-10 16:38:26 发布

阅读量201

点赞数

文章标签： python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yftyzs/article/details/133691303

版权

1、python和scrapy安装，之前有介绍或者网上有很多方法，这里就不说了。

2、splash安装需要docker，docker安装也不说了，最好是linux下，windows下装docker也很麻烦，可以windows下装个虚拟机比如VMware然后装linux，再装docker。

（1）pull splash镜像

sudo docker pull scrapinghub/splash

（2）运行splash的docker服务，并通过浏览器访问8050端口验证安装是否成功

前台运行 sudo docker run -p 8050:8050 scrapinghub/splash
后台运行 sudo docker run -d -p 8050:8050 scrapinghub/splash

3、安装Scrapy-Splash

pip install scrapy_splash

4、scrapy创建项目和爬虫

scrapy startproject 项目名称

scrapy genspider 爬虫名爬虫的地址

5、在项目的settings.py中做如下配置，其中SPLASH_URL指定了刚刚启动的Splash服务地址

SPLASH_URL = 'http://localhost:8050'

DOWNLOADER_MIDDLEWARES = {

'scrapy_splash.SplashCookiesMiddleware': 723,

'scrapy_splash.SplashMiddleware': 725,

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,

}

SPIDER_MIDDLEWARES = { 'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

#这个就是防止robots.txt不让爬取

ROBOTSTXT_OBEY = False

6、在爬虫文件里import scrapy下面加入

from scrapy_splash import SplashRequest

import sys

reload(sys)

sys.setdefaultencoding('utf8')

7、爬虫文件完整代码，这个是把抓取的渲染后的代码存到HTML里

import scrapy

from scrapy_splash import SplashRequest

import sys

reload(sys)

sys.setdefaultencoding('utf8')

class Hehe1Spider(scrapy.Spider):

name = 'hehe1'

allowed_domains = ['cs.xxx.com']

start_urls = ['http://cs.xxx.com/product?id=1']

def start_requests(self):

yield SplashRequest(self.start_urls[0],

callback=self.parse_splash,

args={'wait': 5}, # 最大超时时间，单位：秒

endpoint='render.html') # 使用splash服务的固定参数

def parse_splash(self, response):

with open('with_splash.html', 'w') as f:

f.write(response.body.decode())

8、注意上面的代码Request换成了SplashRequest，第一个参数是采集的网址、第二个参数是返回的方法也就是下面的parse_splash。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy scrapy-splash爬取js渲染网站

python scrapy scrapy-Splash爬取JS渲染网站
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。