scrapy利用splash爬取京东js动态渲染的商品数据（记录一下自己的小成果）

最新推荐文章于 2024-03-22 09:49:53 发布

被高端技术封印的小柯

最新推荐文章于 2024-03-22 09:49:53 发布

阅读量1k

点赞数

分类专栏： scrapy scrapy-splash python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_43865334/article/details/121144727

版权

scrapy 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

scrapy-splash

1 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

爬取准备：

爬取页面：京东商品

爬取url: https://wqs.jd.com/data/coss/important/msportal_recovery.shtml?tpl=index或m.jd.com

(一个常被用来借鉴的网站，因为，效果做的真的很厉害)

爬取技术： scrapy（需要python，html技术，若需要存入数据库，则需掌握数据库语言）

爬取目的：获取商品以及商品详情

记录一下自己入坑和出坑的过程：

入坑篇：

1. 准备好python环境后，就会给它安装第三方库，利用pip这个东西，以此来安装scrapy

常用的命令：pip list （查看），

pip install 库名@版本（安装第三方库）

pip uninstall 库名（卸载第三方库）

pip list: 查看是否安装成功

安装成功后，新建scrapy项目，

新建命令：scrapy startproject jdScrapy（jdScrapy为项目名）此为建项目

建立后：

建了项目，只是做好铺垫，还要放虫子：

scrapy genspider jdspider https://wqs.jd.com/data/coss/important/msportal_recovery.shtml?tpl=index

jdspider为爬虫名

配置settings.py（管道类对应的值越小，优先级越高）：

SPIDER_MIDDLEWARES = {
   'jdScrapy.middlewares.JdscrapySpiderMiddleware': 543,
}

DOWNLOADER_MIDDLEWARES = {
   'jdScrapy.middlewares.JdscrapyDownloaderMiddleware': 543,
   'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
   'jdScrapy.rotate_useragent.RotateUserAgentMiddleware': 400,  # 可选
   # 'scrapy_splash.SplashCookiesMiddleware': 723,
   # 'scrapy_splash.SplashMiddleware': 725,
   'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

ITEM_PIPELINES = {
   # 根据自己需求配置，若要保存在数据库中，这里要加管道jdScrapy.pipelines.MysqlPipeline（mysql数据库）
   # 'jdScrapy.pipelines.JdscrapyPipeline': 300,
   'jdScrapy.pipelines.JsonPipeline': 400,
}

2. 项目准备好了，最重要的一步来了：

分析京东源代码：

注意，此刻只获取了京东商品，商品详情需要通过点击商品点击进入查看，商品详情里面包括了同件商品的不同颜色，类型等图片，如下图：

分析网页的目的是为了知道数据的结构，后续以通过xpath去获取。

3. 分析完后，就可以知道自己要获取的字段有哪些（items.py）：

4. 准备写爬虫具体代码（jdspider.py）：

5. 管道准备（数据会保存在哪里，根据settings配置决定，目前我只保留json格式，并创建文件）（pipelines.py）

注意，1. 类名要和settings.py中的配置相同；

2. 一定要返回item，不然，你的数据进来了就出不去了

6. 运行

一切准备好后，就可以运行了

运行方式有多种，许多人采用的是通过命令的方式： scrapy crawl jdspider

但是，我想写一个入口文件（main.py）来运行，注意的是，

main.py内容：
from scrapy.cmdline import execute
import os
import sys

if __name__ == '__main__':
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))  # 这里找到运行文件
    execute(['scrapy', 'crawl', 'jdspider']) # 想想和命令式也差不多。。。

7. 坑来了：

网页倒是200，访问到了，但是数据全为空！！！，因为是js渲染的数据呀！！！！！！

经过我CV工程师的努力，终于知道怎么破解了，，，采用splash（终于点题了）

出坑篇：

感觉比较麻烦，，，，但好歹结果是好的。

1. splash需要docker，安装docker：（网上有许多方式，现在简单介绍下自己的安装历程）

1. 去下载dock Desktop，下图是完全安装好并运行的图：

2. 下载好后，确保虚拟化技术（VT）开启：在电脑的开发者模式中（不同电脑开启开发者模式不同，VT位置也不同）

开启后查看确认：（注意的是可能要提醒多次重启）

3. 修改启动项：bcdedit /set /hypervisorsettings auto 设置虚拟机监控程序的参数

4. docker Desktop会提示安装WSL2(根据情况而定自己是否安装，会下载后默认安装)

5. 若能正确启动docker Desktop，最后就安装scrapy-splash吧：

docker 启动安装 docker run -d -p 8050:8050 -p 5023:5023 scrapinghub/splash

安装之后：

鼠标放在上面有许多选项，启动（关闭），log日志等等。

只要启动好就行了，不用就关闭就好了！！！

6. 修改之前的代码：

settings.py:

SPIDER_MIDDLEWARES = {
   # 'jdScrapy.middlewares.JdscrapySpiderMiddleware': 543,
   'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

#设置渲染服务的url，这是js渲染的关键之所在,这里的url即为刚刚开启Docker的Ip(localhost即可)加splash服务指定的端口
SPLASH_URL="http://localhost:8050"

DOWNLOADER_MIDDLEWARES = {
   'jdScrapy.middlewares.JdscrapyDownloaderMiddleware': 543,
   #  在网址不存在反爬虫机制的情况下，不需要反爬虫
   'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
   # 'jdScrapy.rotate_useragent.RotateUserAgentMiddleware': 400,
   'scrapy_splash.SplashCookiesMiddleware': 723,
   'scrapy_splash.SplashMiddleware': 725,
   'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

# 去重过滤器
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
#使用splash的http缓存
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

ITEM_PIPELINES = {
   # 'jdScrapy.pipelines.JdscrapyPipeline': 300,
   'jdScrapy.pipelines.JsonPipeline': 400,
}

jdspider.py:

import scrapy

from jdScrapy.items import JdscrapyItem
from scrapy_splash import SplashRequest


class JdspiderSpider(scrapy.Spider):
    name = 'jdspider'
    allowed_domains = ['https://wqs.jd.com/data/coss/important/msportal_recovery.shtml?tpl=index']
    start_urls = ['https://wqs.jd.com/data/coss/important/msportal_recovery.shtml?tpl=index']

    def start_requests(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
        }
        for url in self.start_urls:
            yield SplashRequest(url, callback=self.parse, headers=headers)

    def parse(self, response):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40'
        }
        print("response",response)
        businessItem = response.xpath('//div[@id="recFloor"]/div[@class="floor-the-container"]/ul/li')
        # print("businessItem",businessItem)
        # print(len(businessItem))
   
        for item in businessItem:
            # print(item.xpath('./a/div/div/img/@src'))
            business = JdscrapyItem()
            business['b_pic'] = item.xpath('./a/div/div/img/@src').extract()
            business['b_title'] = item.xpath('./a/div/span/text()').extract()
            business['b_price'] = item.xpath('./a/div/p/span/span/text()').extract()
            business['b_jump_href'] = item.xpath('./a/@jump-href').extract()
     
            yield business
        pass

结果：

7. 这个都爬取出来了，详情还远吗？

再次修改代码：

增加爬取item：

items.py:

（jdspider.py）

这里需要注意： meta是带参数过去到detailScrapy函数中去

这里通过response.meta['键'] 获取

做到这一步了，应该行了吧？？

错，，，，还是报错了。。。。

如果不注意，，，，还真的，，，没注意。。。

[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'item.m.jd.com': <GET https://item.m.jd.com/product/44005321149.html>

无法识别域名，因为我在我的jdspider.py中：

没有错误中报的： ‘item.m.jd.com’ ,,,所以，加上吧：

最后...成功了！！！！！！

最后注意：由于scrapy是通过异步多线程的方式爬取内容，所以爬取的内容会乱，所以，在爬取详情时通过id这个东西做标识，以判断是哪条数据的详情。

补充几点：

1. [scrapy_splash.middleware] WARNING: Currently only GET and POST requests are supported by SplashMiddleware; 如果报这个错，，看看headers是否有问题，我出现这个问题是由于headers放在了args前面。。。或者headers本身有问题。

2. 在爬取的时候，出现了一个问题，