- 开发环境
Windows 10
python3
vs code
docker
docker
安装- 下载
Docker Toolbox
- 具体安装方法请百度, 教程很多, 这里就不多介绍啦
- 下载
- 安装
scrapy-splash
pip install scrapy-splash
- 运行
splash
- 打开
Docker Quickstart Terminal
, 输入以下命令: docker run -d -p 8050:8050 hub-mirror.c.163.com/scrapinghub/splash
- 由于我的镜像是在
163
上面的,所以自己的镜像地址要弄对 - 运行无异常之后,可以在浏览器中输入网址,看到运行效果,可以在右边自己写
lua
脚本测试是否达到效果,也自带了部分lua脚本可以查看
- 打开
- 页面结构分析
- 爬取淘宝电场页面, 链接是
https://www.taobao.com/markets/3c/tbdc?spm=a21bo.2017.201867-main.12.5af911d9GQgDTx
; - 淘宝页面在对商品的价格做了动态加载&
- 爬取淘宝电场页面, 链接是
scrapy-splash 爬取Taobao页面
最新推荐文章于 2022-02-08 23:57:37 发布
本文介绍了如何在开发环境中安装和运行Scrapy-Splash,用于爬取使用动态加载技术的淘宝页面。由于淘宝价格等信息是动态加载的,静态爬取无法获取,因此使用Splash作为中间代理,解析页面结构。通过新建Scrapy项目,配置Splash的运行地址,并设置User-Agent防止被识别为爬虫,实现了动态内容的爬取。
摘要由CSDN通过智能技术生成