scrapy-splash 爬取Taobao页面

本文介绍了如何在开发环境中安装和运行Scrapy-Splash,用于爬取使用动态加载技术的淘宝页面。由于淘宝价格等信息是动态加载的,静态爬取无法获取,因此使用Splash作为中间代理,解析页面结构。通过新建Scrapy项目,配置Splash的运行地址,并设置User-Agent防止被识别为爬虫,实现了动态内容的爬取。
摘要由CSDN通过智能技术生成
  • 开发环境
    • Windows 10
    • python3
    • vs code
    • docker
  • docker 安装
    • 下载 Docker Toolbox
    • 具体安装方法请百度, 教程很多, 这里就不多介绍啦
  • 安装 scrapy-splash
    • pip install scrapy-splash
    • 运行 splash
      • 打开 Docker Quickstart Terminal, 输入以下命令:
      • docker run -d -p 8050:8050 hub-mirror.c.163.com/scrapinghub/splash
      • 由于我的镜像是在163上面的,所以自己的镜像地址要弄对
      • 运行无异常之后,可以在浏览器中输入网址,看到运行效果,可以在右边自己写lua脚本测试是否达到效果,也自带了部分lua脚本可以查看
        在这里插入图片描述
  • 页面结构分析
    • 爬取淘宝电场页面, 链接是https://www.taobao.com/markets/3c/tbdc?spm=a21bo.2017.201867-main.12.5af911d9GQgDTx ;
    • 淘宝页面在对商品的价格做了动态加载&
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值