scrapy爬取昵图网图片

本文介绍了如何使用Scrapy框架爬取昵图网上的设计、摄影和多媒体三个一级菜单下的大图片。首先,通过`scrapy startproject`和`scrapy genspider`创建项目和爬虫文件。接着,分析爬取思路,包括获取一级菜单URL、二级菜单URL、分页页码以及图片路径。最后,讨论了在爬取过程中如何模拟浏览器、处理cookie以及利用pipelines进行图片下载。
摘要由CSDN通过智能技术生成

一 : 创建scrapy项目
(1) 使用命令创建项目 : scrapy startproject nipic[项目名可以随意]
(2) 使用命令创建一个爬虫文件 : scrapy genspider -t basic np nipic.com
参数说明:
-t basic : 使用basic模版创建文件
np : 创建的爬虫文件名
nipic.com : 要爬取网站的域名(本次爬取的是昵图网)
(3) 项目结构图
项目结构
二 : 爬取思路分析
(1) 打开昵图网首页, 找到一级导航菜单
首页导航图
备注 : 本次爬取我们只爬取 设计, 摄影, 多媒体 三个一级菜单
(2) 我们用工开发者工具获取到这三个一级菜单的url

(3) 我们点击一级菜单获取到它所对应的二级菜单url
二级菜单
二级菜单的url
(4) 我们随便点击一个二级菜单回进入菜单列表页, 此时我们需要获取分页页码, 进而可以爬取每一页的图片
页码url
(5) 获取每一页的图片(此次爬取我们只爬取大图片), 我们点击小图片会进入的大图片,然后获取大图片的路径
(6) 开始爬取并下载到本地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值