scrapy爬取昵图网图片

最新推荐文章于 2022-07-19 12:00:00 发布

YuDC

最新推荐文章于 2022-07-19 12:00:00 发布

阅读量1.3k

点赞数 1

分类专栏： python 文章标签：爬虫 python scrapy

本文链接：https://blog.csdn.net/ygengleman/article/details/72773516

版权

本文介绍了如何使用Scrapy框架爬取昵图网上的设计、摄影和多媒体三个一级菜单下的大图片。首先，通过`scrapy startproject`和`scrapy genspider`创建项目和爬虫文件。接着，分析爬取思路，包括获取一级菜单URL、二级菜单URL、分页页码以及图片路径。最后，讨论了在爬取过程中如何模拟浏览器、处理cookie以及利用pipelines进行图片下载。

摘要由CSDN通过智能技术生成

一 : 创建scrapy项目
(1) 使用命令创建项目 : scrapy startproject nipic[项目名可以随意]
(2) 使用命令创建一个爬虫文件 : scrapy genspider -t basic np nipic.com
参数说明:
-t basic : 使用basic模版创建文件
np : 创建的爬虫文件名
nipic.com : 要爬取网站的域名(本次爬取的是昵图网)
(3) 项目结构图

二 : 爬取思路分析
(1) 打开昵图网首页, 找到一级导航菜单
首页导航图
备注 : 本次爬取我们只爬取设计, 摄影, 多媒体三个一级菜单
(2) 我们用工开发者工具获取到这三个一级菜单的url

(3) 我们点击一级菜单获取到它所对应的二级菜单url

二级菜单的url
(4) 我们随便点击一个二级菜单回进入菜单列表页, 此时我们需要获取分页页码, 进而可以爬取每一页的图片
页码url
(5) 获取每一页的图片(此次爬取我们只爬取大图片), 我们点击小图片会进入的大图片,然后获取大图片的路径
(6) 开始爬取并下载到本地