爬取汽车之家图片 - scrapy - crawlspider - python爬虫案例

最新推荐文章于 2021-10-16 23:30:00 发布

洋芋本人

最新推荐文章于 2021-10-16 23:30:00 发布

阅读量882

点赞数

分类专栏： python项目练习文章标签： python

本文链接：https://blog.csdn.net/weixin_43761516/article/details/117636488

版权

本文介绍了如何使用Python的Scrapy框架爬取汽车之家网站上的特定汽车图片。首先分析了目标URL的规律，然后通过创建Scrapy项目，编写start.py、settings.py、hy.py、item.py、middlewares.py和pipelines.py文件实现爬虫。此外，还讨论了使用CrawlSpider进行翻页的简化方法。

摘要由CSDN通过智能技术生成

爬取汽车之家图片

需求:爬取汽车之家某一个汽车的图片

一、普通scrapy

第一步页面分析

目标url:
https://car.autohome.com.cn/photolist/series/265/p1/
https://car.autohome.com.cn/photolist/series/265/p2/ 第二页
https://car.autohome.com.cn/photolist/series/265/p3/ 第三页
- 观察网页很明显265是该车型的编码
- 页数p1 p2编码
观察图片url：
- 大图：https://car2.autoimg.cn/cardfs/product/g25/M0B/29/A8/800x0_1_q95_autohomecar__wKgHIlrwJHaAK02EAAsUwWrTmXY510.jpg
- 小图：
  https://car2.autoimg.cn/cardfs/product/g25/M0B/29/A8/240x180_0_q95_c42_autohomecar__wKgHIlrwJHaAK02EAAsUwWrTmXY510.jpg

第二步实现步骤

1 创建scrapy项目
scrapy startproject lsls
2 创建爬虫程序
scrapy genspider hy car.autohome.com.cn
3 实现逻辑

（一）准备程序

在terminal终端输入

scrapy startproject lsls
# 爬虫程序名最好不要和爬虫程序重名
scrapy genspider hy car.autohome.com.cn

创建start.py文件，放在与scrapy.cfg同层目录下

# 要运行整个程序的话，只需要运行这个文件
from scrapy import cmdline
# cmdline.execute('scrapy crawl hy'.split())
cmdline.execute(['scrapy','crawl','hy'])

（二）setting.py文件

固定格式

LOG_LEVEL = 'WARNING'

ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS = {
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App

最低0.47元/天解锁文章

洋芋本人

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬取汽车之家图片 - scrapy - crawlspider - python爬虫案例

爬取汽车之家图片需求:爬取汽车之家某一个汽车的图片第一步页面分析目标url:https://car.autohome.com.cn/photolist/series/265/p1/https://car.autohome.com.cn/photolist/series/265/p2/ 第二页https://car.autohome.com.cn/photolist/series/265/p3/ 第三页观察网页很明显265是该车型的编码页数p1 p2编码观察图片url：
复制链接

扫一扫