一、普通方式爬取
1、创建一个scrapy项目
scrapy startproject car
2、生成一个爬虫文件
scrapy genspider baoma car.autohome.com.cn
3、设置settings:添加log日志等级,添加headers请求头,打开管道
4、添加一个文件运行爬虫
from scrapy import cmdline
cmdline.execute(['scrapy','crawl','baoma'])
5、编写程序
os.path.join() 把目录和文件名合成一个路径
os.path.dirname() 返回文件的路径
pipelines中保存图片
二、内置模块爬取
1、在items中定义 image_urls 和 images 两个字段
2、在爬虫文件中导入
3、在配置文件settings.py中配置IMAGES_STORE,设置文件下载路径
4、启动pipeline:在ITEM_PIPELINES中设置