1 如果python3没有安装scrapy,先通过命令pip install scrapy安装
2 创建项目 命令scrapy startproject xxx(xxx 为项目名)
3 用pycharm打开后
1) scrapy.cfg 为配置文件信息
2) items.py 为定义数据结构的地方
3) settings.py 为设置项目信息的文件
e.g:
Configure maximum concurrent requests performed by Scrapy (default: 16) // 并发量 默认16
DOWNLOAD_DELAY = 3 //下载延迟3秒
COOKIES_ENABLED = False // 一般用于登陆后抓取数据改为true
SPIDER_MIDDLEWARES、DOWNLOADER_MIDDLEWARES //中间件的使用
4 在项目spider目录下创建爬虫文件:
使用命令进入到项目目录下到spiders文件夹下使用命令:
scrapy genspider 文件名 需要抓取到域名 注:域名不需要添加双引号