Scrapy 优点
- 更容易构建大规模抓取项目;
异步处理请求的速度快
使用自动调节机制自动调整爬取速度
安装
#安装
pip3 install Scrapy
Successfully installed Automat-20.2.0
# 环境变量,别名
vim ~/.bash_profile
#Mac上做环境变量和别名
PATH="/Library/Frameworks/Python.framework/Versions/3.7/bin:${PATH}"
alias scrapy="/Library/Frameworks/Python.framework/Versions/3.7/bin/scrapy"
#使生效,会出现总是要执行这个才支运行的命名
source ~/.bash_profile
问题
别名不如软链来的好
ln -s /Library/Frameworks/Python.framework/Versions/3.7/bin/scrapy /usr/local/bin/scrapy
# 使用Scrapy
```bash
# 生成项目
scrapy startproject douban
# 生成正则,主逻辑文件,在:douban/douban/下执行
scrapy genspider douban_spider movie.douban.com
#生成后结构如:
douban/douban/spiders/douban_spider.py
#运行
#在这个目录下:/Users/Macbook/Documents/VSCode/Python/scrapy/douban/douban
scrapy crawl douban_spider
#在settings.py中填写User-Agent
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36
打火机文件
Scrapy项目根路径
|Scrapy文件:
|spiders
|items.py
|pipelines.py
|....
|main.py
|scrapy.cfg
错误
main.py文件中 Unknown command: crawl
方案:调整VSCode 的目录结构