欢迎关注,敬请点赞!
安装scrapy
pip install scrapy
如果需要安装C++,可以先下载安装twisted:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted(选择对应的python版本)。
创建项目
需要在项目根目录下,如D:\Python\spider>
。
运行:scrapy startproject 项目名(如:lab),D:\Python\spider>scrapy startproject lab
启动爬虫
进入项目内:cd 项目名,D:\Python\spider>cd lab
scrapy genspider 爬虫名 爬取网址(不需要缀http://)
以SCRAPY爬虫实验室为例:scrapy genspider lab_scrapy lab.scrapyd.cn
调整设置
对settings.py文件中的爬虫君子协定和延时进行设置,也可以忽略。
# Obey robots.txt rules 爬虫君子协定(暂调为False)
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 3 # 延时
shell模式
返回顶部
可以使用shell模式,尝试不熟悉的命令,减少代码报错频率。
scrapy shell 爬取网址
以SCRAPY爬虫实验室为例:D:\Python\spider>scrapy shell http://lab.scrapyd.cn