scrapy框架
安装
pip install scrapy
创建项目
-
创建项目:
# scrapy startproject 项目名 scrapy startproject mySpider
-
生成一个爬虫:
# 需要在项目文件中 # scrapy genspider 爬虫名 爬虫域名 scrapy genspider baidu https://www.baidu.com/
-
提取数据:
根据网站结构在spider中实现数据采集相关内容 -
保存数据:
使用pipeline进行数据后续处理和保存 -
运行scrapy
# 在项目目录下执行scrapy crawl <爬虫名字> --nolog(不打印日志) scrapy crawl baidu --nolog