在学习了scrapy框架之后,有了些许收获,这里将本次小项目写下来。
一 首先进入pycharm终端控制台,(一开始我还在命令行里面,后来发现这样方便一点。)
scrapy startproject 项目名
cd 项目名\ 项目名\spiders
scrapy genspider -t crawl xxx 域名
二 编写xxx.py
(编写xxx.py之前要在items.py里面增加一些值)
items.py
xxx.py
上面导入item那个虽然标红,但不会影响最终爬虫文件,可以置之不理。
现在在终端下面就可以查看运行结果
scrapy crawl xxx
三 将爬虫保存为(json 和 csv 格式)
首先在settings打开管道
(第一个本来就是有的,后面两个需要在pipelines里面创建新的类,完成保存)
编写pipelines文件
csv格式
json 格式
保存数据库需要在settings里面添加数据库的配置
(自己的数据库用户,密码,库名记得更改,这里我是MySQL5.7版)
继续编写pipelines文件
最后在终端运行一下scrapy crawl xxx
这里我试了几次所以有多个文件,