1. pycharm中运行scrapy
- windows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目
- 修改Run…中的Script path为cmdline.py文件路径F:\programs\python\Lib\site-packages\scrapy\cmdline.py
- Parameters为crawl 爬虫文件名
- working directory为scrapy项目所在文件夹
- 每次执行该run命令即可运行scrapy
2.爬虫目标
通过上一篇requests构建的同步爬虫获取页面下所有子链接,本篇通过异步scrapy框架分别爬取各链接的主要内容
scrapy框架的使用需要修改其自动生成的四个文件settings.py, items.py, pipelines.py 和自定义的爬虫代码mycsdn.py
- 其中settings.py文件的修改因人而异,主要修改其余三个文件
3.items.py
class Csdn02Item(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()#标题
updatetime = scrapy.Field()#发表时间
readcount = scrapy.Field()#阅读数
author = scrapy.Field()#作者
ranking = scrapy.Field