执行流
命令行启动爬虫
scrapy crawl myspider
scrapy 引擎首先找到爬虫文件,拿到第一个要爬取的url
将该url 交给调度器,维护请求队列,然后请求交给引擎,引擎交给下载器,下载器发送请求拿到响应,返回给引擎,引擎交给爬虫文件
以上注意配置 不遵守robots协议
爬虫文件解析数据
以上response.xpath返回selector对象列表
从中获取数据内容,如下:
def parse(self, response):
item = {}
#响应对象,直接.xpath -->[selector]
#extract(),字符串列表
#extract_first() 获取第一个字符串
#get() 获取第一个字符串
item["title"] = response.xpath("/html/head/title/text()").extract()
print(item)
settings.py
在pycharm运行
在项目根目录下创建run.py
from scrapy import cmdline
cmdline.execute("scrapy crawl myspider".split())
#右键--run python file in terminal