scrapy学习笔记（二）-目录文件意义简析

最新推荐文章于 2023-04-05 01:01:43 发布

weixin_45669978

最新推荐文章于 2023-04-05 01:01:43 发布

阅读量501

点赞数

文章标签： scrapy 学习 python

本文链接：https://blog.csdn.net/weixin_45669978/article/details/128450530

版权

一、文件目录简析

在这里插入图片描述
scrapyTest/: 项目python模块, 代码将从这里导入
scrapyTest/spiders: 放置spider的目录
scrapyTest/items.py: 项目items文件
scrapyTest/main.py: 为方便调试，自定义的main文件
scrapyTest/settings.py: 项目配置文件
scrapyTest/pipelines.py: 项目管道文件
scrapy.cfg: 项目配置文件

1、scrapyTest/spiders

存放爬虫文件的目录
在这里插入图片描述

要建立一个Spider，你必须为scrapy.spider.BaseSpider(scrapy.Spider)?创建一个子类，并确定三个主要的、强制的属性：
name：爬虫的识别名，它必须是唯一的，在不同的爬虫中你必须定义不同的名字.
start_urls：爬虫开始爬的一个URL列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些URLS开始。其他子URL将会从这些起始URL中继承性生成。
parse()：爬虫的方法，调用时候传入从每一个URL传回的Response对象作为参数response将会是parse方法的唯一的一个参数,这个方法负责解析返回的数据、匹配抓取的数据(解析为item)并跟踪更多的URL。
其他属性：



name	爬虫的识别名，它必须是唯一的，在不同的爬虫中你必须定义不同的名字.
start_urls	爬虫开始爬的一个URL列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些URLS开始。其他子URL将会从这些起始URL中继承性生成。
parse()	爬虫的方法，调用时候传入从每一个URL传回的Response对象作为参数，response将会是parse方法的唯一的一个参数,这个方法负责解析返回的数据、匹配抓取的数据(解析为item)并跟踪更多的URL。
allowed_domains	它是一个Spider抓取的域的列表.
crawler	它是一个属性，链接到Spider实例所绑定的爬虫对象.
settings	这些是运行Spider的设置.
logger	它是一个Python日志记录器，用于发送日志信息.
from_crawler(crawler,args,*kwargs)	它是一个类方法，可以创建你的Spider。其参数是 −crawler − 一个爬虫，Spider实例将被绑定到该爬虫
args(list)	这些参数被传递给方法 init ().
kwargs(dict)	这些关键字参数被传递给方法 init().
start_requests()	当没有指定特定的URL，并且Spider被打开进行爬虫时，Scrapy调用start_requests()方法.
make_requests_from_url(url)	它是一种用于将urls转换为请求的方法.
parse(response)	该方法处理响应，并返回更多的URL后的废旧数据.
log(message[,level,component])	它是一个通过Spider记录器发送日志信息的方法.
closed(reason)	这个方法在Spider关闭时被调用.