前言
scrapy框架提供了一些报告等级,但是要做到在爬取过程中实现自己的个性化报告方式,还是要自行添加log函数。
分析
需求:
- 在一个spider项目中,涉及十数个分支的爬取,希望存储到不同的log文件下。
- 可以拥有自定义的报告等级,例如区分是主页还是分支页产生的报告。
- 自定义报告信息
综上,应该是一个拥有三个输入参数的函数。
代码实现
具体的代码实现很简单,以下是作为spider中的一个类方法的代码:
# 在定义类前引入time库
import time
# 这里应该作为全局变量
spider_log_path = './log.log' # spider 等级日志路径
infobase_dir_path = './Infobase' # parse 等级日志路径头
path_title_list =