scrapy - 在spider中添加自己log函数

最新推荐文章于 2023-02-13 17:49:33 发布

右左小白

最新推荐文章于 2023-02-13 17:49:33 发布

阅读量1k

点赞数

分类专栏： scrapy 文章标签： scrapy spider log 自定义日志

本文链接：https://blog.csdn.net/wodemamaa/article/details/89403433

版权

本文介绍了如何在Scrapy爬虫项目中添加自定义的日志函数，以实现个性化报告，包括针对不同爬取分支的独立日志文件，自定义报告等级，以及一个接收三个参数的函数来实现这一功能。代码实现简单，适合作为记录和调试的文件记录手段。

摘要由CSDN通过智能技术生成

前言

scrapy框架提供了一些报告等级，但是要做到在爬取过程中实现自己的个性化报告方式，还是要自行添加log函数。

分析

需求：

在一个spider项目中，涉及十数个分支的爬取，希望存储到不同的log文件下。
可以拥有自定义的报告等级，例如区分是主页还是分支页产生的报告。
自定义报告信息

综上，应该是一个拥有三个输入参数的函数。

代码实现

具体的代码实现很简单，以下是作为spider中的一个类方法的代码：

	# 在定义类前引入time库
    import time

	# 这里应该作为全局变量
    spider_log_path = './log.log'    # spider 等级日志路径
    infobase_dir_path = './Infobase'  # parse 等级日志路径头
    path_title_list =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

右左小白

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用简单的方式讲scrapy-redis爬虫分布式策略

吴秋霖的博客

03-16

1万+

用简单的方式为你分析爬虫分布式策略！作为一名以爬虫开发为职业的工程师来讲的话，很多时候我们都是在自己的机器上开发爬虫，为了发挥爬虫的效率我们也经常会用到多进程、多线程来提升我们爬虫的效率！但是可能在职业生涯中大部分站由于数据量不是很大我们总是选择了单机爬虫的方式

spider.log

10-12

safe3漏洞扫描速度快效率高

参与评论您还未登录，请先登录后发表或查看评论

scrapy日志

我是张先生

01-03

3208

settings.py 设置存储的等级和文件 LOG_LEVEL = "WARNING" LOG_FILE = "wanner.log" 使用 self.log(results, level=logging.WARNING)

如何在scrapy种写一个自定义函数

weixin_42576804的博客

02-13

257

在Scrapy中写一个自定义函数，需要在spider中进行定义。步骤如下：在spider文件的开头导入必要的模块，例如re。在spider类中定义自定义函数，可以使用def关键字。在spider中调用自定义函数，并使用自定义函数处理数据。例如： import re class MySpider(scrapy.Spider): ... def extract_numb...

python scrapy框架日志文件

小胖_@的博客

08-29

1400

scrapy框架中的常用日志配置 LOG_FILE : 日志输出文件，如果为None，日志信息会打印在控制台； LOG_ENABLED : 是否启用日志，默认True； LOG_ENCODING : 日志编码，默认utf-8； LOG_LEVEL : 日志等级，默认debug； LOG_FORMAT : 日志格式； LOG_DATEFORMAT : 日志日期格式； LOG_STDOUT : 日志...

第1.6章 scrapy之logger

warrah 南极狼

06-14

1560

网上有很多介绍logger的配置，但是我在执行过程中发现scrapy中使用，logger.cfg的文件的位置还有要求，因为scrapy和普通的python脚本根目录是有区别的下图绿色字体表示scrapy的根是与scrapy.cfg的直接上级目录而红色字体的根是与settings.py的直接上级目录，这里是有区别的，要想通用，最简单的办法，就是在这两个根目录下面都加上logger.cfg文

爬虫教程（ 4 ） --- 分布式爬虫 scrapy-redis、集群

墨鱼菜鸡

07-11

1069

1、分布式爬虫scrapy - redis scrapy 分布式爬虫文档：http://doc.scrapy.org/en/master/topics/practices.html#distributed-crawls Scrapy 并没有提供内置的机制支持分布式(多服务器)爬取。不过还是有办法进行分布式爬取，取决于您要怎么分布了。如果您...

scrapy-redis分布式爬虫如何在start_urls中添加参数

Kosmoo的博客

03-27

2万+

scrapy-redis分布式爬虫如何在start_urls中添加参数 1.背景介绍有这样一个需求，需要爬取A，B，C，D四个链接下的数据，但是每个链接下要爬取的数据量不同： url链接：指定爬取的商品数 A: 10 B: 20 C: 5 D: 32 首先通过下面的文章了解一下scrapy-redis分布式爬虫的基本框架。 ...

爬虫---scrapy-redis

qq_42664045的博客

04-10

375

scrapy redis 简介 Scrapy-redis 是为了更方便地实现 Scrapy 分布式爬取，而提供了一些以 redis 为基础的组件(仅有组件)。主体还是是 redis 和 scrapy 两个库，Scrapy-redis 像胶水一样，把这两个插件粘结了起来。特点：能实现分布式爬取可实现去重持续性爬取，可实现增量式爬虫 ...

Python爬虫：scrapy框架log日志设置

彭世瑜的博客

05-31

9833

Scrapy提供5层logging级别: CRITICAL - 严重错误 ERROR - 一般错误 WARNING - 警告信息 INFO - 一般信息 DEBUG - 调试信息 logging设置通过在setting.py中进行以下设置可以被用来配置logging: LOG_ENABLED 默认: True，启用logging LOG_ENCODING 默认: ‘utf-8’...

scrapy中自定义日志的设置以及日志等级的介绍以及使用

qq_37253540的博客

05-15

4719

（1）在settings.py中添加： LOG_FILE = 'log.txt' 用来设置日志文件的名称。 LOG_ENABLED 默认: True，启用logging LOG_ENCODING 默认: ‘utf-8’，logging使用的编码 LOG_FILE 默认: None，在当前目录里创建logging输出文件的文件名 LOG_LEVEL 默认: ‘DEBUG’，log的最低...

scrapy框架之log日志

GLOBE TREKKER

05-05

704

在scrapy中设置log: 1、在settings中设置log级别，在settings.py中添加一行： Scrapy提供5层logging级别: CRITICAL - 严重错误(critical) ERROR - 一般错误(regular errors) WARNING - 警告信息(warning messages) INFO - 一般信息(informational messa...

Python爬虫：scrapy辅助功能实用函数

彭世瑜的博客

09-29

2000

scrapy辅助功能实用函数： get_response: 获得scrapy.HtmlResponse对象, 在不新建scrapy项目工程的情况下，使用scrapy的一些函数做测试 extract_links: 解析出所有符合条件的链接代码示例以拉勾首页为例，获取拉勾首页所有职位链接，进一步可以单独解析这些链接，获取职位的详情信息 import requests from scra...

Scrapy笔记：日志的使用

dinght2000的博客

05-03

167

scrapy的日志记录有两种方式：　　spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。默认的日志是输出到控制台的，为了进一步处理这些日志，需要有统一的处理程序进行处理，这就是scrapy中自带的日志管理器，为了使用这个管理器，就需要在set...

爬虫scrapy框架--log日志输出配置及使用