scrapy 登录

卑微小钟

于 2023-02-25 22:42:14 发布

阅读量7.9k

点赞数

分类专栏： python 爬虫文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/zhongjianboy/article/details/129221640

版权

python 同时被 2 个专栏收录

34 篇文章 3 订阅

订阅专栏

爬虫

24 篇文章 1 订阅

订阅专栏

LOG_FILE
LOG_FILE_APPEND
LOG_ENABLED
LOG_ENCODING
LOG_LEVEL
LOG_FORMAT
LOG_DATEFORMAT
LOG_STDOUT
LOG_SHORT_NAMES
前几个设置定义日志消息的目的地。如果 LOG_FILE，则通过根记录器发送的消息将重定向到名为 LOG_FILE使用编码LOG_ENCODING。如果取消设置并 LOG_ENABLED 是 True ，日志消息将显示在标准错误上。如果 LOG_FILE已设置，并且 LOG_FILE_APPEND 是 False ，则该文件将被覆盖(如果有，则丢弃以前运行的输出)。最后，如果 LOG_ENABLED是 False ，则不会有任何可见的日志输出。

LOG_LEVEL 确定要显示的最低严重性级别，将筛选出严重性较低的消息。它的范围包括日志级别

LOG_FORMAT 和 LOG_DATEFORMAT指定用作所有消息布局的格式字符串。这些字符串可以包含中列出的任何占位符 logging’s logrecord attributes docs 和 datetime’s strftime and strptime directives分别。

如果 LOG_SHORT_NAMES 则日志将不显示打印日志的废组件。默认情况下，它是未设置的，因此日志包含负责该日志输出的废弃组件。

命令行选项

有一些命令行参数可用于所有命令，您可以使用这些参数来覆盖有关日志记录的一些零碎设置。

- --logfile FILE
  
  重写 LOG_FILE]
- --loglevel/-L LEVEL
  
  重写LOG_LEVEL
- --nolog
  
  集合 LOG_ENABLED到 False

参见

模块 logging.handlers
有关可用处理程序的进一步文档

自定义日志格式

可以通过扩展为不同的操作设置自定义日志格式 LogFormatter课程和制作 LOG_FORMATTER 指向你的新班级。

classscrapy.logformatter.LogFormatter源代码

用于为不同操作生成日志消息的类。所有方法都必须返回一个列出参数的字典 level ， msg 和 args 调用时将用于构造日志消息 logging.log .方法输出的字典键：level 是该操作的日志级别，可以使用 python logging library ： logging.DEBUG ， logging.INFO ， logging.WARNING ， logging.ERROR 和 logging.CRITICAL .msg 应该是可以包含不同格式占位符的字符串。此字符串，格式为 args ，将是该行动的长期信息。args 应该是一个tuple或dict，其中的格式占位符为 msg .最后的日志消息计算为 msg % args .用户可以定义自己的 LogFormatter 如果要自定义每个操作的日志记录方式，或者希望完全忽略它，则初始化。为了省略记录操作，该方法必须返回 None .以下是有关如何创建自定义日志格式化程序以降低从管道中删除项时日志消息的严重性级别的示例：class PoliteLogFormatter(logformatter.LogFormatter): def dropped(self, item, exception, response, spider): return { 'level': logging.INFO, # lowering the level from logging.WARNING 'msg': "Dropped: %(exception)s" + os.linesep + "%(item)s", 'args': { 'exception': exception, 'item': item, } } crawled(request, response, spider)当爬虫找到网页时记录一条消息。download_error(failure, request, spider, errmsg=None)记录来自spider的下载错误消息（通常来自引擎）。*2.0 新版功能.*dropped(item, exception, response, spider)当某个项在通过项管道时被丢弃时，记录该消息。item_error(item, exception, response, spider)当一个项目在通过项目管道时出错时，记录消息。*2.0 新版功能.*scraped(item, response, spider)当一个项目被蜘蛛抓取时记录一条消息。spider_error(failure, request, response, spider)[[源代码]]记录来自spider的错误消息。2.0 新版功能.

高级自定义

因为scrapy使用stdlib日志记录模块，所以可以使用stdlib日志记录的所有功能自定义日志记录。

例如，假设您正在抓取一个返回许多HTTP 404和500响应的网站，并且您希望隐藏像这样的所有消息：

2016-12-16 22:00:06 [scrapy.spidermiddlewares.httperror] INFO: Ignoring
response <500 http://quotes.toscrape.com/page/1-34/>: HTTP status code
is not handled or not allowed

首先要注意的是一个记录器名称-它在括号中： [scrapy.spidermiddlewares.httperror] . 如果你得到公正 [scrapy] 然后 LOG_SHORT_NAMES可能设置为true；设置为false并重新运行爬网。

接下来，我们可以看到消息具有信息级别。为了隐藏它，我们应该为 scrapy.spidermiddlewares.httperror 高于信息；信息后的下一级是警告。可以这样做，例如在蜘蛛的 __init__ 方法：

import logging
import scrapy


class MySpider(scrapy.Spider):
    # ...
    def __init__(self, *args, **kwargs):
        logger = logging.getLogger('scrapy.spidermiddlewares.httperror')
        logger.setLevel(logging.WARNING)
        super().__init__(*args, **kwargs)

如果您再次运行此蜘蛛，则从 scrapy.spidermiddlewares.httperror 日志记录器将消失。

您也可以通过以下方式来过滤日志记录 LogRecord数据。例如，您可以使用子串或正则表达式按消息内容进行过滤日志记录。创建 logging.Filter 子类并为其配备正则表达式模式，以便过滤发出不需要的消息：：

import logging
import re

class ContentFilter(logging.Filter):
    def filter(self, record):
        match = re.search(r'\d{3} [Ee]rror, retrying', record.message)
        if match:
            return False

项目级别的过滤可以附加到由Scrapy创建的根处理程序，这是对项目不同部分(中间件、蜘蛛等)的所有记录器进行过滤的一种便捷方式：：

import logging
import scrapy

class MySpider(scrapy.Spider):
    # ...
    def __init__(self, *args, **kwargs):
        for handler in logging.root.handlers:
            handler.addFilter(ContentFilter())

或者，您也可以选择特定的记录器并将其隐藏，而不会影响其他记录器：

import logging
import scrapy

class MySpider(scrapy.Spider):
    # ...
    def __init__(self, *args, **kwargs):
        logger = logging.getLogger('my_logger')
        logger.addFilter(ContentFilter())

scrapy.utils.log模块

卑微小钟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy 登录

可以通过扩展为不同的操作设置自定义日志格式课程和制作指向你的新班级。classscrapy.logformatter.LogFormatter源代码用于为不同操作生成日志消息的类。所有方法都必须返回一个列出参数的字典levelmsg和args调用时将用于构造日志消息level是该操作的日志级别，可以使用和msg应该是可以包含不同格式占位符的字符串。此字符串，格式为args，将是该行动的长期信息。args应该是一个tuple或dict，其中的格式占位符为msg.最后的日志消息计算为msg % args。
复制链接

扫一扫