【scrapy】关于scrapy有用的设置

这段配置代码用于设置Scrapy爬虫的下载延迟、并发请求数量,并管理Redis连接,以适应测试和生产环境。通过切换SQL_CONTENT_TYPE变量,可以调整Redis服务器的详细信息。同时,代码还处理了重定向、日志级别和Cookie设置。
摘要由CSDN通过智能技术生成

配置文件

# 下载延迟
DOWNLOAD_DELAY = 3

# 请求并发数量
CONCURRENT_REQUESTS = 32

#  item并发数量
CONCURRENT_ITEMS = 32

# 输出日志等级
LOG_LEVEL = 'DEBUG'  # DEBUG WARNING

# ROBOTS协议
ROBOTSTXT_OBEY = False

# 禁止重定向
REDIRECT_ENABLED = False
# referer
REFERER_ENABLE = False

# 允许所有状态码
HTTPERROR_ALLOW_ALL = True

# cookie
COOKIES_ENABLE = False

scrapy_redis相关

REDIS_HOST redis地址

REDIS_PORT redis端口

REDIS_PARAMS = {
‘password’: ‘你的密码’,
‘db’: ‘你的数据库’
}

SQL_CONTENT_TYPE = 'server'

REDIS_HOST_SERVER = 'xxxxx'
REDIS_PORT_SERVER = xxxxx
REDIS_PASS_WORD_SERVER = 'xxxxx'
REDIS_DB_SERVER = 0

REDIS_HOST_LOCAL = 'xxxxx'
REDIS_PORT_LOCAL = xxxxx
REDIS_PASS_WORD_LOCAL = 'xxxxx'
REDIS_DB_LOCAL = 1

REDIS_HOST = REDIS_HOST_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_HOST_SERVER
REDIS_PORT = REDIS_PORT_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_PORT_SERVER
REDIS_PARAMS = {
    'password': REDIS_PASS_WORD_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_PASS_WORD_SERVER,
    'db': REDIS_DB_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_DB_SERVER
}

这段代码可以通过更改一个配置参数实现测试环境和生产环境的配置

spider相关配置

请求相关

scrapy.Request(url=url, meta={'dont_redirect':True}, dont_filter=True)

meta添加dont_redirect可以禁止重定向,dont_filter是否过滤

禁止重定向

dont_redirect=True # 添加到请求的meta中

不启用过滤

dont_filter=True

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值