配置文件
# 下载延迟
DOWNLOAD_DELAY = 3
# 请求并发数量
CONCURRENT_REQUESTS = 32
# item并发数量
CONCURRENT_ITEMS = 32
# 输出日志等级
LOG_LEVEL = 'DEBUG' # DEBUG WARNING
# ROBOTS协议
ROBOTSTXT_OBEY = False
# 禁止重定向
REDIRECT_ENABLED = False
# referer
REFERER_ENABLE = False
# 允许所有状态码
HTTPERROR_ALLOW_ALL = True
# cookie
COOKIES_ENABLE = False
scrapy_redis相关
REDIS_HOST redis地址
REDIS_PORT redis端口
REDIS_PARAMS = {
‘password’: ‘你的密码’,
‘db’: ‘你的数据库’
}
SQL_CONTENT_TYPE = 'server'
REDIS_HOST_SERVER = 'xxxxx'
REDIS_PORT_SERVER = xxxxx
REDIS_PASS_WORD_SERVER = 'xxxxx'
REDIS_DB_SERVER = 0
REDIS_HOST_LOCAL = 'xxxxx'
REDIS_PORT_LOCAL = xxxxx
REDIS_PASS_WORD_LOCAL = 'xxxxx'
REDIS_DB_LOCAL = 1
REDIS_HOST = REDIS_HOST_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_HOST_SERVER
REDIS_PORT = REDIS_PORT_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_PORT_SERVER
REDIS_PARAMS = {
'password': REDIS_PASS_WORD_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_PASS_WORD_SERVER,
'db': REDIS_DB_LOCAL if SQL_CONTENT_TYPE == 'localhost' else REDIS_DB_SERVER
}
这段代码可以通过更改一个配置参数实现测试环境和生产环境的配置
spider相关配置
请求相关
scrapy.Request(url=url, meta={'dont_redirect':True}, dont_filter=True)
meta添加dont_redirect可以禁止重定向,dont_filter是否过滤
禁止重定向
dont_redirect=True # 添加到请求的meta中
不启用过滤
dont_filter=True
这段配置代码用于设置Scrapy爬虫的下载延迟、并发请求数量,并管理Redis连接,以适应测试和生产环境。通过切换SQL_CONTENT_TYPE变量,可以调整Redis服务器的详细信息。同时,代码还处理了重定向、日志级别和Cookie设置。

655

被折叠的 条评论
为什么被折叠?



