scrapy框架—settings

为什么需要settings

  • setting用来存放一些公共的变量(比如:数据库,账号密码等)方便自己和别人修改。
  • 一般用全大写字母命名变量名。 SQL_HOST=“192.168.0.1”

settings中一些配置的说明

BOT_NAME = 'yangguang'     # 项目名
NEWSPIDER_MODULE = 'yangguang.spiders'    # 新建爬虫位置
USER_AGENT = 'yangguang (+http://www.yourdomain.com)'
ROBOTSTXT_OBEY = False     # roobots协议
CONCURRENT_REQUESTS = 32     # 设置最大并发请求
DOWNLOAD_DELAY = 3     # 下载延迟  每次请求前睡3秒
CONCURRENT_REQUESTS_PER_DOMAIN = 16   # 每个域名的最大并发请求数
CONCURRENT_REQUESTS_PER_IP = 16       # 每个ip地址的最大并发请求数
COOKIES_ENABLED = False  # 默认请求cookie(scrapy默认开启cookie)
DEFAULT_REQUEST_HEADERS = { ... }		# 默认请求头 USER_AGENT不能放这里
SPIDER_MIDDLEWARES = {...}		# 爬虫中间件  使用方式类似ITEM_PIPELINES
DOWNLOADER_MIDDLEWARES = {...}     # 下载中间件  使用方式类似ITEM_PIPELINES
EXTENSIONS = {...}    # 插件
ITEM_PIPELINES = {...}     # 使用管道时开启  数字表示权重

我们还可以在settings中额外添加配置

  • 在settings中添加: MONGO_HOST = "localhost"
  • 想在spiders中使用:
"""方式一  导入 万能方法"""
from yangguang.settings import MONGO_HOST
"""方式二  """
    def parse(self, response):
        self.settings["BOT_NAME"]
        ...
  • 想在pipelines中使用:
"""方式一  导入 万能方法"""
from yangguang.settings import MONGO_HOST
"""方式二  """
class YangguangPipeline(object):
    def process_item(self, item, spider):
        spider.settings["MONGO_HOST"]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值