debug信息的认识

当爬取的url不在allowed_domains指定的域名下时,Scrapy框架会过滤掉这些url。要观察此现象,需修改域名并确保LOG_LEVEL设置合适。尽管这不是错误,但如果LOG_LEVEL设置不当,可能导致程序无明显输出。
摘要由CSDN通过智能技术生成

常见的debug信息

如果我们的爬取的url地址不在我们设置的allowed_domains即是被爬取网站的域名下面,会出现什么样的情况呢?

在这里插入图片描述

allowed_domains = ['sun0769debug.com']
start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1']

注意:为了使能够看到现象,必须要做好下面的工作

1.修改域名,使其与网站的url地址不一致

在这里插入图片描述

2.在settings.py中不要设置LOG_LEVEL这一参数,或者是将其值设置的很小很小

在这里插入图片描述

好了,现在万事俱备,启动爬虫
scrapy crawl sun
下面是完整的输出信息:

2020-10-11 20:58:59 [scrapy.utils.log] INFO: Scrapy 2.1.0 started (bot: Sun)
2020-10-11 20:58:59 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, pars
el 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.7.7 (tags/v3.7.7:d7c567b08f, Mar 10 2020, 10:41:24) [MSC
 v.1900 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1g  21 Apr 2020), cryptography 2.9.2, Platform Win
dows-10-10.0.17134-SP0
2020-10-11 20:58:59 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor

2020-10-11 20:58:59 [scrapy.crawler] INFO: Overridden settings:
{
   'BOT_NAME': 'Sun',
 'NEWSPIDER_MODULE': 'Sun.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['Sun.spiders'],
 'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
               '(KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}
2020-10-11 20:58:59 [scrapy.extensions.telnet] INFO: Telnet Password: effafb3a8e54b45d
2020-10-11 20:58:59 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2020-10-11 20:59:00 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddl
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值