求解爬虫爬取的链接后缀名为什么会变啊

在使用Scrapy爬取网页时,发现原本为.htm的链接在爬取过程中变为.html。虽然网页中未显示.html链接,但爬取结果显示为.html。问题可能涉及到URL重定向或网页动态加载。寻求解决方案。
摘要由CSDN通过智能技术生成

用scrapy爬取 图片的链接,规则如下

name = 'bizhixiazai'
allowed_domains = ['netbian.com']
start_urls = ['http://www.netbian.com']


rules = (
    Rule(LinkExtractor(allow=r'/index.+htm',restrict_xpaths=['//div[@class="page"]//a']),follow=True),
    Rule(LinkExtractor(allow=r'.+htm',restrict_xpaths=['//div[@class="list"]//a']),callback='parse_detail',follow=False)

已经指定了爬取的范围,为什么爬取出来的路径后缀由htm变为了html?网页链接显示是htm的链接啊,没有发现有html的链接啊,小白求解

这是爬取的结果:
、、、
2020-12-03 14:55:06 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.netbian.com/index_1260.html> (referer: http://www.netbian.com)
2020-12-03 14:55:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.netbian.com/index_10.html> (referer: http://www.netbian.com)
2020-12-03 14:5

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值