scrapy 爬取一组有序的URL

最新推荐文章于 2023-09-20 15:08:10 发布

凌木LSJ

最新推荐文章于 2023-09-20 15:08:10 发布

阅读量519

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/xlsj228/article/details/106379997

版权

python 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

http://www.xxx.com/search/1.html
http://www.xxx.com/search/2.html
http://www.xxx.com/search/3.html
http://www.xxx.com/search/4.html

比如如上的URL，只有一个地方在改变，如何简写呢？

start_urls = [http://www.xxx.com/search/1.html]

url = "http://www.xxx.com/search/%d.html"

pageNum = 1

def parse(self,pesponse):
    
    for sel in response.xpath("..."):
        获取数据，放入管道
        yield item

    if self.pageNum <= 10:  
            self.pageNum += 1
            print('爬第：%d 页' % self.pageNum)

            new_url = self.url %d self.pageNum) #进行拼接

            # callback 回调函数，页面进行解析
            yield scrapy.Request(url=new_url, callback=self.parse)

注意，这里会出现如下错误：

ValueError: unsupported format character 'C'

我们需要左以下修改：

new_url = self.url.replace('%d',str(self.pageNum))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

凌木LSJ

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy 爬取一组有序的URL

http://www.xxx.com/search/1.htmlhttp://www.xxx.com/search/2.htmlhttp://www.xxx.com/search/3.htmlhttp://www.xxx.com/search/4.html比如如上的URL，只有一个地方在改变，如何简写呢？start_urls = [http://www.xxx.com/search/1.html]url = "http://www.xxx.com/search/%d.html"pa.
复制链接

扫一扫