5_crawlspider对网页链接的自动提取和递归提取

最新推荐文章于 2022-08-01 16:18:13 发布

柏林墙

最新推荐文章于 2022-08-01 16:18:13 发布

阅读量293

点赞数

本文链接：https://blog.csdn.net/weixin_44122191/article/details/107290362

版权

scrapy 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

1. 什么是crawlspider

需求：
- 如对网页中某人物详情、招聘详情、商品详情的链接提取
- 并且不断的通过下一页自动递归的提取全部链接
功能：
- 能够根据一定的匹配规则进行匹配从response中提取链接
- 自动构建request请求发送给引擎

2. 如何实现

2.1 通过crawlspider模板创建爬虫文件

在创建的爬虫项目中创建爬虫文件

scrapy genspider -t crawl jnu_crawl jnu.edu.cn

此时修改jnu_crawl.py文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class JnuCrawlSpider(CrawlSpider):
    name = 'jnu_crawl'
    allowed_domains = ['jnu.edu.cn']
    # 1. 修改起始url
    start_urls = ['http://xxxy2016.jnu.edu.cn/Category_16/Index.aspx']
    
    # 2. 修改提取规则
    rules = (
        Rule(LinkExtractor(allow=r'/Item/\d+.aspx'), callback='parse_item', follow=False),
    )

    def parse_item(self, response):
        # 对提取到的详情页面处理，可以提取相关内容
        print(response.url)
        item = {}
        item['edu'] = response.xpath('//*[@id="Education"]/div[2]/p/span/text()').extract()
        print(item)
        # item['link'] = response.xpath('')
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

柏林墙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5_crawlspider对网页链接的自动提取和递归提取

1. 什么是crawlspider需求：如对网页中某人物详情、招聘详情、商品详情的链接提取并且不断的通过下一页自动递归的提取全部链接功能：能够根据一定的匹配规则进行匹配从response中提取链接自动构建request请求发送给引擎2. 如何实现2.1 通过crawlspider模板创建爬虫文件在创建的爬虫项目中创建爬虫文件scrapy genspider -t crawl jnu_crawl jnu.edu.cn此时修改jnu_crawl.py文件import sc
复制链接

扫一扫

专栏目录