使用scrapy框架爬取某招聘网站

本文介绍了Python的Scrapy框架,详细讲解了如何创建Scrapy项目,分析目标网站结构,编写爬虫程序,以及数据的存储和展示。通过实例展示了Scrapy在爬取网页数据上的应用。
摘要由CSDN通过智能技术生成

这期我们简单介绍一下scrapy框架,并使用该框架做一个小小的案例

一、简单介绍scrapy框架

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。

二、简单介绍如何使用scrapy生成一个项目

创建一个项目

scrapy startproject 项目名称

创建爬虫前需要先进入到刚才创建的项目中,然后通过命令

scrapy genspider 爬虫名 域名

注意:爬虫名字不能跟项目名字重复。

三、分析爬取目标网站结构

在这里插入图片描述
可以看到我们所需要的内容都在<dd class="item">这个标签下

四、编写程序

这里我们主要使用xpath

import scrapy
import time
from zhong.items import ZhongpinItem


class ZhongSpider(scrapy.Spider):
    name = 'zhaopin'
    allowed_domains = ['域名']
    start_urls = ['爬取目标网站']

    def parse(self, response):
        divs = response.xpath('//dd[@class="item"]')
		# 用于拼接url
        url = '填写URL'
        for div in divs:
            item = ZhongItem()  # 实例化
            gongsi_name = div.xpath('.//span[@c
  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值