使用scrapy框架爬取某招聘网站

最新推荐文章于 2021-09-17 09:00:00 发布

「已注销」

最新推荐文章于 2021-09-17 09:00:00 发布

阅读量1k

点赞数 1

分类专栏： Python爬虫篇文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_48134642/article/details/115420951

版权

本文介绍了Python的Scrapy框架，详细讲解了如何创建Scrapy项目，分析目标网站结构，编写爬虫程序，以及数据的存储和展示。通过实例展示了Scrapy在爬取网页数据上的应用。

摘要由CSDN通过智能技术生成

这期我们简单介绍一下scrapy框架，并使用该框架做一个小小的案例

初识scrapy

一、简单介绍scrapy框架

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。

Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。

二、简单介绍如何使用scrapy生成一个项目

创建一个项目

scrapy startproject 项目名称

创建爬虫前需要先进入到刚才创建的项目中，然后通过命令

scrapy genspider 爬虫名 域名

注意：爬虫名字不能跟项目名字重复。

三、分析爬取目标网站结构

在这里插入图片描述
可以看到我们所需要的内容都在<dd class="item">这个标签下

四、编写程序

这里我们主要使用xpath

import scrapy
import time
from zhong.items import ZhongpinItem


class ZhongSpider(scrapy.Spider):
    name = 'zhaopin'
    allowed_domains = ['域名']
    start_urls = ['爬取目标网站']

    def parse(self, response):
        divs = response.xpath('//dd[@class="item"]')
		# 用于拼接url
        url = '填写URL'
        for div in divs:
            item = ZhongItem()  # 实例化
            gongsi_name = div.xpath('.//span[@c

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
3
评论
使用scrapy框架爬取某招聘网站

这期我们简单介绍一下scrapy框架，并使用该框架做一个小小的案例初识scrapy一、简单介绍scrapy框架二、简单介绍如何使用scrapy生成一个项目三、分析爬取目标网站结构四、编写程序五、数据展示一、简单介绍scrapy框架Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item P
复制链接

扫一扫

专栏目录