使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化

最新推荐文章于 2024-07-09 14:45:02 发布

鱼小洲

最新推荐文章于 2024-07-09 14:45:02 发布

阅读量7.1k

点赞数 7

分类专栏： python爬虫文章标签：数据分析数据可视化 xpath scrapy python爬虫

本文链接：https://blog.csdn.net/weixin_43581288/article/details/106950359

版权

项目目录

项目要求
工具
- - 软件
  - 具体知识点
具体要求
具体步骤
总结经验

项目要求

利用python编写爬虫程序，从招聘网上爬取数据，将数据存入到MongoDB中，将存入的数据作一定的数据清洗后分析数据，最后做数据可视化。

工具

软件

python 3.7
pycharm 2020.1.2

具体知识点

python基础知识
scrapy框架知识点
pyecharts 1.5
MongoDB

具体要求

数据源

前程无忧

爬取字段

职位名称、薪资水平、招聘单位、工作地点、工作经验、学历要求、工作内容（岗位职责）、任职要求（技能要求）

数据存储

将爬取到的数据保存在MongoDB中

数据分析与可视化

具体要求
（1）分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资，并作条形图将结果展示出来。

（2）分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数，并做条形图将结果展示出来。

（3）分析大数据相关岗位1-3年工作经验的薪资水平（平均工资、最高工资、最低工资），并做出条形图展示出来；

（4）将数据采集岗位要求的技能做出词云图

具体步骤

分析网页

点击进入网页
我们先来看看网页构造。再来分析思路：
由于我们需要的大数据岗位的分布数据，所以我们就直接搜索条件，分析大数据岗位在全国的一个分布情况。
在这里插入图片描述
我的思路是，既然需要字段，而且这个页面上的所有字段并没有我们需要的全部，那我们就需要进入到每一个网址里面去分析我们的字段。先来看看进去后是什么样子。

我们需要的字段都在这里面了，所以，我们就可以开始动手写代码了。

实现代码

抓取全部岗位的网址

我们之前说过，要进入到每一个网址去，那么就必然需要每一个进去的入口，而这个入口就是这个：
在这里插入图片描述
新建一个爬虫项目:

scrapy startproject qianchengwuyou

然后打开我们的项目，进入瞅瞅会发现啥都没有，我们再cd到我们的项目里面去开始一个爬虫项目

scrapy genspider qcwy https://search.51job.com/

当然，这后边的网址就是你要爬取的网址。

首先在开始敲代码之前，还是要设置一下我们的配置文件settings.py中写上我们的配置信息：

# 关闭网页机器人协议
ROBOTSTXT_OBEY = False
# mongodb地址
MONGODB_HOST='127.0.0.1'
# mongodb端口号
MONGODB_PORT = 27017
# 设置数据库名称
MONGODB_DBNAME = '51job'
# 存放本数据的表名称
MONGODB_DOCNAME = 'jobTable'
# 请求头信息
DEFAULT_REQUEST_HEADERS = {
   
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
'User_Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}
# 下载管道
ITEM_PIPELINES = {
   
 'qianchengwuyou.pipelines.QianchengwuyouPipeline': 300,
}
# 下载延时
DOWNLOAD_DELAY = 1

然后再去我们的pipelines.py中开启我们的爬虫保存工作

from scrapy.utils.project import get_project_settings
settings = get_project_settings()
import pymongo
class QianchengwuyouPipeline:
    def __init__(self):
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        self.client = pymongo.MongoClient(host=host,port=port)
        self.db = self.client[settings['MONGODB_DBNAME']]
        self.coll = self.db[settings['MONGODB_DOCNAME']]
    def process_item(self, item, spider):
        data = dict(item)
        self.coll.insert(data)
        return item
    def close(self):
        self.client.close()

定义好pipelines.py之后，我们还需要去items.py中去定义好我们需要爬取的字段，用来向pipelines.py中传输数据

import scrapy
class QianchengwuyouItem(scrapy.Item):
    zhiweimingcheng = scrapy.Field()
    xinzishuipin = scrapy.Field()
    zhaopindanwei = scrapy.Field()
    gongzuodidian = scrapy.Field()
    gongzuojingyan = scrapy.Field()
    xueli = scrapy.Field()
    yaoqiu = scrapy.Field()
    jineng = scrapy.Field()

然后就可以在我们的qcwy.py中开始敲我们的代码了；

在敲代码之前，还是要先分析一下网页结构。打开审查工具，看看我们需要的网址用xpath语法该怎么写：
在这里插入图片描述
我们需要拿到的是这个超链接，然后才能用框架去自动进入这个超链接提取超链接里面的内容。
再来分析分析他的文档树结构是什么样子的：

可以很清晰的看到，这个整个栏目都在div class='el'下，而且所有的招聘岗位都在这下面，所以，我们为了能够拿到所有的url，就可以去定位他的上一级标签，然后拿到所有子标签。再通过子标签去拿里面的href属性。

所以，xpath语法就可以这样写：

//*[@id='resultList']/div[@class='el']/p/span/a/@href

我们来打印一下试试：

import scrapy
from qianchengwuyou.items import QianchengwuyouItem
class QcwySpider(scrapy.Spider):
    name = 'qcwy'
    allowed_domains = ['https://www.51job.com/']
    start_urls = ['https://search.51job.com/list/000000,000000,0130%252C7501%252C7506%252C7502,01%252C32%252C38,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=']

    def parse(self, response):
        all_urls = response.xpath("//*[@id='resultList']/div[@class='el']/p/span/a/@href").getall()
        for url in all_urls:
            print(url)

接着我们再写一个启动函数：
在当前项目的任何位置新建一个main.py(名字随便你起，体现出启动俩字就行)，然后写上这两行代码：

from scrapy.cmdline import execute
execute("scrapy crawl qcwy".split())

这个意思就是从scrapy包的cmdline下导入execute模块，然后，用这个模块去运行当前项目；
运行结果：

最低0.47元/天解锁文章

鱼小洲

关注

7
点赞
踩
114

收藏

觉得还不错? 一键收藏
打赏
16
评论
使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化

项目目录项目要求工具软件具体知识点具体要求数据源爬取字段数据存储数据分析与可视化具体步骤分析网页实现代码抓取全部岗位的网址字段提取可视化分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资，并作条形图将结果展示出来分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数，并做条形图将结果展示出来分析大数据相关岗位1-3年工作经验的薪资水平（平均工资、最高工资、最低工资），并做出条形图展示出来将数据采集岗位要求的技能做出词云
复制链接

扫一扫