抓取58job, 赶集job以及智联招聘，并使用数据分析生成echarts图

最新推荐文章于 2023-02-01 13:20:36 发布

裸睡的雨

最新推荐文章于 2023-02-01 13:20:36 发布

阅读量470

点赞数

分类专栏： scrapy-redis mysql redis 文章标签：爬虫

本文链接：https://blog.csdn.net/zhao_5352269/article/details/90137905

版权

mysql 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

redis

8 篇文章 0 订阅

订阅专栏

scrapy-redis

1 篇文章 0 订阅

订阅专栏

抓取58job, 赶集job以及智联招聘，并使用数据分析生成echarts图

爬虫部分
数据转换部分（可以忽略）
- process_item_mysql.py
可视化部分
- 可视化采用的flask+mysql+echarts
完成

爬虫部分

爬虫部分使用scrapy-redis分布式爬虫，通过redis实现增量爬取以及去重，并将所有的数据直接保存到redis中，后续再做处理
github：https://github.com/AndrewAndrea/spider_work
代码已经提交到GitHub中，不是很完善，爬虫爬取的信息没有详情页的数据，只有赶集网的数据是详情页的。有点懒得写了。
可以自己把代码clone下来，在做完善。
微信公众号，公众号中有更多资源，以及更多干货欢迎关注，
在这里插入图片描述

抓取智联招聘的信息

这个很简单

抓取58同城的招聘信息

这个也很简单，我的代码只做了一个城市的抓取，可以做扩展

抓取赶集网的招聘信息

这个也简单。就不说了，也是一个城市的信息。

最后关于爬虫如何同时启动多个spider

如何将所有的爬虫的同时启动，这个我写一下，记录一下，避免以后给忘了。
首先，需要在爬虫文件新建一个commond包，在该目录下新建文件crawlall.py。
目录结构：

crawlall.py中的内容：

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
# @Time : 2019/5/6 16:31 
# @Author : zhao.jia
# @Site :  
# @File : crawlall.py 
# @Software: PyCharm

from scrapy.commands import ScrapyCommand


class Command(ScrapyCommand):
    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'Runs all of the spiders'

    def run(self, args, opts):
        spider_list = self.crawler_process.spiders.list()
        for name in spider_list:
            self.crawler_process.crawl(name, **opts.__dict__)
        self.crawler_process.start()

更改settings.py

COMMANDS_MODULE = 'spider_work.command'

启动

scrapy crawlall

爬虫部分到此结束，单个如何启动大家也都知道。

数据转换部分（可以忽略）

我是通过 MySQL 去做的，所以需要将 Redis 中的数据取出来存到 MySQL 中。
Redis 存储的类型是列表，所以有重复数据。redis 取数据采用 lpop 方法。通过给 MySQL 表中的字段加索引，来去重，插入语句使用 replace into 而不是 insert into，可以去看看我的另外一篇文章关于插入不重复数据replace

process_item_mysql.py

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
# @Time : 2019/4/29 23:15 
# @Author : zhao.jia
# @Site :  
# @File : process_item_mysql.py 
# @Software: PyCharm

import pymysql
import redis
import json


def process_item(key):
    Redis_conn = redis.StrictRedis(host='ip', port=6379, db=0, password='pass')
    MySql_conn = pymysql.connect(host='ip', user='root', passwd='pass', port=3306, db='dbname')
    cur = MySql_conn.cursor()
    while True:
        data = Redis_conn.lpop(key)
        if data:
            try:
                data = json.loads(data.decode('unicode_escape'), strict=False)
            except Exception as e:
                process_item(key)
            print(data)
            try:
                if '-' in data['city']:
                    city = data['city'].split('-')[0]
                else:
                    city = data['city']
            except Exception as e:
                city = data['city']
            lis = (
                pymysql.escape_string(data['jobType']),
                pymysql.escape_string(data['jobName']),
                pymysql.escape_string(data['emplType']),
                pymysql.escape_string(data['eduLevel']),
                pymysql.escape_string(data['salary']),
                pymysql.escape_string(data['companyName']),
                pymysql.escape_string(city),
                pymysql.escape_string(data['welfare']),
                pymysql.escape_string(data['workingExp']))
            sql = (
                    "replace into work(jobType, jobName, emplType, eduLevel, salary, companyName, city, welfare, workingExp) VALUES ('%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s')" % lis)
            try:
                cur.execute(sql)
                MySql_conn.commit()
            except Exception as e:
                MySql_conn.rollback()
        else:
            break
    cur.close()
    MySql_conn.close()


if __name__ == "__main__":
    key_list = ['job_spider:items', 'jobs58:items', 'jobsganjispider']
    for i in range(3):
        process_item(key_list[i])

可视化部分

可视化采用的flask+mysql+echarts

具体代码见我的GitHub，这里就不贴了。

贴一下几个图吧

web网站的整体图

学历要求

学历工资图

在这里插入图片描述

经验要求

在这里插入图片描述

词云图

完成

裸睡的雨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
3
评论
抓取58job, 赶集job以及智联招聘，并使用数据分析生成echarts图

**抓取58job, 赶集job以及智联招聘，并使用数据分析生成echarts图**爬虫部分抓取智联招聘的信息抓取58同城的招聘信息抓取赶集网的招聘信息最后关于爬虫如何同时启动多个spidercrawlall.py中的内容：更改settings.py启动爬虫部分到此结束，单个如何启动大家也都知道。数据转换部分（可以忽略）process_item_mysql.py可视化部分可视化采用的flask+m...
复制链接

扫一扫