基于pandas、matplotlib、pyecharts的人工智能相关职位招聘市场数据分析

最新推荐文章于 2024-07-05 15:05:05 发布

xiaosakun

最新推荐文章于 2024-07-05 15:05:05 发布

阅读量1.4k

点赞数 1

文章标签：数据分析人工智能 pyecharts matplotlib 招聘市场

本文链接：https://blog.csdn.net/xiaosa_kun/article/details/81914550

版权

本文是容大教育人工智能班的实战项目，通过pandas和matplotlib对前程无忧51job网站的人工智能岗位数据进行分析，包括词云图、城市需求量和学历要求。数据处理后，发现上海需求量最高，大部分职位学历要求为大专，但可能存在数据准确性问题。使用pyecharts进行数据可视化，展示不同城市的岗位需求和学历分布情况，并与其他招聘网站进行对比。

摘要由CSDN通过智能技术生成

容大教育人工智能班数据分析阶段实战项目：人工智能相关职位数据分析
小组成员：雷坤、韦民童、李波、陶宇
项目周期5天，数据分析为第2天的需求。

0.下载数据集

小组成员利用爬虫收集各大招聘网站的人工智能相关岗位信息，小组分工：

姓名	网站	网址
雷坤	中华英才网	www.chinahr.com
李波	智联招聘	www.zhaopin.com
韦民童	拉勾网	www.lagou.com
陶宇	前程无忧51job	www.51job.com

本文中使用的数据集是前程无忧51job网站爬虫收集的职位信息。
数据集下载链接: https://pan.baidu.com/s/1XyKcm_KlV5jO6aQSQMWb7A 密码: wyar

1.观察数据

1.1解压压缩文件

将压缩文件解压，如下图所示：

1.2打开jupyter notebook

在人工智能职位信息_前程无忧51job文件夹同级目录下打开powershell
powershell输入命令并运行:jupyter notebook

1.3新建dataAnalysis.ipynb文件

新建ipynb文件.png
新建ipynb文件完成后重命名，重命名按钮位置如下图所示：

1.4.查看数据

import pandas as pd
df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
print(df.shape)
print(len(df.columns), df.columns)
df.head()

上面一段代码的运行结果如下：

2.数据处理

2.1 删除空行

print('删除空行前共有%d行' %len(df))
df = df.dropna(how='all')
print('删除空行后共有%d行' %len(df))

上面一段代码的运行结果如下：

删除空行前共有14383行
删除空行后共有14304行

从上面的运行结果可以看出，一共删除了14383-14304=79行。

3.绘制词云图

3.1 词频统计

利用jieba库进行中文分词，jieba.cut方法的返回值数据类型为生成器generator。

import pandas as pd
import jieba

df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
allText = ' '.join(df.jobRequirement.dropna().map(str.lower))
top200_keyword = pd.value_counts(list(jieba.cut(allText))).iloc[:200]
print(top200_keyword.iloc[:50])

通过上面一段代码运行可以查看分词后统计词频排名前50的关键词。
本文作者通过分词统计词频和手动添加关键词的方法形成关键词词库。

3.2 下载人工智能关键词词库

此词库是本文作者观察数据后根据现实情况编辑的词库，只有43个关键词。
读者绘制词云图时可以自行尝试多添加关键词。
关键词词库下载链接: https://pan.baidu.com/s/1o-yrnZe6cyqJaYTuLcR1HA 密码: q6yi
下载后将词库放到人工智能职位信息_前程无忧51job文件夹中。

3.3 编写代码

利用str对象的count方法可以统计字符串中某个子字符串出现的次数，这个方法效率非常高。

from pyecharts import WordCloud
import pandas as pd

def drawWordCloud(allText):
    with open('keyword.txt', encoding='utf-8') as file:
        keyword_list = [k.strip() for k in file.readlines()]
    count_list = []
    for keyword in keyword_list:
        count_list.append(allText.count(keyword))
    top20_keyword = pd.Series(count_list, index=keyword_list).sort_values(ascending=False).iloc[:10]
    print(top20_keyword)
    wordcl