基于pandas、matplotlib、pyecharts的人工智能相关职位招聘市场数据分析

容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析
小组成员:雷坤、韦民童、李波、陶宇
项目周期5天,数据分析为第2天的需求。

0.下载数据集

小组成员利用爬虫收集各大招聘网站的人工智能相关岗位信息,小组分工:

姓名 网站 网址
雷坤 中华英才网 www.chinahr.com
李波 智联招聘 www.zhaopin.com
韦民童 拉勾网 www.lagou.com
陶宇 前程无忧51job www.51job.com

本文中使用的数据集是前程无忧51job网站爬虫收集的职位信息。
数据集下载链接: https://pan.baidu.com/s/1XyKcm_KlV5jO6aQSQMWb7A 密码: wyar

1.观察数据

1.1解压压缩文件

将压缩文件解压,如下图所示:
image.png

1.2打开jupyter notebook

人工智能职位信息_前程无忧51job文件夹同级目录下打开powershell
powershell输入命令并运行:jupyter notebook
image.png

1.3新建dataAnalysis.ipynb文件

新建ipynb文件.png
新建ipynb文件完成后重命名,重命名按钮位置如下图所示:
image.png

1.4.查看数据

import pandas as pd
df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
print(df.shape)
print(len(df.columns), df.columns)
df.head()

上面一段代码的运行结果如下:
image.png

2.数据处理

2.1 删除空行

print('删除空行前共有%d行' %len(df))
df = df.dropna(how='all')
print('删除空行后共有%d行' %len(df))

上面一段代码的运行结果如下:

删除空行前共有14383行
删除空行后共有14304行

从上面的运行结果可以看出,一共删除了14383-14304=79行。

3.绘制词云图

3.1 词频统计

利用jieba库进行中文分词,jieba.cut方法的返回值数据类型为生成器generator。

import pandas as pd
import jieba

df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
allText = ' '.join(df.jobRequirement.dropna().map(str.lower))
top200_keyword = pd.value_counts(list(jieba.cut(allText))).iloc[:200]
print(top200_keyword.iloc[:50])

通过上面一段代码运行可以查看分词后统计词频排名前50的关键词。
本文作者通过分词统计词频和手动添加关键词的方法形成关键词词库。

3.2 下载人工智能关键词词库

此词库是本文作者观察数据后根据现实情况编辑的词库,只有43个关键词。
读者绘制词云图时可以自行尝试多添加关键词。
关键词词库下载链接: https://pan.baidu.com/s/1o-yrnZe6cyqJaYTuLcR1HA 密码: q6yi
下载后将词库放到人工智能职位信息_前程无忧51job文件夹中。

3.3 编写代码

利用str对象的count方法可以统计字符串中某个子字符串出现的次数,这个方法效率非常高。

from pyecharts import WordCloud
import pandas as pd

def drawWordCloud(allText):
    with open('keyword.txt', encoding='utf-8') as file:
        keyword_list = [k.strip() for k in file.readlines()]
    count_list = []
    for keyword in keyword_list:
        count_list.append(allText.count(keyword))
    top20_keyword = pd.Series(count_list, index=keyword_list).sort_values(ascending=False).iloc[:10]
    print(top20_keyword)
    wordcl
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值