容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析
小组成员:雷坤、韦民童、李波、陶宇
项目周期5天,数据分析为第2天的需求。
0.下载数据集
小组成员利用爬虫收集各大招聘网站的人工智能相关岗位信息,小组分工:
姓名 | 网站 | 网址 |
---|---|---|
雷坤 | 中华英才网 | www.chinahr.com |
李波 | 智联招聘 | www.zhaopin.com |
韦民童 | 拉勾网 | www.lagou.com |
陶宇 | 前程无忧51job | www.51job.com |
本文中使用的数据集是前程无忧51job网站爬虫收集的职位信息。
数据集下载链接: https://pan.baidu.com/s/1XyKcm_KlV5jO6aQSQMWb7A 密码: wyar
1.观察数据
1.1解压压缩文件
将压缩文件解压,如下图所示:
1.2打开jupyter notebook
在人工智能职位信息_前程无忧51job文件夹同级目录下打开powershell
powershell输入命令并运行:jupyter notebook
1.3新建dataAnalysis.ipynb文件
新建ipynb文件完成后重命名,重命名按钮位置如下图所示:
1.4.查看数据
import pandas as pd
df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
print(df.shape)
print(len(df.columns), df.columns)
df.head()
上面一段代码的运行结果如下:
2.数据处理
2.1 删除空行
print('删除空行前共有%d行' %len(df))
df = df.dropna(how='all')
print('删除空行后共有%d行' %len(df))
上面一段代码的运行结果如下:
删除空行前共有14383行
删除空行后共有14304行
从上面的运行结果可以看出,一共删除了14383-14304=79行。
3.绘制词云图
3.1 词频统计
利用jieba库进行中文分词,jieba.cut方法的返回值数据类型为生成器generator。
import pandas as pd
import jieba
df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
allText = ' '.join(df.jobRequirement.dropna().map(str.lower))
top200_keyword = pd.value_counts(list(jieba.cut(allText))).iloc[:200]
print(top200_keyword.iloc[:50])
通过上面一段代码运行可以查看分词后统计词频排名前50的关键词。
本文作者通过分词统计词频和手动添加关键词的方法形成关键词词库。
3.2 下载人工智能关键词词库
此词库是本文作者观察数据后根据现实情况编辑的词库,只有43个关键词。
读者绘制词云图时可以自行尝试多添加关键词。
关键词词库下载链接: https://pan.baidu.com/s/1o-yrnZe6cyqJaYTuLcR1HA 密码: q6yi
下载后将词库放到人工智能职位信息_前程无忧51job文件夹中。
3.3 编写代码
利用str对象的count方法可以统计字符串中某个子字符串出现的次数,这个方法效率非常高。
from pyecharts import WordCloud
import pandas as pd
def drawWordCloud(allText):
with open('keyword.txt', encoding='utf-8') as file:
keyword_list = [k.strip() for k in file.readlines()]
count_list = []
for keyword in keyword_list:
count_list.append(allText.count(keyword))
top20_keyword = pd.Series(count_list, index=keyword_list).sort_values(ascending=False).iloc[:10]
print(top20_keyword)
wordcl