pandas是python中的数据分析库,matplotlib、pyecharts是python中的数据可视化库。
容大教育人工智能班数据分析阶段实战项目:人工智能相关职位数据分析
小组成员:雷坤、韦民童、李波、陶宇
项目周期5天,数据分析为第2天的需求。
0.下载数据集
小组成员利用爬虫收集各大招聘网站的人工智能相关岗位信息,小组分工:
姓名 | 网站 | 网址 |
---|---|---|
雷坤 | 中华英才网 | www.chinahr.com |
李波 | 智联招聘 | www.zhaopin.com |
韦民童 | 拉勾网 | www.lagou.com |
陶宇 | 前程无忧51job | www.51job.com |
本文中使用的数据集是前程无忧51job网站爬虫收集的职位信息。
数据集下载链接: https://pan.baidu.com/s/1XyKcm_KlV5jO6aQSQMWb7A 密码: wyar
1.观察数据
1.1解压压缩文件
将压缩文件解压,如下图所示:
1.2打开jupyter notebook
在人工智能职位信息_前程无忧51job文件夹同级目录下打开powershell
powershell输入命令并运行:jupyter notebook
1.3新建dataAnalysis.ipynb文件
新建ipynb文件完成后重命名,重命名按钮位置如下图所示:
1.4.查看数据
import pandas as pd
df = pd.read_csv('人工智能.csv', engine='python', encoding='utf8')
print(df.shape)
print(len(df.columns), df.columns)
df.head()
上面一段代码的运行结果如下:
2.数据处理
2.1 删除空行
print('删除空行前共有%d行' %le