Python 数据分析与可视化
按题目要求完成相应的数据预处理、数据分析和可视化等任务。在绘制图表时,要求:
- 完整显示图表标题、坐标轴的标签、图例、数据标签;
- 在同一个图表中,用不同的颜色和线绘制不同的数据;
- 组合图显示清晰无重叠。
项目一、员工离职分析
“员工离职预测模型.xlsx”中的数据是某公司员工的某些属性的数据集,根据该数据集完成以下任务:
任务一:数据读取及预处理
- 读取‘员工离职预测模型.xlsx’中的数据。
- 检测是否存在缺失值,若有,需用合适的值填充缺失值。
- 检测是否存在重复值,若有,需进行恰当的重复值处理。
- 查看各列的数据类型,若有必要,进行恰当的数据类型转换。
- 将工资列中的“低”“中”“高”分别替换为整数 3、2、1。任务二:数据分析及可视化
- 对于不同的工资档次,计算员工的离职和未离职的比率(1 代表离职,0 代表未离职);然后以工资档次为横坐标,离职比率和未离职比率为高度绘制柱状图(条形图)。
- 作图分析数据中的每种属性对是否离职的影响(例如,工资级别高、中和低的离职率是否存在差异?哪个工资级别的离职率较高?流失率与工龄的趋势如何?它们之间有关系吗?员工的满意度是影响离职的因素吗?)要求每种属性至少绘制两种不同类型的图,不设上限越多越好。
项目三、肿瘤数据分析
“肿瘤数据.xlsx”中的数据是某些病人所患肿瘤的属性,根据该数据集完成以下任务:
任务一:数据读取及预处理
- 读取‘肿瘤数据.xlsx’中的数据。
- 检测是否存在缺失值,若有,需用合适的值填充缺失值。
- 检测是否存在重复值,若有,需进行恰当的重复值处理。
- 查看各列的数据类型,若有必要,进行恰当的数据类型转换。
任务二:数据分析及可视化
- 肿瘤性质 0 代表恶性,1 代表良性。对于肿瘤的 6 种属性,分良性肿瘤和恶性肿瘤计算其平均值;再以一张图上分 6 个子图的形式(自行确定排布方式),绘制出 6 个条形图。最后依此说明哪种属性最适于区分肿瘤的良性和恶性。
- 将肿瘤的 6 种属性两两组合,显然共有 15 种组合方式。以其中一种属性为横坐标,另一种属性为纵坐标,绘制 15 个散点图,良性和恶性用不同颜色和形状进行区分。要求以一个图上分 15 个子图的形式(自行确定排布方式)来绘制上述 15 个散点图。然后根据该图说明哪些两种属性的组合适于区分肿瘤的性质。
部分显示效果如下: