Excel数据分析案例-CSDN博客

本文链接：https://blog.csdn.net/weixin_44600597/article/details/86587783

用EXCEL找牙科医生的案例
使用Excel进行数据分析，其流程如下：

1.提出问题
所有的数据分析，都必须围绕分析的目的（即分析是为了解决什么问题）进行。

案列问题：

想去看牙医，深圳市哪家医院的牙科医生整体水平高？
什么职称的牙医经验最为丰富？

2.理解数据
2.1数据获取
 爬虫：作为练习或者竞品调研，可采用这种方式。
 公司后台数据报表导出：显示工作中，一般都采用报表导出或者从数据库导出数据的方式。

案例说明：
从健康160中采集深圳市各大医院牙科医生信息列表，得到原始数据。

2.2解决问题的思路
 清洗数据。
 根据医生得分计算出同一家医院所有医生的平均值，再进行医院间分数排名。
 根据医生职称计算出同一职称的牙科医生平均接诊量（即看病数量），再进行各职称之间医生接诊量的排名，直接量最多的职称即是经验最为丰富的。

2.3分析数据类型
数据类型分为：字符串、数字、逻辑。
字符串：通常所说的文本，不可用于计算。例如点评分数中的数值即为字符串，若想将该列中的数值用于计算，须在数据清洗过程中将字符串转换为数字。
数字：可以用于计算。
逻辑：true/false。

3数据清洗
3.1选择子集
 将原始数据文件复制一份，在复制的文件中进行数据清洗，避免清洗不当导致原始数据的丢失。
 对于与解决问题无关的数据，可以进行隐藏或者删除，并调整列宽至合适宽度。
3.2列名重命名
检查采集的数据名，由于列名会影响可视化结果的呈现，因此我们需要将部分列名重命名为更专业/更易懂的名字。
案例中，将评分改为得分，看病书改为接诊量。

3.3删除重复值
重复值如果被计算了，就会影响计算结果的准确性，因此需要识别并删除重复值。

 识别方式：以唯一识别码为识别维度，识别码可以是用于识别每一行数据的唯一ID，也可以是新增辅助列组合一些字段进行识别。

案例中采用新增辅助列的方式，在数据集最后一列新增列，将医生姓名&接诊量最为辅助内容，确保医生的唯一性。

 操作方式：选中数据表，在功能选项中找到删除重复值，选择辅助列，点击删除重复值。删除完成后，点击保存文件。

3.4缺失值的处理
 查找缺失值：选中列，查看数据表右下角的计算值。在不存在缺失值的情况下，每一列的数据计数值都是相等的，当发现数据列存在缺失值时，在开始—查找和选择—定位条件—空值，开始查找该列的缺失值。
 处理缺失值：删除数据或者补全数据。若缺失数据比较少，且需要补全的数据内容相同，可以采用人工补全的方式。

3.5一致化处理
 分列：单元格中存在多条内容混合，这样在做数据分析的时候，不方便对这列数据进行统计，因此需要进行分列。由于分列会对数据造成覆盖，因此建议在将需要分列的数据列复制到数据集末列后再进行分列操作。
具体操作如下：将所属医院一列选中后，复制到数据集的末列，选中此列。在功能选项数据中，选择分列，选空格，完成分列后，进行重命名。
 清除数据集中多余的字符：用查找&替换的功能。
 数据类型的转换：如果数据集中的字符串被当成数字用于计算，计算将无法进行。

纯数值字符串转数字：选中该列后，进行选择性粘贴，粘贴时选择数值类型即可。
字符串内容包含了数值以外的内容：需要用函数进行提取。此处用到FIND和LEFT。

4.数据建模
结合第一步所提出的两个问题，将数据进行汇总分析。

 数据透视表进行分析
将“所属医院”作为行标签，得分和接诊量作为求和项，其中得分是计算平均数，接诊量算求和。再以得分进行降序排列，即可以得出得分高的医院，但是此时再看接诊量这一指标，发现有些医院的得分虽然高，但是接诊量与其他相比却少很多。于是对接诊量这一指标数据进行统计描述分析。如下

从中可以看出数据跨度有些大，所以用VLOOKUP函数将之进行分组。由于中位数是3414，所以就以3000作为分组的阈值，

即大于3000接诊量的才可以纳入统计。

因此，结合接诊量和得分两个指标来看，。。。。

同理，将职称作为行标签，接诊量作为求和项，算出平均数。

由此可以看出主任医师的接诊量最多，也就经验最为丰富，副主任医师与之差别很小。