第一部分:箱型图的含义
箱型图(Box Plot),也叫盒须图,是一种显示数据分布情况的图形工具。它直观地展示了数据的分散性、中心趋势以及异常值。箱型图通过几个关键统计量帮助理解数据的分布:第一四分位数、第三四分位数、中位数、最大值、最小值、上限、下限和异常值。
箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。
同时,利用箱型图无需数据服从正态分布
第二部分:箱型图的组成与计算
从上面这个图就能够看出来,对应大的异常值和小的异常值均不会被统计在内,就好比要研究一个小村庄里的人均收入,不小心马云从中进过,把马云也算进去了,那数据价格会出现巨大的变动,而马云在这里就叫做异常值。
第三部分:箱型图的实现
(1)示例
求解“学生成绩表.xlsx”中,“语文”,“数学”,“英语”成绩的箱型图数据分布,以显现其数据的分布状态。
(2)箱型图绘制代码
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import mpl
import numpy as np
# 设置中文显示字体
mpl.rcParams["font.sans-serif"] = ["SimHei"]
# 设置正常显示符号
mpl.rcParams["axes.unicode_minus"] = False
# 读取 Excel 文件
file_path = '学生成绩表.xlsx' # 请替换为你的文件路径
df = pd.read_excel(file_path, sheet_name='Sheet1')
# List of subjects to plot
subjects = ['语文', '数学', '英语']
# Create a box plot for each subject
plt.figure(figsize=(10, 6))
box_plot = sns.boxplot(data=df[subjects])
# 标注每个箱型图的统计量
for i, subject in enumerate(subjects):
# 获取该科目的数据
data = df[subject].dropna()
# 计算统计量
median = np.median(data) # 中位数
q1 = np.percentile(data, 25) # 第一四分位数(Q1)
q3 = np.percentile(data, 75) # 第三四分位数(Q3)
iqr = q3 - q1 # 四分位距(IQR)
lower_fence = q1 - 1.5 * iqr # 下限
upper_fence = q3 + 1.5 * iqr # 上限
min_value = data[data >= lower_fence].min() # 非异常值的最小值
max_value = data[data <= upper_fence].max() # 非异常值的最大值
outliers = data[(data < lower_fence) | (data > upper_fence)] # 异常值
# 在图上标注这些统计量
plt.text(i, median, f'中位数: {median:.2f}', horizontalalignment='center', color='white', weight='bold')
plt.text(i, q1, f'Q1: {q1:.2f}', horizontalalignment='center', color='black', weight='bold')
plt.text(i, q3, f'Q3: {q3:.2f}', horizontalalignment='center', color='black', weight='bold')
plt.text(i, min_value, f'最小值: {min_value:.2f}', horizontalalignment='center', color='black', weight='bold')
plt.text(i, max_value, f'最大值: {max_value:.2f}', horizontalalignment='center', color='black', weight='bold')
plt.text(i, lower_fence, f'下限: {lower_fence:.2f}', horizontalalignment='center', color='red', weight='bold')
plt.text(i, upper_fence, f'上限: {upper_fence:.2f}', horizontalalignment='center', color='red', weight='bold')
# 标注异常值
for outlier in outliers:
plt.text(i, outlier, f'{outlier:.2f}', horizontalalignment='center', color='blue', weight='bold')
plt.title('语文、数学、英语成绩的箱型图及统计量标注')
plt.xlabel('科目')
plt.ylabel('成绩')
# 显示图形
plt.show()
效果:
第四部分:资源获取
(1)学生成绩表.xlsx
通过网盘分享的文件:学生成绩表.zip
链接: https://pan.baidu.com/s/16VX2KrYmr7VUccY0uWx5Zg?pwd=vkkx 提取码: vkkx
--来自百度网盘超级会员v5的分享
(2)绘图draw.io文件
通过网盘分享的文件:箱型图图解.zip
链接: https://pan.baidu.com/s/1ETqNMGBiurwWpgVv2Fj0Ow?pwd=sa26 提取码: sa26
--来自百度网盘超级会员v5的分享
好啦,希望能够帮助到大家!