箱型图的核心思想以及计算过程

第一部分:箱型图的含义

箱型图(Box Plot),也叫盒须图,是一种显示数据分布情况的图形工具。它直观地展示了数据的分散性、中心趋势以及异常值。箱型图通过几个关键统计量帮助理解数据的分布:第一四分位数、第三四分位数、中位数、最大值、最小值、上限、下限和异常值。

箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。

同时,利用箱型图无需数据服从正态分布

第二部分:箱型图的组成与计算

从上面这个图就能够看出来,对应大的异常值和小的异常值均不会被统计在内,就好比要研究一个小村庄里的人均收入,不小心马云从中进过,把马云也算进去了,那数据价格会出现巨大的变动,而马云在这里就叫做异常值。

第三部分:箱型图的实现

(1)示例

求解“学生成绩表.xlsx”中,“语文”,“数学”,“英语”成绩的箱型图数据分布,以显现其数据的分布状态。

(2)箱型图绘制代码

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import mpl
import numpy as np

# 设置中文显示字体
mpl.rcParams["font.sans-serif"] = ["SimHei"]
# 设置正常显示符号
mpl.rcParams["axes.unicode_minus"] = False

# 读取 Excel 文件
file_path = '学生成绩表.xlsx'  # 请替换为你的文件路径
df = pd.read_excel(file_path, sheet_name='Sheet1')

# List of subjects to plot
subjects = ['语文', '数学', '英语']

# Create a box plot for each subject
plt.figure(figsize=(10, 6))
box_plot = sns.boxplot(data=df[subjects])

# 标注每个箱型图的统计量
for i, subject in enumerate(subjects):
    # 获取该科目的数据
    data = df[subject].dropna()

    # 计算统计量
    median = np.median(data)  # 中位数
    q1 = np.percentile(data, 25)  # 第一四分位数(Q1)
    q3 = np.percentile(data, 75)  # 第三四分位数(Q3)
    iqr = q3 - q1  # 四分位距(IQR)
    lower_fence = q1 - 1.5 * iqr  # 下限
    upper_fence = q3 + 1.5 * iqr  # 上限
    min_value = data[data >= lower_fence].min()  # 非异常值的最小值
    max_value = data[data <= upper_fence].max()  # 非异常值的最大值
    outliers = data[(data < lower_fence) | (data > upper_fence)]  # 异常值

    # 在图上标注这些统计量
    plt.text(i, median, f'中位数: {median:.2f}', horizontalalignment='center', color='white', weight='bold')
    plt.text(i, q1, f'Q1: {q1:.2f}', horizontalalignment='center', color='black', weight='bold')
    plt.text(i, q3, f'Q3: {q3:.2f}', horizontalalignment='center', color='black', weight='bold')
    plt.text(i, min_value, f'最小值: {min_value:.2f}', horizontalalignment='center', color='black', weight='bold')
    plt.text(i, max_value, f'最大值: {max_value:.2f}', horizontalalignment='center', color='black', weight='bold')
    plt.text(i, lower_fence, f'下限: {lower_fence:.2f}', horizontalalignment='center', color='red', weight='bold')
    plt.text(i, upper_fence, f'上限: {upper_fence:.2f}', horizontalalignment='center', color='red', weight='bold')

    # 标注异常值
    for outlier in outliers:
        plt.text(i, outlier, f'{outlier:.2f}', horizontalalignment='center', color='blue', weight='bold')

plt.title('语文、数学、英语成绩的箱型图及统计量标注')
plt.xlabel('科目')
plt.ylabel('成绩')

# 显示图形
plt.show()

效果:

第四部分:资源获取

(1)学生成绩表.xlsx

通过网盘分享的文件:学生成绩表.zip
链接: https://pan.baidu.com/s/16VX2KrYmr7VUccY0uWx5Zg?pwd=vkkx 提取码: vkkx
--来自百度网盘超级会员v5的分享

(2)绘图draw.io文件

通过网盘分享的文件:箱型图图解.zip
链接: https://pan.baidu.com/s/1ETqNMGBiurwWpgVv2Fj0Ow?pwd=sa26 提取码: sa26
--来自百度网盘超级会员v5的分享

好啦,希望能够帮助到大家!

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

还不秃顶的计科生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值