如何使用python检验样本数据概率分布

0. 前言

python科学计算库scipy中提供了检验样本数据概率分布的api,在此对其使用方法做个简单记录,可分为形状参数已知和未知两种情况。

1. 形状参数已知

给定样本数据,通过plt.hist绘制统计直方图能够大概确定其属于何种分布,但是往往我们需要确定分布参数,如位置(loc)和尺度(scale)参数,可通过scipy.stats.probplot获取。

以高斯分布为例(没有形状参数,视为已知):

from scipy import stats
import matplotlib.pyplot as plt

x_norm = stats.norm.rvs(loc=0.0, scale=1, size=1000, random_state=2023)
_, (slope, intercept, r) = stats.probplot(x_norm, dist='norm', plot=plt, rvalue=True)

plt.show()

返回的slope和intercept为拟合直线的斜率和截距,分别代表着样本数据分布的尺度和位置参数;r为决定系数,取值范围从0到1,越接近1表示模型对数据的拟合程度越好。

2. 形状参数未知

对于具有形状参数的统计分布(例如tukey-lambda分布),在形状参数未知的情况下,可以先通过scipy.stats.ppcc_max获取形状参数,再通过scipy.stats.probplot获取loc和scale参数。

x_tl = stats.tukeylambda.rvs(lam=0.14, loc=0.0, scale=1.0, size=1000, random_state=2023)
shape_value = stats.ppcc_max(x_tl, brack=(0.0, 1.0), dist='tukeylambda')
_, (slope, intercept, r) = stats.probplot(x_tl, sparams=(shape_value,), dist='tukeylambda', plot=plt, rvalue=True)

plt.show()

参考

scipy.stats.probplot官方doc
scipy.stats.ppcc_max官方doc

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值