十一月组队学习：numpy统计相关

最新推荐文章于 2024-08-12 11:55:09 发布

weixin_43697982

最新推荐文章于 2024-08-12 11:55:09 发布

阅读量146

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/weixin_43697982/article/details/110195366

版权

numpy中关于统计的各种函数

今天的内容比较简单：以下x均为数组（一维或以上）
整体内容：
1.最大值：np.max(x,axis=None)
2.最小值：np.min(x,axis=None)
3.极差：np.ptp(x,axi=Nones)
4.分位数：np.percentile(x,分位数，axis=None)，分位数可以是一个列表，如[0,25,75]
5.中位数：np.median(x,axis=None) 与 np.percentile(x,50,axis)等价
6.均值：np.mean(x,axis=None)
7.加权平均值：np.average(x,axis=None,weights),当weights默认时，与np.mean()等价
8.方差：np.var(a,axis=None,ddof=0),当ddof=0时，分母为n，当ddof=1时，分母为n-1（即方差的无偏估计）
9.标准差：np.std(a,axis=None,ddof=0)就是方差的算术平方根
10.样本（协）方差：np.cov(x，y=None),np.cov(x)等同于np.vax(x,ddof=1)！【这里是难点！】
11.相关系数矩阵:np.corrcoef(x,y)。只能算2个数组的相关系数，作用很有限！
12.numpy.digitize(x, bins, right=False)函数功能：返回一个和x形状相同的数据，返回值中的元素为对应x位置的元素落在bins中区间的索引号。

具体代码：

#每新建一个工程都要设置一下anaconda环境以及把use IPython if available去掉

#最大值和最小值:np.amin(x,axis),np.amax(x,axis)
import numpy as np
np.random.seed(123)
x = np.random.uniform(5, 10, size=(5, 4))
np.set_printoptions(precision=1)
print(x)
# [[8.5 6.4 6.1 7.8]
#  [8.6 7.1 9.9 8.4]
#  [7.4 7.  6.7 8.6]
#  [7.2 5.3 7.  8.7]
#  [5.9 5.9 7.7 7.7]]

#所有值的最小值
print(np.amin(x)) #5.298389483047842
print(np.amin(x).dtype) #float64
print(type(np.amin(x))) #<class 'numpy.float64'>
#每列的最小值
print(np.amin(x, axis=0)) #[5.9 5.3 6.1 7.7]
print(np.amin(x, axis=0).dtype) #float64
print(type(np.amin(x, axis=0))) #<class 'numpy.ndarray'>
#每行的最小值
print(np.amin(x, axis=1)) #[6.1 7.1 6.7 5.3 5.9]
print(np.amin(x, axis=1).dtype) #float64
print(type(np.amin(x, axis=1))) #<class 'numpy.ndarray'>
#最大值np.amax()类似，不重复写了。
#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#极差：np.ptp(x,axis)
x = np.random.randint(20, 50, size=(3, 4))
print(x)
# [[44 49 36 27]
#  [29 23 48 48]
#  [40 26 21 41]]
print(np.ptp(x)) #28  (49-21)
print(np.ptp(x, axis=0)) #[15 26 27 21]
print(np.ptp(x, axis=1)) #[22 25 20]
#——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#分位数:np.percentile(x,分位数，axis）
x = np.random.randint(0, 30, size=(3, 5))
print(x)
# [[22 27  2  1 12]
#  [ 8  3 10  5  0]
#  [11  2 26 10 22]]
print(np.percentile(x, 25))#2.5
print(np.percentile(x, [25,50]))#[ 2.5 10. ]
print(np.percentile(x, [0,25,50,75]))#  [ 0.   2.5 10.  17. ]
print(np.percentile(x, [0,25,50,75, 100]))#[ 0.   2.5 10.  17.  27. ]

print(np.percentile(x, 25,axis=0))
#[9.5 2.5 6.  3.  6. ]
print(np.percentile(x, [25,50],axis=0))
#[[ 9.5  2.5  6.   3.   6. ]
# [11.   3.  10.   5.  12. ]]
print(np.percentile(x, 25,axis=1))
#[ 2.  3. 10.]
print(np.percentile(x, [25,50],axis=1))
#这里有点绕，不符合常识
# [[ 2.  3. 10.]
#  [12.  5. 11.]]
#——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#中位数np.median(x,axis) 与 np.percentile(x,50,axis)等价
#均值：np.mean(x,axis)的逻辑完全一样，不重复写了
np.random.seed(20200623)
x = np.random.randint(0, 20, size=[4, 5])
print(x)
# [[10  2  1  1 16]
#  [18 11 10 14 10]
#  [11  1  9 18  8]
#  [16  2  0 15 16]]
print(np.median(x))#10.0
print(np.median(x,axis=0)) #[13.5  2.   5.  14.5 13. ]
print(np.median(x,axis=1))#[ 2. 11.  9. 15.]
#——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#加权平均值：np.average(x,axis,weights),当weights默认时，与np.mean()等价,下面看weights的设置
x = np.random.randint(0,50,size=(3, 5))
w = np.arange(1, 16).reshape([3,5])
print(x)
# [[10 25 17 12 12]
#  [ 0 47 13 37 30]
#  [37 24 28 44 13]]
print(np.average(x))#23.266666666666666
print(np.average(x,weights=w))#26.291666666666668
print(np.average(x,axis=0,weights=w))#[23.2 31.8 21.6 36.9 18.5]
print(np.average(x,axis=1,weights=w))#[14.6 26.6 28.8]
#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#方差：np.var(a,axis,ddof=0),当ddof=0时，分母为n，当ddof=1时，分母为n-1（即方差的无偏估计）
#标准差：np.std(a,axis,ddof=0)就是方差的算术平方根，用法是完全类似的，不重复写了
x = np.random.randint(0,25,size=(4,6))
print(x)
# [[ 0 14  6 14 10 13]
#  [ 3 22  3  8 11 12]
#  [ 2 20 23 21  4 17]
#  [ 7 10 11  3 11  0]]
print(np.var(x))
#46.08159722222222
print(np.mean((x - np.mean(x)) **2))
#46.08159722222222 (与上面一样）

print(np.var(x,ddof=1))
#48.08514492753623
print(np.sum((x - np.mean(x)) **2) / (x.size -1))
#48.08514492753623

print(np.var(x,axis=0))
# [ 6.5 22.8 58.2 45.2  8.5 40.2]
print(np.var(x,axis=1))
# [25.9 41.8 69.6 17.7]
#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
x = [1, 2, 3, 4, 5]
print(np.var(x)) #2.0  方差：分母是n！
print(np.cov(x)) #2.5  样本方差：分母是n-1！ np.cov(x)等同于np.vax(x,ddof=1)
#在numpy中，将x的每一行视作一个独立的变量，因此这里一共有4个3维的变量，因此将会输出一个4*4的协方差矩阵 ,其中对角线元素是每个维度的方差，非对角线上的元素则是不同维度间的协方差。
x=np.array([[1 ,5 ,6],
            [4 ,3 ,9],
            [4 ,2 ,9],
            [4 ,7 ,2]])
print(np.cov(x))
# [[ 7.   4.5  4.  -0.5]
#  [ 4.5 10.3 11.5 -7.2]
#  [ 4.  11.5 13.  -8.5]
#  [-0.5 -7.2 -8.5  6.3]]

#把前2行单独拿出来单独看
x = [1,5,6]
y = [4,3,9]
print(np.cov(x,y))
# [[ 7.   4.5]
#  [ 4.5 10.3]]

#注意：直接输入np.cov(x,y)会得到一个样本协方差矩阵(分母为n-1,不是n！)，并不是我们想象的一个值:Cov(x,y)=E((x-E(x))*(y-E(y))=E(xy)-E(x)E(y),若要得到该值，需要用以下复杂的写法：
z = np.mean((x - np.mean(x)) * (y - np.mean(y)))
print(z) #3.0
#numpy设计者这么设计，可见在实际应用中，样本协方差比协方差更实用，样本协方差矩阵比一个样本协方差值更 实用
#——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#相关系数矩阵:np.corrcoef(x,y)
x, y = np.random.randint(0,30, size=(2,5))  #因为左边是2个变量，所以size的第一个参数必须为2！
print(x)#[ 9 12  9 16  7]
print(y)#[29 26 20 21 14]
print(np.corrcoef(x,y))
# [[1.  0.3]
#  [0.3 1. ]]

#注意：np.corrcoef(x,y)只能算2个数组的相关系数，作用很有限！计算np.corrcoef(x,y,z)将报错！
#————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————#
#numpy.digitize(x, bins, right=False)
#函数功能：返回一个和x形状相同的数据，返回值中的元素为对应x位置的元素落在bins中区间的索引号。
x = np.array([0.2, 6.4, 3.0, 1.6])
bins = np.array([0.0, 1.0, 2.5, 4.0, 10.0])
inds = np.digitize(x, bins)
print(inds)
# [1 4 3 2]

课后作业：计算给定数组中每行的最大值。

x = np.random.randint(0, 20, size=(3,5))
print(x)
# [16 18 18  9  6]
#  [ 7 15  6 18 18]
#  [10  6 11  9  8]]
print(np.amax(x,axis=1))
# [18 18 11]

weixin_43697982

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
十一月组队学习：numpy统计相关

numpy中关于统计的各种函数今天的内容比较简单：以下x均为数组（一维或以上）整体内容：1.最大值：np.max(x,axis=None)2.最小值：np.min(x,axis=None)3.极差：np.ptp(x,axi=Nones)4.分位数：np.percentile(x,分位数，axis=None)，分位数可以是一个列表，如[0,25,75]5.中位数：np.median(x,axis=None) 与 np.percentile(x,50,axis)等价6.均值：np.mean(x,
复制链接

扫一扫