一、统计分析
1.描述性统计
min | 最小值 |
max | 最大值 |
mean | 平均值 |
median | 中位数 |
std | 标准差 |
var | 方差 |
cov | 协方差 |
sem | 标准误差 |
mode | 众数 |
skew | 偏度 |
kurt | 峰度 |
quantile | 四分位数 |
count | 非空值数目 |
mad | 平均绝对离差 |
import numpy as np
import pandas as pd
df=pd.DataFrame(np.arange(16).reshape(4,4),columns=['a','b','c','d'])
df
>
a b c d
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
3 12 13 14 15
df.min()#每一列的最小值
>
a 0
b 1
c 2
d 3
dtype: int32
df.max()#每一列的最大值
>
a 12
b 13
c 14
d 15
dtype: int32
df.std()
>
a 5.163978
b 5.163978
c 5.163978
d 5.163978
dtype: float64
describe方法:一次性得出DataFrame主要特征的统计:
df.describe()
>
a b c d
count 4.000000 4.000000 4.000000 4.000000
mean 6.000000 7.000000 8.000000 9.000000
std 5.163978 5.163978 5.163978 5.163978
min 0.000000 1.000000 2.000000 3.000000
25% 3.000000 4.000000 5.000000 6.000000
50% 6.000000 7.000000 8.000000 9.000000
75% 9.000000 10.000000 11.000000 12.000000
max 12.000000 13.000000 14.000000 15.000000
对于category类,describe方法返回四种特征:
count | 类别计数 |
unique | 不重复类别个数 |
top | 个数最多的类别 |
freq | 个数最多的类别的数量 |