更多资料获取
📚 个人网站:ipengtao.com
在数据分析和数据预处理过程中,了解数据集的基本统计信息是非常重要的。pandas
库提供了一个名为 describe()
的函数,可以生成数据集的描述性统计信息。本文将详细介绍 describe()
函数的各种参数及其用法,帮助更好地理解和应用这一功能。
describe()
函数概述
describe()
函数是 pandas
中的一个统计方法,用于生成数据集的基本描述性统计信息,包括均值、标准差、最小值、最大值、25%、50% 和 75% 等。默认情况下,它只会统计数值型数据的统计信息,对于非数值型数据会输出计数、唯一值数、出现频率最高的值和频率等。
参数详解
1 percentiles
参数
percentiles
参数用于指定所需的百分位数,默认值为 [.25, .5, .75]
,即输出 25%,50% 和 75% 的百分位数。
import pandas as pd
data = {
'A': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)
# 指定输出 10%,50% 和 90% 的百分位数
print(df.describe(percentiles=[.1, .5, .9]))
2 include
参数
include
参数用于指定要统计的数据类型,可选值为 all
、number
和 object
,默认为 None
。如果设置为 all
,则会统计所有数据类型;如果设置为 number
,则只会统计数值型数据;如果设置为 object
,则只会统计非数值型数据。
import pandas as pd
data = {
'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)
# 只统计数值型数据
<