Pandas 是数据科学社区中使用最广泛的库之一,它是一个强大的工具,可以进行数据操作、清理和分析。
本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容,到本文结束时,你会深入了解如何使用 Pandas 并使数据科学工作流程更高效。
1、pd.read_csv ()
read_csv用于读取CSV(逗号分隔值)文件并将其转换为pandas DataFrame。
import pandas as pd df = pd.read_csv('Popular_Baby_Names.csv')
在这个例子中,pd.read_csv函数读取文件' data.csv '并将其转换为一个DataFrame,它有许多选项,如sep, header, index_col, skiprows, na_values等。
df = pd.read_csv('Popular_Baby_Names.csv', sep=';', header=0, index_col=0, skiprows=5, na_values='N/A')
这个例子读取CSV文件data.csv,使用;作为分隔符,第一行作为标题,第一列作为索引,跳过前5行,将N/ a替换为NaN。
2、df.describe ()
df.describe()方法用于生成DataFrame的各种特征的汇总统计信息。它返回一个新的DataFrame,其中包含原始DataFrame中每个数值列的计数、平均值、标准差、最小值、第25百分位、中位数、第75百分位和最大值。
print(df.describe())
通过向方法传递适当的参数,还可以包括或排除某些列,比如排除非数值列。
df.describe(include='all') # include all columns
df.describe(exclude='number') # exclude numerical columns
3、df.info ()
df.info()可以获得DataFrame的简明摘要,包括每列中非空值的数量、每列的数据类型以及DataFrame的内存使用情况。
print(df.info())
4、df.plot ()
df.plot()可以从DataFrame创建各种类型的图。默认情况下,它在DataFrame中创建所有数值列的线状图。但是你也可以通过参数kind来指定你想要创建的图形类型。可选选项有line、bar、barh、hist、box、kde、density、area、pie、scatter和hexbin。
在下面的例子中,将使用.plot()方法绘制数值变量和分类变量。对于分类变量,将绘制条形图和饼状图,对于数值变量,将绘制箱形图。
df['Gender'].value_counts().plot(kind='bar')
df['Gender'].value_counts().plot(kind='pie')
df['Count'].plot(kind='box')
它还支持许多其他选项,如title,
xlabel,
ylabel<