再来一批Python pandas高频操作！

最新推荐文章于 2024-03-05 10:39:02 发布

Python妙妙屋

最新推荐文章于 2024-03-05 10:39:02 发布

阅读量327

点赞数

文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/y1282037271/article/details/129043969

版权

Pandas 是数据科学中的核心库，本文列举了20个常用操作，包括：pd.read_csv()、df.describe()、df.info()、df.plot()等。通过这些操作，可以进行数据读取、统计分析、绘图、数据筛选、处理缺失值和数据重塑，提升数据处理效率。掌握这些技巧，将助你在数据科学项目中更加得心应手。

摘要由CSDN通过智能技术生成

Pandas 是数据科学社区中使用最广泛的库之一，它是一个强大的工具，可以进行数据操作、清理和分析。

本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容，到本文结束时，你会深入了解如何使用 Pandas 并使数据科学工作流程更高效。

1、pd.read_csv ()

read_csv用于读取CSV(逗号分隔值)文件并将其转换为pandas DataFrame。

 import pandas as pd
 df = pd.read_csv('Popular_Baby_Names.csv')

在这个例子中，pd.read_csv函数读取文件' data.csv '并将其转换为一个DataFrame，它有许多选项，如sep, header, index_col, skiprows, na_values等。

 df = pd.read_csv('Popular_Baby_Names.csv', sep=';', header=0, index_col=0, skiprows=5, na_values='N/A')

这个例子读取CSV文件data.csv，使用;作为分隔符，第一行作为标题，第一列作为索引，跳过前5行，将N/ a替换为NaN。

2、df.describe ()

df.describe()方法用于生成DataFrame的各种特征的汇总统计信息。它返回一个新的DataFrame，其中包含原始DataFrame中每个数值列的计数、平均值、标准差、最小值、第25百分位、中位数、第75百分位和最大值。

 print(df.describe())

通过向方法传递适当的参数，还可以包括或排除某些列，比如排除非数值列。

 df.describe(include='all') # include all columns

 df.describe(exclude='number') # exclude numerical columns

3、df.info ()

df.info()可以获得DataFrame的简明摘要，包括每列中非空值的数量、每列的数据类型以及DataFrame的内存使用情况。

 print(df.info())

4、df.plot ()

df.plot()可以从DataFrame创建各种类型的图。默认情况下，它在DataFrame中创建所有数值列的线状图。但是你也可以通过参数kind来指定你想要创建的图形类型。可选选项有line、bar、barh、hist、box、kde、density、area、pie、scatter和hexbin。

在下面的例子中，将使用.plot()方法绘制数值变量和分类变量。对于分类变量，将绘制条形图和饼状图，对于数值变量，将绘制箱形图。

 df['Gender'].value_counts().plot(kind='bar')

 df['Gender'].value_counts().plot(kind='pie')

 df['Count'].plot(kind='box')

它还支持许多其他选项，如title,xlabel,ylabel<

最低0.47元/天解锁文章

Python妙妙屋

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫