Python中的Pandas数据处理与分析

PY178

已于 2024-06-03 21:53:17 修改

阅读量467

点赞数 7

分类专栏： python 文章标签： python 开发语言

于 2024-06-03 21:52:43 首次发布

本文链接：https://blog.csdn.net/weixin_55100524/article/details/139425456

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Pandas 是 Python 生态系统中用于数据处理与分析的核心库之一。它提供了高效且便捷的数据结构，能够处理各类数据操作，如数据清洗、转换、分析等。本文将深入探讨 Pandas 的基本功能和高级特性，涵盖数据导入与导出、数据预处理、数据操作、数据分析和可视化等内容。

一、Pandas 数据结构

Pandas 主要提供两种数据结构：Series 和 DataFrame。

1. Series

Series 是一种类似于一维数组的对象，它由一组数据（各种 NumPy 数据类型）以及一组与之相关的数据标签（即索引）组成。

import pandas as pd # 创建一个简单的 Series data = pd.Series([1, 2, 3, 4, 5]) print(data)

2. DataFrame

DataFrame 是一个表格型的数据结构，它包含有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。

# 创建一个简单的 DataFrame data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'San Francisco', 'Los Angeles'] } df = pd.DataFrame(data) print(df)

二、数据导入与导出

Pandas 支持从多种文件格式导入和导出数据，如 CSV、Excel、SQL、JSON 等。

1. CSV 文件

导入 CSV 文件

df = pd.read_csv('data.csv')

导出 CSV 文件

df.to_csv('output.csv', index=False)

2. Excel 文件

导入 Excel 文件

df = pd.read_excel('data.xlsx')

导出 Excel 文件

df.to_excel('output.xlsx', index=False)

3. JSON 文件

导入 JSON 文件

df = pd.read_json('data.json')

导出 JSON 文件

df.to_json('output.json')

三、数据预处理

数据预处理是数据分析的重要步骤之一，包括数据清洗、缺失值处理、重复值处理等。

1. 数据清洗

删除空值

df.dropna(inplace=True)

填充空值

df.fillna(value=0, inplace=True)

2. 处理重复值

检测重复值

duplicates = df.duplicated() print(duplicates)

删除重复值

df.drop_duplicates(inplace=True)

3. 数据转换

更改数据类型

df['Age'] = df['Age'].astype(int)

应用函数转换数据

df['Age'] = df['Age'].apply(lambda x: x + 1)

四、数据操作

Pandas 提供了丰富的数据操作功能，包括数据选取、过滤、合并、分组等。

1. 数据选取

选取列

names = df['Name']

选取行

first_row = df.iloc[0]

条件选取

adults = df[df['Age'] > 18]

2. 数据过滤

filtered_df = df[df['City'] == 'New York']

3. 数据合并

合并两个 DataFrame

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}) df2 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'C': ['C0', 'C1', 'C2']}) merged_df = pd.merge(df1, df2, on='A')

数据拼接

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}) df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) concat_df = pd.concat([df1, df2])

4. 数据分组

分组计算

grouped = df.groupby('City').mean()

分组应用自定义函数

grouped = df.groupby('City').apply(lambda x: x.sum())

五、数据分析

Pandas 提供了多种数据分析方法，可以对数据进行描述性统计分析、相关性分析等。

1. 描述性统计分析

description = df.describe()

2. 相关性分析

correlation = df.corr()

六、数据可视化

虽然 Pandas 本身支持基本的绘图功能，但通常会与 Matplotlib 和 Seaborn 等库结合使用，进行更复杂的可视化操作。

1. 基本绘图

df.plot(kind='bar')

2. 与 Matplotlib 结合

import matplotlib.pyplot as plt df.plot(kind='line') plt.show()

3. 与 Seaborn 结合

import seaborn as sns sns.barplot(x='City', y='Age', data=df) plt.show()

七、实战案例：泰坦尼克号数据分析

下面，我们通过一个实战案例，展示 Pandas 在数据分析中的应用。数据集使用经典的泰坦尼克号乘客数据集。

import pandas as pd # 读取数据 df = pd.read_csv('titanic.csv') # 查看数据基本信息 print(df.info()) # 数据预处理 df.drop(['Cabin'], axis=1, inplace=True) # 删除 Cabin 列 df.fillna({'Age': df['Age'].median(), 'Embarked': df['Embarked'].mode()[0]}, inplace=True) # 填充缺失值 # 数据分析 survived = df['Survived'].value_counts() print(survived) # 性别对比 sex_survived = df.groupby('Sex')['Survived'].mean() print(sex_survived) # 年龄分布 df['Age'].hist() plt.xlabel('Age') plt.ylabel('Count') plt.title('Age Distribution') plt.show() # 与 Seaborn 结合分析 sns.barplot(x='Sex', y='Survived', data=df) plt.title('Survival Rate by Sex') plt.show() # 按 Pclass 分组 pclass_survived = df.groupby('Pclass')['Survived'].mean() print(pclass_survived) sns.barplot(x='Pclass', y='Survived', data=df) plt.title('Survival Rate by Pclass') plt.show()

结论

通过以上内容，可以看出 Pandas 是一个功能强大的数据处理和分析库，它简化了数据操作的复杂性，提高了数据分析的效率。掌握 Pandas 的基本和高级功能，对于数据科学家和分析师来说，是一项必备技能。希望本文能够帮助你更好地理解和应用 Pandas 进行数据分析。

参考文献

Pandas 官方文档
Matplotlib 官方文档
Seaborn 官方文档

PY178

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python中的Pandas数据处理与分析

Pandas 是 Python 生态系统中用于数据处理与分析的核心库之一。它提供了高效且便捷的数据结构，能够处理各类数据操作，如数据清洗、转换、分析等。本文将深入探讨 Pandas 的基本功能和高级特性，涵盖数据导入与导出、数据预处理、数据操作、数据分析和可视化等内容。Pandas 主要提供两种数据结构：和。是一种类似于一维数组的对象，它由一组数据（各种 NumPy 数据类型）以及一组与之相关的数据标签（即索引）组成。是一个表格型的数据结构，它包含有序的列，每列可以是不同的值类型（数值、字符
复制链接

扫一扫