如何将Excel工作表中数据转换成pandas中dateframe的形式

yoggie尤

于 2024-10-01 10:30:00 发布

阅读量63

点赞数 3

文章标签： excel pandas

本文链接：https://blog.csdn.net/yjq125931902/article/details/142640249

版权

在日常数据分析工作中，Excel表格是我们经常接触的数据源之一。然而，当我们需要进行更复杂的分析时，使用Python中的Pandas库可以大大提高效率。因此，学会将Excel工作表中的数据转换为Pandas DataFrame是每个数据分析师必备的技能之一。

准备环境

首先确保你的Python环境中安装了pandas和openpyxl这两个库。pandas是一个强大的数据分析库，而openpyxl则是用来读取和写入Excel文件的库。如果你还没有安装这两个库，可以通过以下命令安装：

pip install pandas openpyxl

实际操作步骤

接下来，我们将通过一个具体的例子，展示如何将Excel表格中的数据导入到DataFrame中，并进行简单的数据分析。

假设我们有一个名为data.xlsx的Excel文件，其中包含以下数据：

Name	Age	Score
Alice	22	88
Bob	25	92
Carol	27	76

步骤1: 导入库和数据

import pandas as pd

# 加载Excel文件中的数据
df = pd.read_excel('data.xlsx', engine='openpyxl')
print(df)

运行上述代码后，你会看到以下输出结果：

      Name  Age  Score
0    Alice   22     88
1      Bob   25     92
2    Carol   27     76

这样，我们就成功地将Excel文件中的数据加载到了一个Pandas DataFrame对象中。

步骤2: 数据预览与基本信息检查

在开始对数据进行操作之前，我们通常会先查看数据的基本信息，如列名、数据类型等。这有助于我们更好地了解数据集，为后续分析打下基础。

# 查看数据集前几行
print(df.head())

# 显示所有列的信息
print(df.info())

执行完以上代码后，你将会看到类似这样的输出：

      Name  Age  Score
0    Alice   22     88
1      Bob   25     92
2    Carol   27     76

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Name    3 non-null      object
 1   Age     3 non-null      int64
 2   Score   3 non-null      int64
dtypes: int64(2), object(1)
memory usage: 256.0+ bytes
None

从上面的信息我们可以看出，数据集中有三列，分别表示姓名、年龄和分数。其中，姓名一列的数据类型为object（默认为字符串），而年龄和分数则为整数类型。

步骤3: 数据清洗与预处理

实际工作中，数据往往不会那么完美，可能会存在缺失值、错误的数据类型等问题。此时，我们需要进行一定的数据清洗工作，以确保后续分析的有效性。

处理缺失值

# 检查是否有缺失值
print(df.isnull().sum())

# 假设Name列中存在缺失值，可以考虑删除含有缺失值的行
df.dropna(subset=['Name'], inplace=True)

# 或者填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

转换数据类型

有时候，Excel中的某些列可能被误认为是文本类型，而不是数字类型。这时，我们需要手动将其转换为正确的数据类型。

# 将Score列的数据类型转换为浮点型
df['Score'] = df['Score'].astype(float)

步骤4: 数据探索与分析

当数据准备好后，我们就可以开始对其进行探索性分析了。这里，我们简单地计算一下年龄和分数的平均值。

# 计算平均年龄
average_age = df['Age'].mean()
print(f'平均年龄: {average_age:.2f}')

# 计算平均分数
average_score = df['Score'].mean()
print(f'平均分数: {average_score:.2f}')