【Python处理excel】使用Python和Pandas处理Excel文件并添加分类列

William数据分析

于 2024-07-30 20:52:22 发布

阅读量492

点赞数 4

分类专栏： python 文章标签： python pandas excel

本文链接：https://blog.csdn.net/weixin_45933029/article/details/140806335

版权

python 专栏收录该内容

46 篇文章 1 订阅

订阅专栏

【Python处理excel，超详细注释】

在数据分析和处理过程中，经常需要对Excel文件进行操作。本文将介绍如何使用Python和Pandas库来读取Excel文件，并根据两列数据的比较结果添加一个新的分类列。

首先，我们需要导入必要的库：

接下来，我们定义要读取的Excel文件的文件路径：

然后，我们将Excel文件读取到pandas DataFrame中：

# 导入必要的库
import pandas as pd
import os

# 定义要读取的Excel文件的文件路径
file_path = r"D:\William\Projects\python\获取股票数据\股票数据.xlsx"

# 将Excel文件读取到pandas DataFrame中
df = pd.read_excel(file_path)

接下来，我们向DataFrame中添加一个新列，名为"分类"（Classification）。该列的值是通过比较"累计持股季度数"（Cumulative Holding Quarters）和"平均累计持股季度数"（Average Cumulative Holding Quarters）列来确定的。如果"累计持股季度数"大于"平均累计持股季度数"，则"分类"列的值为"战略型"（Strategic）；否则，"分类"列的值为"财务型"（Financial）。

df['分类'] = df.apply(lambda row: '战略型' if row['累计持股季度数'] > row['平均累计持股季度数'] else '财务型', axis=1)

最后，我们使用pandas的ExcelWriter类将DataFrame写回到Excel文件中。我们可以指定用于写入Excel文件的引擎、模式和操作现有工作表的方式。在本例中，我们使用openpyxl引擎，以追加模式写入Excel文件，并覆盖现有工作表。

with pd.ExcelWriter(file_path, engine='openpyxl', mode='a', if_sheet_exists='overlay') as writer:
    sheet_name = list(writer.sheets.keys())[0]
    df['分类'].to_excel(writer, sheet_name=sheet_name, startcol=writer.sheets[sheet_name].max_column, index=False)

处理完成后，我们可以使用默认程序打开Excel文件，查看添加的分类列是否符合预期。

总之，本文介绍了如何使用Python和Pandas库来处理Excel文件并添加分类列。通过比较两列数据的大小，我们可以根据比较结果为每一行数据添加一个分类标签。这种方法可以帮助我们更好地理解和分析数据，并为决策提供更多的信息。

完整代码：

#读取excel进行处理，增加列
# 导入必要的库
import pandas as pd
import os

# 定义要读取的Excel文件的文件路径
file_path = r"股票数据.xlsx"

# 将Excel文件读取到pandas DataFrame中
df = pd.read_excel(file_path)

# 打印一条消息，表示处理已经开始
print('开始处理')

# 向DataFrame中添加一个新列，名为'分类'（Classification）
# 该列的值是通过比较'累计持股季度数'（Cumulative Holding Quarters）和'平均累计持股季度数'（Average Cumulative Holding Quarters）列来确定的
# 如果'累计持股季度数'大于'平均累计持股季度数'，则'分类'列的值为'战略型'（Strategic）
# 否则，'分类'列的值为'财务型'（Financial）
df['分类'] = df.apply(lambda row: '战略型' if row['累计持股季度数'] > row['平均累计持股季度数'] else '财务型', axis=1)

# 使用pandas的ExcelWriter类将DataFrame写回到Excel文件中
# 'engine'参数指定用于写入Excel文件的引擎（在本例中为openpyxl）
# 'mode'参数指定用于写入Excel文件的模式（在本例中为'a'，表示追加）
# 'if_sheet_exists'参数指定如果工作表已经存在时要执行的操作（在本例中为'overlay'，表示覆盖现有工作表）
with pd.ExcelWriter(file_path, engine='openpyxl', mode='a', if_sheet_exists='overlay') as writer:
    # 获取Excel文件中第一个工作表的名称
    sheet_name = list(writer.sheets.keys())[0]

    # 将'分类'列写入Excel文件中
    # 'sheet_name'参数指定要写入的工作表的名称
    # 'startcol'参数指定要写入的起始列（在本例中为工作表中的最后一列）
    # 'index'参数指定是否将DataFrame索引写入Excel文件中（在本例中为False）
    df['分类'].to_excel(writer, sheet_name=sheet_name, startcol=writer.sheets[sheet_name].max_column, index=False)

# 打印一条消息，表示处理已经完成
print('处理完成')

# 使用默认程序打开Excel文件
os.startfile(file_path)