AI写Python代码进行数据分析

最新推荐文章于 2024-06-11 00:35:00 发布

weixin_53869434

最新推荐文章于 2024-06-11 00:35:00 发布

阅读量1.3k

点赞数 18

文章标签：人工智能 python 数据分析 AIGC excel

本文链接：https://blog.csdn.net/weixin_53869434/article/details/135222873

版权

国内AI大语言模型写代码的能力比预期好多了，准确且出错率低。本次用的AI大语言模型为智谱清言。活动链接：DateWhale微信公众号

一、详细处理内容如下：

1.将四个Excel进行合并

2.在合并的文件中提取湖南地区的数据

3.将湖南地区的数据中，部分指标分别加总求该地区的和。指标包括：销售额、数量、利润

二、Prompt参考教程如下：

假设你是最懂数据处理的专家，take the breath，let’s think step by step。帮我写一个python脚本来执行以下两个任务：
1.汇总：脚本应该遍历当前文件夹中的所有Excel文件，并将它们的内容汇总到一个新的Excel文件中。第一行需要在汇总的表格中，每行数据需要添加一个新列“表格名”，以标识该数据来自哪个原始表格。完成后，请将这个新的Excel文件保存在当前目录下，并命名为“汇总”。
2.统计：在“汇总”文件中，除了上述汇总内容，还请添加一个新的工作表。在这个新工作表中，我需要统计湖南地区办公用品类别的总销售额、总数量和总利润。为您参考，我上传了一个示例表格，其中包含了类似的数据格式和内容。
当前文件夹中其中一个表格数据如下所示：
行 ID 订单 ID 订单日期发货日期邮寄方式客户 ID 客户名称细分城市省/自治区国家/地区地区产品 ID 类别子类别产品名称销售额数量折扣利润
11 CN-2018-4195213 2018/12/22 2018/12/24 二级谢雯-21700 谢雯小型企业榆林陕西中国西北技术-设备-10000001 技术设备爱普生计算器, 耐用 434.28 2 0 4.2
44 CN-2018-2932548 2018/5/17 2018/5/22 二级唐婉-21385 唐婉小型企业南昌江西中国华东办公用-收纳-10004212 办公用品收纳具 Fellowes 锁柜, 蓝色 1935.08 2 0 0

三、具体Python代码如下：

import pandas as pd
import os

#将18-21年订单合并
os.chdir('D:\\hebing\\pythonProject')
excel_files = [file for file in os.listdir() if file.endswith('.xlsx')]

frames = []
for file in excel_files[:4]:
    df = pd.read_excel(file)
    frames.append(df)

combined_df = pd.concat(frames, ignore_index=True)
combined_df.to_excel('combined_file.xlsx', index=False)

#对合并后湖南地区的数据进行处理

# 加载Excel文件
file_path = 'combined_file.xlsx'
try:
    df = pd.read_excel(file_path)
except FileNotFoundError:
    print(f"未找到文件：'{file_path}'。")
    exit()
except Exception as e:
    print(f"读取Excel文件时发生错误：{e}")
    exit()

# 找到列名为“省/自治区”的列
if '省/自治区' in df.columns:
    region_column = df['省/自治区']
else:
    print("未找到名为'省/自治区'的列。")
    exit()

# 筛选出“地区”这一列填写的是“湖南”的所有行
hunan_rows = region_column == '湖南'

# 删除“地区”不为“湖南”的所有行
df = df[hunan_rows]

# 保存处理后的数据到新的Excel文件
output_file_path = 'processed_file.xlsx'
try:
    df.to_excel(output_file_path, index=False)
    print(f"处理后的数据已保存到'{output_file_path}'。")
except Exception as e:
    print(f"保存Excel文件时发生错误：{e}")

#对湖南地区的销售额、数量、利润进行汇总计算

# Excel文件路径
file_path = 'processed_file.xlsx'
# 读取Excel文件
df = pd.read_excel(file_path)
# 确保“销售额”、“数量”和“利润”列存在
required_columns = ['销售额', '数量', '利润']
missing_columns = [col for col in required_columns if col not in df.columns]
if missing_columns:
    print(f"缺少以下列：{missing_columns}")
    exit()
# 计算每列的总和
summary = df[['销售额', '数量', '利润']].sum()
# 将总和添加到最后一行
df.loc[len(df.index)] = summary
# 保存处理后的数据到新的Excel文件
output_file_path = 'homework1.xlsx'  # 可以修改为新的文件名
try:
    df.to_excel(output_file_path, index=False)
    print(f"处理后的数据已保存到'{output_file_path}'。")
except Exception as e:
    print(f"保存Excel文件时发生错误：{e}")