AI写Python代码进行数据分析

国内AI大语言模型写代码的能力比预期好多了,准确且出错率低。本次用的AI大语言模型为智谱清言。活动链接:DateWhale微信公众号

一、详细处理内容如下:

1.将四个Excel进行合并

2.在合并的文件中提取湖南地区的数据

3.将湖南地区的数据中,部分指标分别加总求该地区的和。指标包括:销售额、数量、利润

二、Prompt参考教程如下:

假设你是最懂数据处理的专家,take the breath,let’s think step by step。帮我写一个python脚本来执行以下两个任务:
1.汇总:脚本应该遍历当前文件夹中的所有Excel文件,并将它们的内容汇总到一个新的Excel文件中。第一行需要在汇总的表格中,每行数据需要添加一个新列“表格名”,以标识该数据来自哪个原始表格。完成后,请将这个新的Excel文件保存在当前目录下,并命名为“汇总”。
2.统计:在“汇总”文件中,除了上述汇总内容,还请添加一个新的工作表。在这个新工作表中,我需要统计湖南地区办公用品类别的总销售额、总数量和总利润。为您参考,我上传了一个示例表格,其中包含了类似的数据格式和内容。
当前文件夹中其中一个表格数据如下所示:
行 ID 订单 ID 订单日期 发货日期 邮寄方式 客户 ID 客户名称 细分 城市 省/自治区 国家/地区 地区 产品 ID 类别 子类别 产品名称 销售额 数量 折扣 利润
11 CN-2018-4195213 2018/12/22 2018/12/24 二级 谢雯-21700 谢雯 小型企业 榆林 陕西 中国 西北 技术-设备-10000001 技术 设备 爱普生 计算器, 耐用 434.28 2 0 4.2
44 CN-2018-2932548 2018/5/17 2018/5/22 二级 唐婉-21385 唐婉 小型企业 南昌 江西 中国 华东 办公用-收纳-10004212 办公用品 收纳具 Fellowes 锁柜, 蓝色 1935.08 2 0 0
 

三、具体Python代码如下:

import pandas as pd
import os

#将18-21年订单合并
os.chdir('D:\\hebing\\pythonProject')
excel_files = [file for file in os.listdir() if file.endswith('.xlsx')]

frames = []
for file in excel_files[:4]:
    df = pd.read_excel(file)
    frames.append(df)

combined_df = pd.concat(frames, ignore_index=True)
combined_df.to_excel('combined_file.xlsx', index=False)

#对合并后湖南地区的数据进行处理

# 加载Excel文件
file_path = 'combined_file.xlsx'
try:
    df = pd.read_excel(file_path)
except FileNotFoundError:
    print(f"未找到文件:'{file_path}'。")
    exit()
except Exception as e:
    print(f"读取Excel文件时发生错误:{e}")
    exit()

# 找到列名为“省/自治区”的列
if '省/自治区' in df.columns:
    region_column = df['省/自治区']
else:
    print("未找到名为'省/自治区'的列。")
    exit()

# 筛选出“地区”这一列填写的是“湖南”的所有行
hunan_rows = region_column == '湖南'

# 删除“地区”不为“湖南”的所有行
df = df[hunan_rows]

# 保存处理后的数据到新的Excel文件
output_file_path = 'processed_file.xlsx'
try:
    df.to_excel(output_file_path, index=False)
    print(f"处理后的数据已保存到'{output_file_path}'。")
except Exception as e:
    print(f"保存Excel文件时发生错误:{e}")

#对湖南地区的销售额、数量、利润进行汇总计算

# Excel文件路径
file_path = 'processed_file.xlsx'
# 读取Excel文件
df = pd.read_excel(file_path)
# 确保“销售额”、“数量”和“利润”列存在
required_columns = ['销售额', '数量', '利润']
missing_columns = [col for col in required_columns if col not in df.columns]
if missing_columns:
    print(f"缺少以下列:{missing_columns}")
    exit()
# 计算每列的总和
summary = df[['销售额', '数量', '利润']].sum()
# 将总和添加到最后一行
df.loc[len(df.index)] = summary
# 保存处理后的数据到新的Excel文件
output_file_path = 'homework1.xlsx'  # 可以修改为新的文件名
try:
    df.to_excel(output_file_path, index=False)
    print(f"处理后的数据已保存到'{output_file_path}'。")
except Exception as e:
    print(f"保存Excel文件时发生错误:{e}")
  • 18
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值