【python】对excel数据进行去重

最新推荐文章于 2024-05-01 03:45:31 发布

果断来下载

最新推荐文章于 2024-05-01 03:45:31 发布

阅读量684

点赞数 2

分类专栏： python 文章标签： python excel 开发语言

本文链接：https://blog.csdn.net/weixin_44557370/article/details/132189800

版权

python 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

最近用excel在单列进行去重，数据大于2W时候，卡的的不行，也达不到我最终想要的结果（大概率excel水平太渣导致…）所以只能靠python pandas来救命了,直接上例子

首先准备好一个包含重复数据excel表格
然后我们可以看见文件里面包含一些重复的数据…
在这里插入图片描述

然后上“热菜”直接可用代码
下面展示一些 内联代码片。


import pandas as pd
import os

# 检查文件是否存在
file_path = 'Duplicate.xlsx'  # 你的excel,放在py文件相同目录
if not os.path.exists(file_path):
    raise FileNotFoundError('文件不存在')

# 读取Excel文件
df = pd.read_excel(file_path)

# 筛选出第一列中不重复的数据
non_duplicate_data = df.iloc[:, 0].drop_duplicates().reset_index(drop=True)

# 创建一个与筛选后的数据长度一致的新列，并将筛选后的数据赋值给新列
df['new_column'] = non_duplicate_data

# 保存修改后的新生成Excel文件
df.to_excel('data_modified.xlsx', index=False)