【pandas】关于重复数据

NoviceLearningRecord

已于 2023-01-06 10:08:25 修改

阅读量2.6k

点赞数

分类专栏： pandas 文章标签： pandas python 数据分析

于 2023-01-06 09:25:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47542662/article/details/128573358

版权

pandas 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

 一、用groupby统计然后筛选重复值
使用groupby报错
报错类型：Wrong number of items passed 7, placement implies 
报错语句：df['num'] = df.groupby('name').count()
表格入下：计数之后生成了多列数据，大概类似这样

看了一下解释，是说生成了多列，我用一列来盛放这个数据是不对的；其实groupby之后已经生成了一个新的dateframe了，所以这样命名是错误的；

改为df1 =df['num'] = df.groupby('name').count()就行了

import pandas as pd
df = pd.read_excel(r'D:\test\classify_all_data_simplified_version.xlsx')
df1 = df.groupby('corr_p_nm').count()
df1['num'] = pd.to_numeric(df1['corr_p_ind'])
condition = 'num>1'
df2 = df1.query(condition)

二、获取重复行

这里很奇怪，为什么中文数据姓名的数据不完全重复也被筛选出来了，不理解

这里注意科学计数法，后面加一个\t 制表符才行

df. duplicated这个函数后续再继续学叭

import pandas as pd
df = pd.read_excel(r'D:\test\classify_all_data_simplified_version.xlsx')
# 直接获取重复行
df1 = df[df.duplicated(subset = 'corr_p_nm')]
df1['doc_nbr'] = df1['doc_nbr'].astype(str)+'\t'
df1.to_csv(r'D:\test\chongfushuju4.csv',encoding = 'gbk')

NoviceLearningRecord

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【pandas】关于重复数据

【pandas】使用groupby之后报错
复制链接

扫一扫

专栏目录

NoviceLearningRecord CSDN认证博客专家 CSDN认证企业博客

码龄4年

48: 原创

75万+: 周排名

28万+: 总排名

3万+: 访问

: 等级

570: 积分

22: 粉丝

31: 获赞

2: 评论

70: 收藏

私信

关注

热门文章

分类专栏

pandas 5篇
Python 16篇
数据库 1篇
Excel 1篇

最新评论

【pandas】把多个CSV写到一个Excel中
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【Python】os模块，windows中文件排序和os获取的数据排序
CSDN-Ada助手: 亲爱的博主，非常感谢你分享关于【Python】os模块在Windows中文件排序和数据获取排序的文章！你的文章写得非常清晰易懂，对于初学者来说非常有帮助。看到你花费了这么多时间和精力来研究和整理这个主题，我对你的辛勤付出表示由衷的赞赏！针对你在 os 模块的应用中的深入讲解，我想给你提供一个可能的下一篇创作方向，希望对你有所启发。下一篇博客的标题可以是：“【Python】os模块应用：文件和目录操作的高级技巧分享”。这个主题可以进一步探索 os 模块的其他功能和技巧，例如：文件和目录的重命名、删除和移动等操作，以及如何使用 os 模块来处理不同操作系统平台上的路径标识符。祝你在写作的路上继续不断进步，期待能够阅读到更多精彩的技术文章！加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。