删除重复值drop_duplicates()

最新推荐文章于 2024-02-19 20:38:11 发布

with_still_water

最新推荐文章于 2024-02-19 20:38:11 发布

阅读量5.2k

点赞数 2

分类专栏： python 文章标签： python drop_duplicates() 删除重复值

本文链接：https://blog.csdn.net/with_still_water/article/details/101678426

版权

python 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

处理重复值, 使用drop_duplicates()方法;
其具体用法是: dataframe.drop_duplicates(subset=‘列1’) 表示删除dataframe中列1中有重复的值所在的行
并保留重复值中第一行

import pandas as pd

data_list = pd.DataFrame([['张三','男',27,180,20000,1],['赵五','男',30,177,24000,0.92],
                          ['刘六','男',31,168,6000,0.45],['韩美','女',25,165,6000,0.90],
                          ['韩美','女',30,156,8000,0.44],['帧','女',39,165,20000,0.45]],
                         columns = ['姓名','性别','年龄','身高','月薪','相亲受青睐系数'],)

# 创建二维列表
print(data_list)

输出结果: 
   姓名 性别  年龄 身高  月薪  相亲受青睐系数
0  张三  男  27  180  20000     1.00
1  赵五  男  30  177  24000     0.92
2  刘六  男  31  168   6000     0.45
3  韩美  女  25  165   6000     0.90
4  韩美  女  30  156   8000     0.44
5   帧  女  39  165  20000     0.45


```python



amend = data_list.drop_duplicates(subset='姓名') # 删除"姓名"这一列中有重复值的行,并默认保留重复值中的第一行
print(amend)

输出结果:
姓名性别年龄身高月薪相亲受青睐系数
0 张三男 27 180 20000 1.00
1 赵五男 30 177 24000 0.92
2 刘六男 31 168 6000 0.45
3 韩美女 25 165 6000 0.90
5 帧女 39 165 20000 0.45

modify = data_list.drop_duplicates(subset=['姓名','相亲受青睐系数']) # 只有设置的这2列有同时重复值才删除
print(modify)

输出结果:
姓名性别年龄身高月薪相亲受青睐系数
0 张三男 27 180 20000 1.00
1 赵五男 30 177 24000 0.92
2 刘六男 31 168 6000 0.45
3 韩美女 25 165 6000 0.90
4 韩美女 30 156 8000 0.44
5 帧女 39 165 20000 0.45