处理重复值, 使用drop_duplicates()方法;
其具体用法是: dataframe.drop_duplicates(subset=‘列1’) 表示删除dataframe中列1中有重复的值所在的行
并保留重复值中第一行
import pandas as pd
data_list = pd.DataFrame([['张三','男',27,180,20000,1],['赵五','男',30,177,24000,0.92],
['刘六','男',31,168,6000,0.45],['韩美','女',25,165,6000,0.90],
['韩美','女',30,156,8000,0.44],['帧','女',39,165,20000,0.45]],
columns = ['姓名','性别','年龄','身高','月薪','相亲受青睐系数'],)
# 创建二维列表
print(data_list)
输出结果:
姓名 性别 年龄 身高 月薪 相亲受青睐系数
0 张三 男 27 180 20000 1.00
1 赵五 男 30 177 24000 0.92
2 刘六 男 31 168 6000 0.45
3 韩美 女 25 165 6000 0.90
4 韩美 女 30 156 8000 0.44
5 帧 女 39 165 20000 0.45
```python
amend = data_list.drop_duplicates(subset='姓名') # 删除"姓名"这一列中有重复值的行,并默认保留重复值中的第一行
print(amend)
输出结果:
姓名 性别 年龄 身高 月薪 相亲受青睐系数
0 张三 男 27 180 20000 1.00
1 赵五 男 30 177 24000 0.92
2 刘六 男 31 168 6000 0.45
3 韩美 女 25 165 6000 0.90
5 帧 女 39 165 20000 0.45
modify = data_list.drop_duplicates(subset=['姓名','相亲受青睐系数']) # 只有设置的这2列有同时重复值才删除
print(modify)
输出结果:
姓名 性别 年龄 身高 月薪 相亲受青睐系数
0 张三 男 27 180 20000 1.00
1 赵五 男 30 177 24000 0.92
2 刘六 男 31 168 6000 0.45
3 韩美 女 25 165 6000 0.90
4 韩美 女 30 156 8000 0.44
5 帧 女 39 165 20000 0.45