pandas中的drop_duplicates和duplicated的应用

最新推荐文章于 2024-04-28 15:21:37 发布

大浪淘沙2023

最新推荐文章于 2024-04-28 15:21:37 发布

阅读量1.2k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/wxc20062006/article/details/103576343

版权

python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

在pandas中，duplicated和drop_duplicates函数用来对DateFrame来进行去重。

默认情况下，drop_duplicates只保留第一次出现的组合，如果需要保留最后一次出现的组合，需要使用keep='last'参数。

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import pandas as pd
from pandas import Series, DataFrame
from numpy import nan as NA
import numpy as np

data2 = DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
print (data2)
#duplicated, 返回布尔型，表示是否重复, 在使用duplicated和drop_duplicates去重时
print (data2.duplicated())
print (data2.drop_duplicates())
data2['v'] = range(7)
print (data2)
#保留第一个重复出现的组合
print (data2.drop_duplicates(['k1']))
#保留最后一个出现的组合
print (data2.drop_duplicates(['k1','k2'], keep='last'))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大浪淘沙2023

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas中的drop_duplicates和duplicated的应用

在pandas中，duplicated和drop_duplicates函数用来对DateFrame来进行去重。默认情况下，drop_duplicates只保留第一次出现的组合，如果需要保留最后一次出现的组合，需要使用keep='last'参数。#!/usr/bin/python# -*- coding: UTF-8 -*-import pandas as pdfrom pan...
复制链接

扫一扫