python利用Counter模块快速查找重复数据

最新推荐文章于 2024-01-13 09:58:56 发布

python小工具

最新推荐文章于 2024-01-13 09:58:56 发布

阅读量1.1k

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_45144170/article/details/109525499

版权

在上一篇中，我介绍了collections中的counter模块，并简单介绍了其使用。这一篇中，我将通过一个例子展示其如何在pandas中快速查找某列中的重复数据。

>>> import pandas as pd
>>> import numpy as np
>>> df = pd.read_excel('D:/2.xlsx')
>>> df
     姓名    电话
0    lb  1232
1    lc  3222
2    ac  1222
3    ah  1433
4    eg  1222
5    fs  1232
6    ee  4333
7    rr  1111
8   afa  1222
9    fa  3232
10   fg  3232

我将通过代码展示如何快速查找电话中重复的电话号码。

>>> from collections import Counter
>>> phones = Counter(df['电话'])
# 通过调用most_common()方法，能够获取到
# 排序以后的结果
>>> phones_sort = phones.most_common()
# 以下列表解析的结果是遍历结果并
# 排除掉val <= 1的结果，并返回key
>>> [ item[0] for item in phones_sort if item[1] > 1]
[1222, 1232, 3232]

# phones_sort的结果
>>> phones_sort
[(1222, 3), (1232, 2), (3232, 2), (3222, 1), (1433, 1), (4333, 1), (1111, 1)]

昨天通过200个以上的电话号码实验，速度也是非常快的，非常适合办公人事使用哦。有兴趣欢迎关注python小工具，一起学习python和pandas.
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

python小工具

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

wly476923083的博客

10-07

283

1、给定一个字符串，找到所有彼此相似的重复字符。 2、初始化测试字符串。在字符串上使用reduce方法，迭代字符串的每个字符并对字符串执行函数。 3、该函数检查字符串左侧和右侧的字符索引是否相同以及是否已在结果中。 4、如果任何字符满足上述条件，则将其添加到结果中。 5、打印结果。

python查找/删除重复记录

Norsaa的博客

12-09

1万+

1：查找重复项 df.duplicated()返回的是一个布尔型Series（返回值是True或者False），表示各行是否是重复行，可以在（）内添加列名来查找某一列是否有重复值，第一个出现的值为False，后边再出现相同的行为True 完全重复的项目 df.duplicated() / 某一列重复df.duplicated('列名') aa = [[1,2,3],[4,5,6],[1,2...

参与评论您还未登录，请先登录后发表或查看评论

python 统计excel表格_python统计多个excel表格数据-python 查找两个EXCEL中的相同单元格，计算对应值......

weixin_39689297的博客

11-26

414

python如何获取多个excel单元格的值from openpyxl import load_workbookwb = load_workbook(r"D:\python_workshop\python6\study\sample.xlsx")sh = wb["Sheet"]print(sh["A3":"B10"].value)运行结果：Traceback (most recent call l...

如何使用Python查找Excel中相同的内容_【Python报表自动化2】这是一篇可以让你从8点下班变成5点下班的武功秘籍...

weixin_39744408的博客

10-24

428

点击蓝字关注我们码农发的第一篇Python报表自动化教程反响热烈，所以未来码农还会继续保持干货满满，让众多的“表哥表姐”能够从繁杂的报表工作中解脱出来。第一篇讲了利用Pandas包里的read_excel命令来导入Excel原始数据，本篇讲介绍如何利用Pandas的Dataframe数据框来加工数据，生成想要的数据。这里主要结合码农在日常使用Excel时常用的函数或功能来具体...

python批量处理excel数据_python 批处理excel文件实现数据的提取

weixin_39947016的博客

11-26

290

import reimport xlrdf1 = open("v9_c8_a3_a16.txt","w")f2 = open("a9_not_c8a3a16.txt","w")f3 = open("c8_not_v9a3a16.txt","w")f4 = open("a3_not_v9c8a16.txt","w")f5 = open("a16_not_v9c8a3.txt","w")def rea...

Python 利用pandas 获取Excel重复记录

码点

08-10

1152

在EXCEL处理大量记录的时候，用EXCEL排序处理比较费劲，EXCEL程序动不动就无响应了，用pands处理： # We will use data structures and data analysis tools provided in Pandas library import pandas as pd # Import retail sales data from an Excel Workbook into a data frame path = 'D:/python/python_work

Python3查找列表中重复元素的个数的3种方法详解

09-17

本篇将详细介绍三种在Python3中查找列表中重复元素个数的方法，帮助你更好地理解和应用。 **方法一：使用集合（Set）与列表计数（count）** ```python mylist = [1,2,2,2,2,3,3,3,4,4,4,4] myset = set(mylist) for...

python数据结构与算法

01-03

2. **collections模块**：提供高级数据结构，如Counter（计数器）、deque（双端队列）等。 3. **itertools模块**：提供各种迭代器工具，如无限序列、排列组合等。 4. **numpy模块**：用于数值计算，提供强大的多维...

Python快速上手.pdf

01-09

除此之外，还提到了`collections`模块，这是Python标准库中的一个模块，包括`Counter`、`namedtuple`、`defaultdict`和`heapq`等数据结构。 2. Python字符串和正则表达式：字符串操作在Python中非常灵活和强大，...

Python中的高级数据结构详解

09-22

Collections模块为Python程序员提供了额外的数据结构，这些结构在处理特定问题时非常有用。以下是一些重要的类： - Counter(): 这个类用于计数可哈希对象的出现次数。例如，你可以快速计算列表中元素的频率，或者...

用Python实现从文件夹中提取多个excel列表的重复值

h123t3的博客

04-28

2220

虽然excel也能够很简单的实现，但是用Python也未尝不是一种新思路，可以自己试着把文件路径改下，自己体验。 import xlrd from collections import Counter data = xlrd.open_workbook("C:/Users/我是弱智/Desktop/1233.xls") data1 = xlrd.open_workbook("C:/Users/我是弱智/Desktop/456.xls") sheet = data.sheet_by_index(0)#获

几行Python代码，轻松搞定Excel表格数据去重

热门推荐

灵均兰草

11-13

2万+

求赞----求关注 python筛选excel某一列中相同的数据 1.需要cmd下载 pip install pandas 的模板 2.注意文件的路径问题不要出错 3.还有文件的编码格式 ------encoding = 'gbk' import pandas as pd #读取excel文件信息 d...

Python统计pandas某列元素重复次数及首位置

weixin_42833448的博客

08-23

518

【代码】Python统计pandas某列元素重复次数及首位置。

Python入门题031：excel表格筛选重复数据

panyanyany（飞雨幻沙）

09-23

3073

题目：使用 pandas 筛选表格中的重复数据，将筛选后的表格保存到新的 excel 文件中。视频教程： Python入门题031：excel表格筛选重复数据代码： import pandas scores = pandas.read\_excel('./storage/成绩单.xlsx') print('------ 当前表格：') print(scores) print('

python判断excel表格中的重复值

a_liang123的博客

07-01

1929

#循环判断excel中的值，先在循环体外建一个空new_list=[]，否则每次只返回一个值 t="值" //变量赋值 new_list.append(t) //把值传进空列表 set_list=set(new_list) //set会生成一个元素无序且不重复的可迭代对象，也就是我们常说的去重 if len(set_lst)==len(new_list): errorreason="不在重复值" else: errorreason

Python count()方法：统计字符串出现的次数

sheiuh的博客

11-08

9641

count 方法用于检索指定字符串在另一字符串中出现的次数，如果检索的字符串不存在，则返回 0，否则返回出现的次数。 count 方法的语法格式如下： str.count(sub[,start[,end]]) 此方法中，各参数的具体含义如下： str：表示原字符串； sub：表示要检索的字符串； start：指定检索的起始位置，也就是从什么位置开始检测。如果不指定，默认从头开始检索； end：指...

数据结构初识

m0_46755575的博客

08-28

521

数据结构初识 1.数据说到数据结构是什么，我们得认识什么是数据；数据：**是描述客观事物的符号，是计算机中可以操作的对象，是能被计算机识别，并输入给计算机处理的符号集合。**数据不仅仅包括整型，实型等数值类型，还包括字符及声音，图像，视频等非数值类型。也就是说，这里的数据，其实就是符号，而且这些符号必须具有俩个前提： 1.可以输入到计算机中； 2.能被计算机程序处理；对于整型，实型等数值类型，可以进行数值计算。 2.数据元素数据元素：是组成数据的，有一定意义的基本单位，在计算机中通常作为整体处理。