Python编程读取多个JSON实现数据去重

最新推荐文章于 2024-07-28 03:36:52 发布

xHibiki

最新推荐文章于 2024-07-28 03:36:52 发布

阅读量4.4k

点赞数 1

分类专栏： Python 文章标签： Python编程数据去重

本文链接：https://blog.csdn.net/xHibiki/article/details/84504477

版权

Python 专栏收录该内容

30 篇文章 3 订阅

订阅专栏

现在假设有一些JSON文件,但是这些JSON中存在着某些key相同的重复数据,需要进行去重.

import json
# 这里读取7个json文件,并全部读取到data中
data = []
for i in range(1, 8):
    str = open("e:/{}.json".format(i), encoding="utf-8").read()
    data.extend(json.loads(str))
# 这里的key是MD5码,类似于数据库的id有unique约束
remove = []
for i, d1 in enumerate(data):
    for j, d2 in enumerate(data):
        if d1.get('MD5') == d2.get('MD5') and i < j:
            remove.append(i) #存入重复的下标
# 进行去重,方式是新建一个unique列表,存入排除重复下标的数据
unique = []
for i in range(len(data)):
    if i not in remove:
        unique.append(data[i])

测试结果

print(len(data), len(remove), len(unique))
1327 18 1309

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xHibiki

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

对json数据进行去重的Python实战代码

weixin_43178406的博客

08-29

4万+

本文主要介绍了对json数据进行去重的Python实战代码，希望能对使用Python的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

python读取多行json_python – 将包含多行JSON的文件加载到Pandas中

weixin_39714113的博客

12-03

1573

我试图在JSON文件中读入Python pandas(0.14.0)数据帧.这是JSON文件的第一行：{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005...

参与评论您还未登录，请先登录后发表或查看评论

【Python】实现json数据清洗、json数据去重、json数据统计

qq_35902025的博客

04-28

4537

1.文件夹中有若干json文件，每个文件中json格式基本一致;(一般是按时间排序的文件名)2.获取每个json所有的keys，如果缺失某个key，那就在该条json新建一个键值对;3.以某个属性(键)为基准，通常为主键id，进行去重处理，也是一种数据清洗的过程;1.循环读取文件夹中所有文件，以及循环读取每个文件中所有的json数据;3.针对json种某个属性(键)对应的值，进行。4.统计出某个键值对出现的次数，输出打印出来。，需要补充这部分缺失是json数据;某个属性(键)对应值出现的。

python之 json里字典中的value去重

ddn18163的博客

09-13

563

1 import simplejson as json 2 3 with open(r'C:\Users\Desktop\test.txt', 'r' ) as f1， open(r'C:\Users\Desktop\newtest.txt', 'w') as f2: 4 alist = [] 5 new_dict = {} 6 for...

python处理文件中有多个json对象_Python：尝试反序列化文件中的多个JSON对象，每个对象跨越多个但行距一致的行...

weixin_42395725的博客

01-29

289

好吧，经过将近一个星期的研究，我将向大家介绍一下。我有一个看起来如下的文本文件(以3个单独的json对象为例，但其中有50K)：{"zipcode":"00544","current":{"canwc":null,"cig":7000,"class":"observation"},"triggers":[178,30,176,103,179,112,21,20,48,7,50,40,57]}{"z...

python用set()去掉重复json数据

weixin_40938312的博客

01-13

1591

参考文章参考文章 json=[{“text”: “6”,‘nickname’:‘xx’},{‘text’:‘7’,‘nickname’:‘yy’},{“text”: “6”}] post=set() fp=[] for p in range(len(json)): if json[p]['text'] not in post:#如果set中没有这个值（set特性是不能重复） fp.append(json[p])#fp数组将这个不重复的值存进

json数组去重

紫陌l纤尘的专栏

11-19

3175

前几天用了这个方法进行去重，效果还可以。 testHash = function () { //去除数组重复 //var arr = ['a','b','c','a','b','d','b']; //去除json数组里面重复 var arr=[{"cid":1,"county":"小河区"}, {"cid":1,"county":"小河区"},

python打卡记录去重_Pandas 数据筛选,去重结合group by

weixin_39983383的博客

12-17

898

Pandas 数据筛选,去重结合group by需求今小伙伴有一个Excel表, 是部门里的小伙9月份打卡记录, 关键字段如下:姓名, 工号, 日期, 打卡方式, 时间, 详细位置, IP地址....脱敏数据:姓名工号日期方式时间...小赵1232019-09-01GPS08:37:50....小赵1232019-09-01GPS18:10:50...小陈1242019-09-01GPS08:47...

python实现多线程并发测试并生成excel报告

LYX_WIN

12-02

1196

同时，也可以借助第三方的并发测试工具和框架，如JMeter、Locust等，来简化并发测试的实现和管理。在大规模并发和极端情况下，系统的行为可能会出现意料之外的问题，这些问题可能无法通过常规的多线程并发测试发现。使用with语句管理资源：对于需要显式关闭的资源（例如文件、网络连接等），可以使用Python的with语句来管理资源，确保资源在使用完毕后能够被正确关闭，避免出现异常情况。根据系统的资源限制和测试需求，可以逐步增加并发数量和线程数量，观察系统的负载情况，确保在承受范围内进行测试。

Python_一个终端应用程序，用于查看尾部合并和搜索日志文件加上JSONL.zip

05-24

它的主要功能是处理日志文件，特别是查看日志文件的尾部（tail-like功能）、合并多个日志文件以及在日志数据中进行搜索，而且该工具还支持JSONL（JSON Lines）格式的数据处理。JSONL是一种将多条JSON对象每条写入...

【Pandas数据处理100例目录】Python数据分析玩转Excel表格数据

最新发布

weixin_40729793的博客

07-28

JSON数组去重算法

ven25的博客

04-02

1236

需求描述：去除JSON数组中paymode字段相同的项，并将paymoney累加。 paylist:[{paymode:'1',payname:"现金"，paymoney:"20"}, {paymode:'2',payname:"支付宝"，paymoney:"50"},{paymode:'1',payname:"现金"，paymoney:"40"}] function Uniqu...

关于JSON对象去重和数组去重

weixin_42601737的博客

05-22

560

//对象去重 function noRepeat(arr) { var newArr = []; for(var i = 0, l = arr.length; i < l; i++) { for(var j = i + 1; j < l; j++) { if(JSON.stringify(arr[i]) == JSON.stringify(arr[j]))...

python中字典增删改查，以及使用字典为json去重

weixin_43613053的博客

04-10

1271

一、字典简介字典，也就是hash表，以key:value存储，学过数据结构的知道，hash也是一种散列函表，而散列表是由散列函数来决定其存储，所以，当我们看到这些词汇不应该会陌生。 hash是一种查找效率非常高的一种表，查询的时间复杂度为o(1)，可以想一下根据键可以直接拿到值，不需要任何的遍历。 hash除了在我们python中以字典的形式存在，在redis中也有hash表，两者操作原理相同...

Json数据去重解决

ArrayListinfo的博客

12-27

1682

json数据如下： {"8452d65c67":"小猪佩奇","8452d65c67":"小猪佩奇","8452d65c68":"小猪佩奇2"} 去重代码： public JSONObject repeat(JSONObject json){ Map<String,Object> map = new HashMap<String,

数组去重

MING23333的博客

09-01

165

1.indexof()方法（IE8后）可返回某个指定元素在数组中首次出现的位置，若没有找到，则放回-1； function r(arr) { var new=[]; for(var i=0;i<arr.length;i++) { if(new.indexOf(arr[i]==1){ new.push(arr[i]); } } return new; } var arr=[1,2,1,3,4...

掌握Pandas在Python数据分析中的应用

文件名称列表中的"exercise_data"暗示了可能存在的一个或多个练习数据集，这些数据集可能是用于实践和巩固Pandas数据分析技能的实例。通过具体的数据分析练习，用户可以加深对Pandas库功能的理解和应用能力。

Python编程 读取多个JSON实现数据去重

Python编程读取多个JSON实现数据去重