数据去重

最新推荐文章于 2024-07-07 21:19:57 发布

xsj_blog

最新推荐文章于 2024-07-07 21:19:57 发布

阅读量1k

点赞数

分类专栏：网络爬虫文章标签：数据

本文链接：https://blog.csdn.net/xsj_blog/article/details/66477553

版权

网络爬虫专栏收录该内容

29 篇文章 0 订阅

订阅专栏

数据去重的两种方式

第一种：不考虑顺序，数据去重

通过集合的方式：

>>> a
[1, 5, 2, 1, 9, 1, 5, 10]
>>> set(a)
{1, 2, 10, 5, 9}
>>>

通过字典的键的方式：

>>> a = [1,2,2,2,3]
>>> b = {}.fromkeys(a).keys()
>>> b
dict_keys([1, 2, 3])
>>>

第二种：考虑顺序，数据去重

如果序列上的值都是 hashable 类型，那么可以很简单的利用集合或者生成器来解决这个问题

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

if __name__ == "__main__":        
    a = [1, 5, 2, 1, 9, 1, 5, 10]
    b = list(dedupe(a))
    print(b)
    #结果为[1, 5, 2, 9, 10]

如果消除元素不可哈希(比如 dict 类型)的序列中重复元素

def dedupe(items, key=None): 
#key参数指定了一个函数，将序列元素转换成 hashable 类型
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)
if __name__ == "__main__":
    a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

    b = list(dedupe(a, key=lambda d: (d['x'],d['y'])))
    print(b)
    # b 的结果值为[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

    c = list(dedupe(a, key=lambda d: d['x']))
    print(c)
    # c 的结果值为[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

文本数据去重

读取一个文件（csv文件、execl文件等等），消除重复行
第一种方式：

with open(somefile,'r') as f:
    for line in dedupe(f):
        print(line)

第二种方式：

distinct_data = open(r'distinct_data.csv','w') #去重后的文件
with open(r'origin.csv','r').readlines() as f: #未去重的文件
    for line in {}.fromkeys(f).keys():
    print(line[0])
    #print(line)
    distinct_data.writelines(line)
distinct_data.close()

参考文档：http://python3-cookbook.readthedocs.io/zh_CN/latest/c01/p10_remove_duplicates_from_seq_order.html

xsj_blog

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据去重

数据去重的两种方式第一种：不考虑顺序，数据去重通过集合的方式：>>> a[1, 5, 2, 1, 9, 1, 5, 10]>>> set(a){1, 2, 10, 5, 9}>>>通过字典的键的方式：这里写代码片第二种：考虑顺序，数据去重如果序列上的值都是 hashable 类型，那么可以很简单的利用集合或者生成器来解决这个问题def dedupe(items): seen = se
复制链接

扫一扫

专栏目录