有时候需要对重复的数据进行处理筛选,这时可通过python来进行操作
示例:有如下文本test.txt,我需要将里面的重复内容删除,然后进行排序
cccc
cccc
cccc
dddd
aaa
aaa
aaa
aaa
bb
bb
bb
bb
nnnnn
nnn
nnn
mmmmm
mmmmm
mmm
mmm
mmm
python脚本操作:
def remove_duplicates(filename):
with open(filename, 'r') as file:
lines = file.readlines()
unique_lines = list(set(lines))
unique_lines.sort() # 进行排序
with open(filename, 'w') as file:
file.writelines(unique_lines)
if __name__ == "__main__":
remove_duplicates('test.txt')
主要操作为unique_lines = list(set(lines))
这一行将读入的lines
列表转化为一个集合。集合是一个不允许有重复元素的数据结构,因此这一操作会自动去除所有重复的行。然后,我们再次将集合转化为列表,使其可以按照特定的顺序存储。