无论文件中的每行无论是已经切分的词还是句子,set(a),这个a可以是一行得到句子作为单位,也可以是字符。去除重复行,则就以每行作为这个无序集合中的一个单元。
import codecs
line_seen=set()#初始化空的无序集合
in_file=codecs.open('2000_pos_cut_stopword.txt','r',encoding='utf-8')
out_file=codecs.open('2000_pos_cut_stopword_delsame1.txt','w',encoding='utf-8')
lines=in_file.readlines()
forlineinlines:
iflinenotinline_seen:
out_file.write(line)
line_seen.add(line)
in_file.close()
out_file.close()
参考https://blog.csdn.net/qq_22764813/article/details/73187473