首先我并没有找到合适的函数直接读取doc文件,所以采取把doc文件转换为csv文件的形式来进行去重。源码奉上 。我用的办法比较笨,是直接去把doc文件的内容复制一下,然后新建一个csv文件把刚才复制的粘贴进去。这样就得到了一个csv文件啦
import pandas
import numpy
Line = pandas.read_csv("./test(复件).csv")#填写你的文件地址
Line = Line.drop_duplicates() #去除重复行
data_array = numpy.array(Line)#把dataFrame先转换为array
data_list = data_array.tolist()#把array转换为list
print(type(data_list))
f = open("./test(复件).csv",'w',encoding="utf-8")
for line in data_list:
f.write(line[0]+'\n')
f.close()