Linux Bash to remove duplicates from a CSV file
目标:bash合并多条csv文件,并去除冗余记录
第一步:批量合并csv文件
首先进入要合并的路径:
cat *.csv > all.csv
第二步:去除冗余记录
awk 'seen[$0]++ { print $0 > "all_dups.csv"; next } { print $0 > "all_nodups.csv" }' all.csv
其中,'all_dups.csv’是所有冗余的记录,‘all_nodups.csv’是唯一记录;
参考文献
【1】linux下合并csv文件 https://jn615.iteye.com/blog/1090337
【2】Python合并多个csv文件 https://www.e-learn.cn/content/wangluowenzhang/1164080