如下我们遇到一个文件2G以上
文本编辑相互甩锅:
此时内心很崩溃,但是我们先看一下文件一共有多少行。
统计文件的行数可以用以下命令:wc -l 文件名
wc -l lesson_20201205.log
1200多万行数据。
然后用 head -n 文件名 > 新文件
$ head -1000000 lesson_20201205.log > lesson_20201205_100.log
然后得到 一个163M的100万行数据
接下来我们把log中的用户Id取出来,发现很多重复的。
此时我们肯定不能用把这些id复制到Excel中,然后选择去重。
我们肯定要用程序员的方法来解决。
我们用 cat 文件名 | sort |uniq >去重后的文件名
$ cat lesson_id_100.log | sort |uniq >lesson_id_100_uniq.log
然后我们就得到了去重后切以升序保存的文件。
完事!