用Liunx统计文件行数,切分、对id进行排序,去重(wc,head,sort,uniq)!

如下我们遇到一个文件2G以上

文本编辑相互甩锅:

此时内心很崩溃,但是我们先看一下文件一共有多少行。

统计文件的行数可以用以下命令:wc -l  文件名

wc -l  lesson_20201205.log

1200多万行数据。

然后用 head -n 文件名 > 新文件

$ head -1000000 lesson_20201205.log > lesson_20201205_100.log

 

然后得到 一个163M的100万行数据

接下来我们把log中的用户Id取出来,发现很多重复的。

此时我们肯定不能用把这些id复制到Excel中,然后选择去重。

我们肯定要用程序员的方法来解决。

我们用 cat 文件名 | sort |uniq >去重后的文件名

$ cat lesson_id_100.log | sort |uniq >lesson_id_100_uniq.log

然后我们就得到了去重后切以升序保存的文件。

完事!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值