统计大数据中的单词词频

最新推荐文章于 2020-09-08 18:32:59 发布

yymalu

最新推荐文章于 2020-09-08 18:32:59 发布

阅读量1.5k

点赞数

分类专栏： linux 文章标签：词频 Linux shell 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yymalu/article/details/9141925

版权

linux 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

之前的信息安全大赛有一道题叫bigdata，这道题给的文件中一共有5000多万个单词，需要找出文件中出现次数最多的单词和出现次数最少的单词。

500MB的TXT文件，感觉windows力不从心，于是想到了linux，linux强大的SHELL我相信能解决一切问题。

开始动手

打开文件后会发现，这个文件每行有若干个单词，单词之间用空格或者是tab隔开，但shell里sort和uniq都是一次处理一行字符串的，所以首先需要将该文件转换成一行一个单词的文件，我用的是tr命令。（可以用管道一次完成，但是为了清晰我一条一条分开讲）

因为在linux中tab和空格不一样，所以需要替换两次。假设文件名为text，命令如下：

cat text|tr " " "\n"|tr "\t" "\n"

这句命令的意思是，cat命令打开text文件，然后tr命令搜索空格，然后全部替换为回车；然后在替换完的文件中再搜索tab，然后将所有的tab替换成回车。

这样操作完后这个文件就变成一行一个单词的格式了，接下来我们来排序。

排序的思路就是先用sort按顺序排好，在用uniq去掉重复行，并且显示该行出现的次数，最后再用sort排一次序，最终输出需要的结果，命令如下：

cat text|tr " " "\n"|tr "\t" "\n"|sort|uniq -c|sort|tail -5

这句命令的意思是，先将空格和tab替换，就是上面所说的，然后用sort按字母顺序排序，然后用uniq命令去除重复的行，也就是重复的单词，并且显示每个单词出现的次数；然后再用sort排序，默认是按升序，如果要逆序后面加一个-r；排序后因为我不需要看到全部的结果，几万个单词全都显示会很慢而且屏幕显示不下，于是我加了tail -2。这句的意思是只显示结果中最后面的5行。如果需要最少出现的单词只需要改成head -5就行了，意思是显示结果中最前面的5行。

大致的思路和过程就是这样，当然还有很多种方法，个人认为shell命令较简单，于是就采用的这个方法。

如果有错误请大牛指出，谢谢~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。