Shell例题-192. 统计词频

最新推荐文章于 2023-04-08 10:47:46 发布

强壮的小蛋蛋

最新推荐文章于 2023-04-08 10:47:46 发布

阅读量328

点赞数

分类专栏： shell 文章标签： shell

本文链接：https://blog.csdn.net/wnccmyr/article/details/109294513

版权

shell 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。
假设：

words.txt只包括小写字母和 ' ' 。 
每个单词只由小写字母组成。 
单词间由一个或多个空格字符分隔。

示例:

假设 words.txt 内容如下：

the day is sunny the the
the sunny is is
你的脚本应当输出（以词频降序排列）：

the 4
is 3
sunny 2
day 1

说明:

不要担心词频相同的单词的排序问题，每个单词出现的频率都是唯一的。
你可以使用一行 Unix pipes 实现吗？

题解：

cat words.txt | tr -s ' ' '\n' | sort  | uniq -c| sort -rnk1 | awk '{print $2,$1}'

注解：

tr -s ' ' '\n' 
##将文件中内容空格转换为\n,使每个单词占一行
sort 
##第一个sort的排序是按照默认排序规则排序
uniq -c 
## 合并重复并统计重复个数,-c原理是字符串相同则加一，如果不进行先排序的话将无法统计数目
sort -rnk1
 ## -r 倒叙排序 -n 纯数字排序 -k1 指 指定排列的列是第一列
awk '{print $2,$1}' 
##打印第二列和第一列