单词频率统计

最新推荐文章于 2024-08-28 09:32:37 发布

wen__dao

最新推荐文章于 2024-08-28 09:32:37 发布

阅读量572

点赞数 2

分类专栏：交大程设作业文章标签： c++ c语言算法

本文链接：https://blog.csdn.net/wen__dao/article/details/130356593

版权

交大程设作业专栏收录该内容

22 篇文章 16 订阅

订阅专栏

一、问题

编写程序，输入一段文本，统计其中各单词出现的次数（单词不区分大小写），输出频率最高的前十个单词及其出现次数。若次数相同，按字典序排序。

输入：
一段文本

输出：
每行是一个单词及出现次数，中间用一个英文冒号隔开，单词以小写形式出现。

【输入输出样例】
输入：
Xi boarded the destroyer Xining on Tuesday afternoon after inspecting the honor guards of the PLA Navy at a pier in the city of Qingdao

输出：
the:4
of:2
a:1
after:1
afternoon:1
at:1
boarded:1
city:1
destroyer:1
guards:1

二、代码

// 引入相关头文件
#include <stdio.h>
#include <string.h>

// 定义字符串和计数器等变量
#define MIN(i, j) (((i) < (j)) ? (i) : (j))

char ss[1005];
int x, dk;

// 定义结构体，用来存放每一个单词的信息
struct word {
    char s[1005];
    int k;
} wd[1005];

// 交换两个结构体
void swap(struct word* a, struct word* b) {
    struct word c;
    c = *a;
    *a = *b;
    *b = c;
}

// 用来比较两个字符串的大小，比较时先按照字典序排序，再比较字符串长度
int cmp(char s1[], char s2[]) {
    int l1 = strlen(s1), l2 = strlen(s2);
    for (int i = 0; i < MIN(l1, l2); i++) {
        if (s1[i] > s2[i])
            return 1;
        else if (s1[i] < s2[i])
            return -1;
    }
    if (l1 == l2)
        return 0;
    else if (l1 > l2)
        return 1;
    else
        return -1;
}

// 用来查找某个单词在结构体数组中的位置，找到则返回该单词所在的下标，不存在则返回-1
int xz(char s1[]) {
    for (int i = 0; i < dk; i++) {
        if (cmp(wd[i].s, s1) == 0)
            return i;
    }
    return -1;
}

// 冒泡排序，根据单词出现次数和字典序排序，使得前十个单词分别为出现次数最多的十个单词
void sort() {
    for (int i = 0; i < dk; i++) {
        for (int j = 0; j < dk - i - 1; j++) {
            // 如果j位置的单词出现的次数小于j+1位置的单词出现的次数，
            // 或者j和j+1位置的单词出现的次数相同但是j位置的单词字典序大于j+1位置的单词字典序，
            // 则交换两个单词在结构体数组中的位置
            if (wd[j].k < wd[j + 1].k || (wd[j].k == wd[j + 1].k && cmp(wd[j].s, wd[j + 1].s) == 1)) {
                swap(&wd[j], &wd[j + 1]);
            }
        }
    }
}

// main函数
int main() {
    // 读入字符串
    gets(ss);
    for (int i = 0; i <= strlen(ss); i++) {
        // 统计空格数量，用来确定单词的位置
        if (ss[i] == ' ' && ss[i - 1] == ' ') {
            x++;
        }
        // 如果已经到了字符串结尾，或者当前字符是空格但前一个字符不是空格，
        // 则说明当前位置是一个单词的结尾
        if (i == strlen(ss) || (ss[i] == ' ' && ss[i - 1] != ' ')) {
            char ls[1005] = "";
            int flag = 1;
            // 将单词转换为小写，并将该单词存储到结构体数组中
            for (int k = x; k < i; k++) {
                if (ss[k] >= 'A' && ss[k] <= 'Z') {
                    ss[k] += 32;
                }
                ls[k - x] = ss[k];
            }
            // 更新空格数量
            x = i + 1;
            // 如果结构体数组中已存在该单词，则将该单词的次数加1，否则添加一个新单词到结构体数组中
            if (xz(ls) != -1) {
                wd[xz(ls)].k++;
            } else {
                for (int j = 0; j < strlen(ls); j++)
                    wd[dk].s[j] = ls[j];
                wd[dk].k = 1;
                dk++;
            }
        }
    }
    // 对结构体数组进行排序
    sort();
    // 输出前十个单词和出现次数
    for (int i = 0; i < MIN(dk, 10); i++) {
        printf("%s:%d\n", wd[i].s, wd[i].k);
    }
    return 0;
}