单词频率统计

 一、问题

编写程序,输入一段文本,统计其中各单词出现的次数(单词不区分大小写),输出频率最高的前十个单词及其出现次数。若次数相同,按字典序排序。

输入:
一段文本

输出:
每行是一个单词及出现次数,中间用一个英文冒号隔开,单词以小写形式出现。

【输入输出样例】
输入:
Xi boarded the destroyer Xining on Tuesday afternoon after inspecting the honor guards of the PLA Navy at a pier in the city of Qingdao

输出:
the:4
of:2
a:1
after:1
afternoon:1
at:1
boarded:1
city:1
destroyer:1
guards:1

二、代码

// 引入相关头文件
#include <stdio.h>
#include <string.h>

// 定义字符串和计数器等变量
#define MIN(i, j) (((i) < (j)) ? (i) : (j))

char ss[1005];
int x, dk;

// 定义结构体,用来存放每一个单词的信息
struct word {
    char s[1005];
    int k;
} wd[1005];

// 交换两个结构体
void swap(struct word* a, struct word* b) {
    struct word c;
    c = *a;
    *a = *b;
    *b = c;
}

// 用来比较两个字符串的大小,比较时先按照字典序排序,再比较字符串长度
int cmp(char s1[], char s2[]) {
    int l1 = strlen(s1), l2 = strlen(s2);
    for (int i = 0; i < MIN(l1, l2); i++) {
        if (s1[i] > s2[i])
            return 1;
        else if (s1[i] < s2[i])
            return -1;
    }
    if (l1 == l2)
        return 0;
    else if (l1 > l2)
        return 1;
    else
        return -1;
}

// 用来查找某个单词在结构体数组中的位置,找到则返回该单词所在的下标,不存在则返回-1
int xz(char s1[]) {
    for (int i = 0; i < dk; i++) {
        if (cmp(wd[i].s, s1) == 0)
            return i;
    }
    return -1;
}

// 冒泡排序,根据单词出现次数和字典序排序,使得前十个单词分别为出现次数最多的十个单词
void sort() {
    for (int i = 0; i < dk; i++) {
        for (int j = 0; j < dk - i - 1; j++) {
            // 如果j位置的单词出现的次数小于j+1位置的单词出现的次数,
            // 或者j和j+1位置的单词出现的次数相同但是j位置的单词字典序大于j+1位置的单词字典序,
            // 则交换两个单词在结构体数组中的位置
            if (wd[j].k < wd[j + 1].k || (wd[j].k == wd[j + 1].k && cmp(wd[j].s, wd[j + 1].s) == 1)) {
                swap(&wd[j], &wd[j + 1]);
            }
        }
    }
}

// main函数
int main() {
    // 读入字符串
    gets(ss);
    for (int i = 0; i <= strlen(ss); i++) {
        // 统计空格数量,用来确定单词的位置
        if (ss[i] == ' ' && ss[i - 1] == ' ') {
            x++;
        }
        // 如果已经到了字符串结尾,或者当前字符是空格但前一个字符不是空格,
        // 则说明当前位置是一个单词的结尾
        if (i == strlen(ss) || (ss[i] == ' ' && ss[i - 1] != ' ')) {
            char ls[1005] = "";
            int flag = 1;
            // 将单词转换为小写,并将该单词存储到结构体数组中
            for (int k = x; k < i; k++) {
                if (ss[k] >= 'A' && ss[k] <= 'Z') {
                    ss[k] += 32;
                }
                ls[k - x] = ss[k];
            }
            // 更新空格数量
            x = i + 1;
            // 如果结构体数组中已存在该单词,则将该单词的次数加1,否则添加一个新单词到结构体数组中
            if (xz(ls) != -1) {
                wd[xz(ls)].k++;
            } else {
                for (int j = 0; j < strlen(ls); j++)
                    wd[dk].s[j] = ls[j];
                wd[dk].k = 1;
                dk++;
            }
        }
    }
    // 对结构体数组进行排序
    sort();
    // 输出前十个单词和出现次数
    for (int i = 0; i < MIN(dk, 10); i++) {
        printf("%s:%d\n", wd[i].s, wd[i].k);
    }
    return 0;
}

三、tips

思路:1.将单词读入采用先整个录入字符串,再判断是否是单词

x代表空格的数量,用来确定单词的位置。在读入字符串时,每次遇到一个空格,x就加1,表示当前位置是一个单词的结尾。

找出单词的范围,转换成小写录入结构体;

2.编写函数进行两个字符串之间的排序

3.进行冒泡排序

再分别编写函数即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值