BUAA词频统计(树实现)

【问题描述】

编写程序统计一个英文文本文件中每个单词的出现次数(词频统计),并将统计结果按单词字典序输出到屏幕上。

要求:程序应用二叉排序树(BST)来存储和统计读入的单词。

注:在此单词为仅由字母组成的字符序列。包含大写字母的单词应将大写字母转换为小写字母后统计。在生成二叉排序树不做平衡处理。

【输入形式】

打开当前目录下文件article.txt,从中读取英文单词进行词频统计。

【输出形式】

程序应首先输出二叉排序树中根节点、根节点的右节点及根节点的右节点的右节点上的单词(即root、root->right、root->right->right节点上的单词),单词中间有一个空格分隔,最后一个单词后没有空格,直接为回车(若单词个数不足三个,则按实际数目输出)。

程序将单词统计结果按单词字典序输出到屏幕上,每行输出一个单词及其出现次数,单词和其出现次数间由一个空格分隔,出现次数后无空格,直接为回车。

【样例输入】

当前目录下文件article.txt内容如下:

“Do not take to heart every thing you hear.”

“Do not spend all that you have.”

“Do not sleep as long as you want;”

【样例输出】

do not take

all 1

as 2

do 3

every 1

have 1

hear 1

heart 1

long 1

not 3

sleep 1

spend 1

take 1

that 1

thing 1

to 1

want 1

you 3

【样例说明】

程序首先在屏幕上输出程序中二叉排序树上根节点、根节点的右子节点及根节点的右子节点的右子节点上的单词,分别为do not take,然后按单词字典序依次输出单词及其出现次数。

方法一

#include <stdio.h>
#include <math.h>
#include <string.h>
#include <stdlib.h>
#include <ctype.h>
#include <math.h>

typedef struct node
{
   
    char word[20];
    int num;
    struct node *lchild, *rchild;
} Tree;
Tree *temp, *tempp, *root = NULL, *add = NULL;

Tree *New(char w[]);
Tree *PTFT(Tree *root);

int main()
{
   
    char ch;
    FILE *fp;
    fp = fopen("article.txt", "r+");
    ch = fgetc(fp);
    while (ch != EOF)
    {
   
        char s[20] = {
   0};
        if ((ch <= 'z' && ch >= 'a') || (ch <= 'Z' && ch >= 'A'))
        {
   
            if (ch <= 'Z' && ch >= 'A')
                ch = ch + 32;
            s[0] = ch;
            for (int i = 1; i < 20; i++)
            {
   
                ch = fgetc(fp);
                if (ch <= 'Z' && ch >= 'A')
                {
   
                    ch = ch + 
  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BUAA数据结构大作业涉及到了优化print_result函数和实现Trie。在优化print_result函数时,原始的结构体并没有根据汉明距离进行区分,而是将所有的结果一起存储并每次都进行排序。此外,在输出时也没有进行代码的重用,而是重复写了多段相同的代码。这种实现方式显然可以进行优化。 关于Trie实现,一开始的印象是它完全由链式结构组成,但后来发现数组也可以用来实现Trie。然而,在完成大作业时,由于时间紧迫,我并没有深入理解这个方法,只是简单地照着网上的模板进行了插入和查找操作。 对于BUAA数据结构大作业,我建议你先理解Trie的原理,并且如果你的大作业使用到了Trie(应该是很有可能的),你可以咨询梦拓学长和助教,同时也可以在网上搜索相关资料。在实现代码之前,一定要确保自己理解了原理。如果你希望代码的运行速度更快,我建议你使用数组来实现Trie。你可以参考上面提到的第二篇文章,稍加改动,因为我们的目的不是只建立一棵来查找特定单词出现次数,而是要找出出现次数前n个单词。因此,我们需要记录所有出现过的单词,并能够遍历它们。为此,可以定义一个结构体来记录单词出现次数,并创建一个结构体数组来存储它们。同时,使用一个数组来实现字典词频统计。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [BUAA数据结构大作业2023](https://blog.csdn.net/weixin_50567399/article/details/131394979)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [2022BUAA数据结构期末大作业的一些想法](https://blog.csdn.net/m0_62558898/article/details/125564521)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值