字典树实现词频统计

这篇博客介绍了如何利用字典树(Trie树)实现词频统计,包括读取文件中的单词、插入字典树、打印树结构、查询单词频率以及销毁字典树的功能。提供了完整的C++代码实现。
摘要由CSDN通过智能技术生成

字典树实现词频统计

Trie树(字典树)
字典树又叫前缀树,是处理字符串常用的数据结构,最近和朋友一起粗略写了一下关于字典树的词频统计。

一、功能介绍

  1. 文件流读写单词;
  2. 将读到的单词插入树中;
  3. 打印树,打印出单词和个数以及词频;
  4. 单个单词的个数和频率查询功能;
  5. 销毁字典树(释放内存);

结构体代码

typedef struct TrieNode {

unsigned long count; //该结点终结的单词个数
struct TrieNode* next[26];  //下标 0-25 分别表示 a-z

}TrieNode;

从文本中获取单词

void GetWord(FILE* fp, int lim, char word[]) {
char* w = word;
int c;
while (isspace(c = getc(fp)) || (c == ‘-’))//跳过空格和破折
;
if (c != EOF)
*word = tolower(c);//这里tolower是为了将大写字母转为小写字母 小写字母不变
if (!isalpha(c)) { //单词第一个不是字母,退出
*word = ‘\0’;
return;
}
for (; --lim > 0; word++) {
*word = tolower(c);
if (!isalpha(c = getc(fp)))//不是字母,退出
break;
}
*++word = ‘\0’;
word = w;
}

打印字典树

void TreePrint(TrieNode* root, FILE* fp, char* str, int j) {
for (int i = 0; i

好的,下面是C语言实现字典树词频统计代码: ```c #include <stdio.h> #include <stdlib.h> #include <string.h> #include <ctype.h> #define MAX_WORD_LEN 100 // 单词最大长度 // 字典树节点结构体 typedef struct TrieNode { int count; // 记录单词出现次数 struct TrieNode* next[26]; // 指向下一个字符的指针数组 } TrieNode; // 创建新的字典树节点 TrieNode* newTrieNode() { TrieNode* node = (TrieNode*)malloc(sizeof(TrieNode)); node->count = 0; memset(node->next, 0, sizeof(node->next)); return node; } // 将单词插入字典树 void insertWord(TrieNode* root, char* word) { TrieNode* node = root; int len = strlen(word); for (int i = 0; i < len; i++) { int index = tolower(word[i]) - 'a'; // 转换为小写字母后计算下标 if (node->next[index] == NULL) { node->next[index] = newTrieNode(); } node = node->next[index]; } node->count++; } // 统计单词出现次数 int countWords(TrieNode* root, char* word) { TrieNode* node = root; int len = strlen(word); for (int i = 0; i < len; i++) { int index = tolower(word[i]) - 'a'; // 转换为小写字母后计算下标 if (node->next[index] == NULL) { return 0; } node = node->next[index]; } return node->count; } int main() { TrieNode* root = newTrieNode(); char filename[100]; printf("请输入要统计的文本文件名:"); scanf("%s", filename); FILE* fp = fopen(filename, "r"); if (fp == NULL) { printf("文件打开失败!\n"); return 0; } char word[MAX_WORD_LEN]; while (fscanf(fp, "%s", word) != EOF) { insertWord(root, word); } fclose(fp); printf("请输入要查询的单词(输入quit结束查询):\n"); while (1) { scanf("%s", word); if (strcmp(word, "quit") == 0) { break; } printf("%s: %d\n", word, countWords(root, word)); } return 0; } ``` 这份代码可以读取一个文本文件,将其中的单词插入字典树中,并且可以查询某个单词在文本中出现的次数。在插入单词和查询单词时,会将单词转换为小写字母后再进行操作,这样可以避免大小写不同的单词被算作不同的单词。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山山峏川-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值