字典树实现词频统计
Trie树(字典树)
字典树又叫前缀树,是处理字符串常用的数据结构,最近和朋友一起粗略写了一下关于字典树的词频统计。
一、功能介绍
- 文件流读写单词;
- 将读到的单词插入树中;
- 打印树,打印出单词和个数以及词频;
- 单个单词的个数和频率查询功能;
- 销毁字典树(释放内存);
结构体代码
typedef struct TrieNode {
unsigned long count; //该结点终结的单词个数
struct TrieNode* next[26]; //下标 0-25 分别表示 a-z
}TrieNode;
从文本中获取单词
void GetWord(FILE* fp, int lim, char word[]) {
char* w = word;
int c;
while (isspace(c = getc(fp)) || (c == ‘-’))//跳过空格和破折
;
if (c != EOF)
*word = tolower(c);//这里tolower是为了将大写字母转为小写字母 小写字母不变
if (!isalpha(c)) { //单词第一个不是字母,退出
*word = ‘\0’;
return;
}
for (; --lim > 0; word++) {
*word = tolower(c);
if (!isalpha(c = getc(fp)))//不是字母,退出
break;
}
*++word = ‘\0’;
word = w;
}
打印字典树
void TreePrint(TrieNode* root, FILE* fp, char* str, int j) {
for (int i = 0; i