【Programming Pearls】对文档中的单词进行计数问题

所谓单词就是用空格分隔开的字符序列。但是在网页文件中还包含&nbsp;<html>等词,所以需要避免这种情况。

 

示例 1:
int main(void)
{ set S;
set::iterator j;
string t;
while (cin >>t) //读取输入,插入到set集合S中,重复的单词忽略
S.insert(t);
for (j = S.begin();j != S.end(); ++j)
cout << *j<< "\n"; //按顺序输出单词
return 0;
}

下面我们将统计一个文档中各个单词出现的频率。

可以采用C++中的STL map容器来实现:

示例2:
#include <iostream>
#include <map>
#include <string>
using namespace std;
int main()
{ map<string, int> M;
map<string, int>::iterator j;
string t;
while (cin >> t)
M[t]++;
for (j = M.begin(); j != M.end(); ++j)
cout << j->first << " " << j->second << "\n";
return 0;
}

         注:上面程序总共需要7.6秒处理Bible文档,其中读取需要2.4秒,插入需要4.9秒,写入输出为0.3秒。

       为了减少处理时间,我们采用哈希表的方式,采用一个节点,该节点包含一个指针指向该单词,一个变量对单词进行计数,以及一个指针指向下一个节点。


哈希表的结构如下:

typedef struct node*nodeptr;
typedef struct node{
char *word;
int count;
nodeptr next;
} node;
#define NHASH 29989 //定义单词的最大数
#define MULT 31   //哈希的乘数
nodeptr bin[NHASH];//定义哈希表

接下来将一个单词或字符串映射到一个无符号的整数,该整数小于NHASH。

 

unsigned inthash(char *p)
unsigned int h = 0;//这里使用unsignedint是为了保证为正数
for ( ; *p; p++)
h = MULT * h + *p
return h % NHASH
 

然后在主函数中,对哈希的每个bin进行赋初值,为NULL。然后读取单词,插入到哈希表中,无序插入。

int main(void)
{for i = [0, NHASH)
bin[i] = NULL
while scanf("%s", buf) != EOF
incword(buf)
for i = [0, NHASH)
for (p = bin[i]; p!= NULL; p = p->next)
print p->word,p->count
return 0
};

插入函数incword如下:

void incword(char*s)
h = hash(s)
for (p = bin[h]; p!= NULL; p = p->next)
if strcmp(s,p->word) == 0
(p->count)++
return
p =malloc(sizeof(hashnode))
p->count = 1
p->word =malloc(strlen(s)+1)
strcpy(p->word,s)
p->next = bin[h]
bin[h] = p
 

         注:使用哈希表的方法需要2.4s的读,0.5s的插入时间,0.06s的写入输出时间。总共需要3s的时间。该方法比C++的STL方法快了一个数量等级。但是使用sets和maps总能保证插入的单词是有序的,使用hash table则不能保证。Hash table的平均速度非常快,但是对最坏情况不能保证是一颗平衡树,不支持对单词的有序操作。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值