hash
文章平均质量分 88
wodet
这个作者很懒,什么都没留下…
展开
-
构建hash表和两种处理冲突方法
hash表定义:hashing定义了一种将字符组成的字符串转换为固定长度(一般是更短长度)的数值或索引值的方法,称为散列法,也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快,这种方法一般用来在数据库中建立索引并进行搜索,同时还用在各种解密算法中。 设所有可能出现的关键字集合记为u(简称全集)。实际发生(即实际存储)的关键字集合记为k(|k|比|u|小得多)。|k|是集合k原创 2013-11-25 18:21:39 · 1541 阅读 · 0 评论 -
用hash_map统计出现次数最多的前N个URL
海量数据统计频率最高词汇的常规办法之一是先通过一个hash函数处理数据然后取模N,拆分为N个小文件,对每一个小文件进行词频统计和排序处理,然后归并N个小文件取频率最大的M个数。 下面程序是利用hash_map处理小文件词频的实现(堆排序部分的代码没加上,可以参见http://hi.baidu.com/scofield_/item/197303c8a7f43063f7c95dd8)原创 2013-11-25 18:24:26 · 3404 阅读 · 0 评论