大数据算法
ccc_yxc
这个作者很懒,什么都没留下…
展开
-
海量日志数据,提取出某日访问百度次数最多的那个IP。
题目: 海量日志数据,提取出某日访问百度次数最多的那个IP。算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;3.对于每个小文件,可以构建一个ip为key,出现次数为value的H转载 2016-12-17 17:48:05 · 3380 阅读 · 1 评论 -
大数据算法:40亿未排序int数中是否存在给定数
题目:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?方法一:位图法就是bit+hash的思想.具体做法: 1.hash思想:数组中我们以每个下标作为一位,位图法中,我们具体到bit,每个bit就是一个数.2.40亿个数,4*10的9次方个数,4*10的9次方个bit/8/1024/1024=476M.所以我们只需要512M空原创 2016-12-19 11:41:35 · 2820 阅读 · 0 评论 -
大数据算法题一般解法
http://blog.csdn.net/mengweiqi33/article/details/7964402 根据贫僧对上面这个地址里的算法题观察,感觉大数据算法题主要包含几个点. 1.数据分治 当机子空间不足时,选择分而治之.分又有几种方法 (1)直接用hash %分:通常是面对数字 (2)根据bit分:通常是对int,32位,依照每一位0或1分 (3)根据本身大小分:同样是int原创 2016-12-19 16:51:12 · 381 阅读 · 0 评论