从Trie树/hash_map开始的海量数据处理
yanerhao
信雅之言,微言大意
展开
-
海量数据处理的常用方法
海量数据处理一般常见方法:海量数据量很大时-->hash海量数据的最大或者最小K个-->堆海量数据的最值-->hash+内排序+归并海量数据统计出现次数-->hash_map或者Trie树文件之间共同值-->set海量数据直接重复性判断-->bitmap/bloom filter具体总结如下:1. Bloom FilterBloom Filter是一种空间效率很原创 2017-08-08 23:26:04 · 374 阅读 · 0 评论 -
hadoop之MapReduce
MapReduce1.0MapReduce是Hadoop的一大核心,它是是一种编程模型,针对TB级别的海量数据并行完成数据的数据提取、分析和优化,它具有以下特征:1 本身是一种编程模型框架,思想是分而治之2 处理的对象是海量数据3 在大规模集群,HDFS存储4 并行计算工作实体主要有4个客户端:提交MapReduce作业JobTracker:协调作业运行Ta原创 2017-10-16 21:47:43 · 314 阅读 · 0 评论