hadoop
斜杆小刘
这个作者很懒,什么都没留下…
展开
-
MapReduce编程之Reduce Join多种应用场景与使用
在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用 MapReduce 编程模型,也有相应的处理措施和优化方法。 我们先简要地描述待解决的问题。假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查转载 2018-01-27 21:42:05 · 965 阅读 · 0 评论 -
MapReduce二次排序法
目标: 输入数据: 1. sort1 1 2. sort2 3 3. sort2 88 4. sort2 54 5. sort1 2 6. sort6 22 7. sort6 888 8. sort6 58 输出数据: 1. sort1 1,2 2. sort2 3,54,88原创 2018-01-29 20:54:09 · 328 阅读 · 0 评论