Jee.Li-CSDN博客

原创 hadoop 实现二级排序

在 Hadoop 中，默认情况下是按照 key 进行排序，如果要按照 value 进行排序怎么办？有两种方法进行二次排序，分别为：buffer and in memory sort 和 value-to-key conversion。buffer and in memory sort主要思想是：在 reduce()函数中，将某个 key 对应的所有 value 保存下来，然后进行排序。这种方法最大的缺点是：可能会造成 out of memory。value-to-key conversion主要

2021-12-27 13:13:29 1278

原创 Hadoop 性能调优

调优可以通过系统配置、程序编写和作业调度算法来进行。 hdfs 的 block.size 可以调到128/256（网络很好的情况下，默认为 64）调优的大头：mapred.map.tasks、mapred.reduce.tasks 设置 mr 任务数（默认都是 1）mapred.tasktracker.map.tasks.maximum 每台机器上的最大 map 任务数mapred.tasktracker.reduce.tasks.maximum 每台机器上的最大 reduce 任务数mapred.

2021-12-21 18:49:59 1029

原创 hadoop 实现 Join reduce side join + BloomFilter

在某些情况下，SemiJoin 抽取出来的小表的 key 集合在内存中仍然存放不下，这时候可以使用 BloomFiler 以节省空间。BloomFilter 最常见的作用是：判断某个元素是否在一个集合里面。它最重要的两个方法是：add() 和 contains()。最大的特点是不会存在 false negative，即：如果 contains()返回 false，则该元素一定不在集合中，但会存在一定的 true negative，即：如果 contains()返回 true，则该元素可能在集合中。

2021-12-15 15:01:05 1305

原创 hadoop 实现 Join方法3

SemiJoinSemiJoin，也叫半连接，是从分布式数据库中借鉴过来的方法。它的产生动机是：对于 reduceside join，跨机器的数据传输量非常大，这成了 join 操作的一个瓶颈，如果能够在 map 端过滤掉不会参加 join 操作的数据，则可以大大节省网络 IO。实现方法很简单：选取一个小表，假设是 File1，将其参与 join 的 key 抽取出来，保存到文件 File3 中，File3 文件一般很小，可以放到内存中。在 map 阶段，使用 DistributedCache .

2021-12-14 13:35:40 971

原创 hadoop 实现 Join方法2

map side join之所以存在 reduce side join，是因为在 map 阶段不能获取所有需要的 join 字段，即：同一个key 对应的字段可能位于不同 map 中。Reduce side join 是非常低效的，因为 shuffle 阶段要进行大量的数据传输。Map side join 是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，让每个 maptask 内存中存在一份（比如存放到 .

2021-12-13 14:27:33 377

原创 hadoop 实现 Join方法1

reduce side joinreduce side join 是一种最简单的 join 方式，其主要思想如下：在 map 阶段，map 函数同时读取两个文件 File1 和 File2，为了区分两种来源的 key/value 数据对，对每条数据打一个标签（tag）,比如：tag=0 表示来自文件 File1，tag=2 表示来自文件File2。即：map 阶段的主要任务是对不同文件中的数据打标签。在 reduce 阶段，reduce 函数获取 key 相同的来自 File1 和 File2 .

2021-12-12 14:52:49 99