- 博客(4)
- 收藏
- 关注
转载 mapreduce编程(一)-二次排序
mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。 这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper public static class Reduce extends Reducer 1 首先说一下工作原理: 在ma
2016-02-27 21:24:10 253
转载 Hadoop中两表JOIN的处理方法
原帖地址:董的博客 Dong的这篇博客我觉得把原理写的很详细,同时介绍了一些优化办法,利用二次排序或者布隆过滤器,但在之前实践中我并没有在join中用二者来优化,因为我不是作join优化的,而是做单纯的倾斜处理,做join优化或者查询优化时,上述二者是最基本的优化办法了。 1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中
2016-02-27 20:38:50 216
原创 代码
//反序列化,从流中的二进制转换成IntPair public void readFields(DataInput in) throws IOException //序列化,将IntPair转化成使用流传送的二进制 public void write(DataOutput out) //key的比较 public int compareTo(IntPair o)
2016-02-27 18:15:19 235
转载 hadoop机架感知--加强集群稳固性,该如何配置hadoop机架感知
我们知道hadoop集群具有容错性,分布式等特点,为什么会具有这些特点,下面是其中原理之一。 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到H
2016-02-18 21:30:44 312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人