自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 mapreduce编程(一)-二次排序

mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。 这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程)  public static class Map extends Mapper  public static class Reduce extends Reducer  1 首先说一下工作原理: 在ma

2016-02-27 21:24:10 253

转载 Hadoop中两表JOIN的处理方法

原帖地址:董的博客 Dong的这篇博客我觉得把原理写的很详细,同时介绍了一些优化办法,利用二次排序或者布隆过滤器,但在之前实践中我并没有在join中用二者来优化,因为我不是作join优化的,而是做单纯的倾斜处理,做join优化或者查询优化时,上述二者是最基本的优化办法了。 1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中

2016-02-27 20:38:50 216

原创 代码

//反序列化,从流中的二进制转换成IntPair public void readFields(DataInput in) throws IOException //序列化,将IntPair转化成使用流传送的二进制 public void write(DataOutput out) //key的比较 public int compareTo(IntPair o)

2016-02-27 18:15:19 235

转载 hadoop机架感知--加强集群稳固性,该如何配置hadoop机架感知

我们知道hadoop集群具有容错性,分布式等特点,为什么会具有这些特点,下面是其中原理之一。 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。     具体到H

2016-02-18 21:30:44 312

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除