Hadoop学习
田万鹏
这个作者很懒,什么都没留下…
展开
-
MR原理
<br /> <br />MR原理:<br /><br /><br /> <br />一个完整的MR过程就是从输入KV对到输出KV对的一系列转化:<br /><br /><br /> <br />1、输入KV_i对序列(一般来自文件),经过InputFormat过滤得到KV_mi<br />2、KV_mi输入到Mapper函数处理,得到KV_mo<br />3、KV_mo首先经过Partitionor处理,计算每个KV_mo将被发送到那个Reducer,记为KV_ri<br />4、每个Reducer收到所原创 2010-12-31 17:59:00 · 1002 阅读 · 0 评论 -
hadoop的几个问题(备忘)
<br />hadoop需要解决的几个问题:<br /> <br />1、MR性能问题,数据推拉<br />2、MR任务调度问题,jobtracker瓶颈<br />3、Master单点问题,zookeeper<br /> <br />草)原创 2011-05-03 14:04:00 · 599 阅读 · 0 评论 -
有关数据存储和压缩的一点总结
<br />1、hadoop中有一个WritableUtils.writeVLong方法,此方法对于long型数字进行一个编码以减少实际存储的数据长度。其编码方法如下:<br /> * Serializes a long to a binary stream with zero-compressed encoding.<br /> * For -112 <= i <= 127, only one byte is used with the actual value.<br /> * For ot原创 2011-05-03 13:59:00 · 928 阅读 · 0 评论 -
将大小不一的一对文件组合成为大小均匀的若干文件?
hadoop集群的小文件过多是一个棘手的问题,过多的小文件作为输入的时候,会导致集群一下启动了太多的map,浪费了集群资源,同时可能会阻塞其他的任务执行。hadoop提供了一种多文件输入的方法CombineInputFormat,可以将过多的小文件合并为若干个期望大小的大文件作为原创 2011-10-03 18:23:38 · 833 阅读 · 0 评论