Hadoop
zfpp25_
iOS
展开
-
hadoop深入研究:(三)——hdfs数据流
以下几个小节并补独立,都是相辅相成的,要结合来看,你就会发现很多有趣的地方。 1.拓扑距离 这里简单讲下hadoop的网络拓扑距离的计算 在大数量的情景中,带宽是稀缺资源,如何充分利用带宽,完美的计算代价开销以及限制因素都太多。hadoop给出了这样的解决方案: 计算两个节点间的间距,采用最近距离的节点进行操作,如果你对数据结构比较熟悉的话,可以看出这里是距离测量算法的一个转载 2013-07-07 10:23:27 · 1025 阅读 · 0 评论 -
hadoop深入研究:(九)——mapreduce中的压缩
作为输入 当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。 作为输出 当mapreduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapped.output.compression.codec为想要使用的codec的类名就可以了,当然你可以在代码中指定,通过调用FileOutputForm转载 2013-07-07 10:32:39 · 1174 阅读 · 0 评论 -
hadoop深入研究:(八)——codec
简介 codec其实就是coder和decoder两个单词的词头组成的缩略词。CompressionCodec定义了压缩和解压接口,我们这里讲的codec就是实现了CompressionCodec接口的一些压缩格式的类,下面是这些类的列表: 使用CompressionCodes解压缩 CompressionCodec有两个方法可以方便的压缩和解压。 压缩:通过cre转载 2013-07-07 10:31:12 · 1193 阅读 · 0 评论 -
hadoop深入研究:(七)——压缩
文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。 hadoop里支持很多种压缩格式,我们看一个表格: DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,源代码可以在zlib库中找到。gzip是以D转载 2013-07-07 10:28:39 · 893 阅读 · 0 评论 -
hadoop深入研究:(六)——HDFS数据完整性
数据完整性 IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高。校验错误最常用得办法就是传输前计算一个校验和,传输后计算一个校验和,两个校验和如果不相同就说明数据存在错误,比较常用得错误校验码是CRC32. hdfs数据完整性 hdfs写入的时候计算出校验和,然后每次读的时候再计算校验和。要注意的一点是,hdfs每固定长度就会计算一次校验和,这个值由io.bytes转载 2013-07-07 10:27:42 · 1018 阅读 · 0 评论 -
hadoop深入研究:(五)——Archives
简介 我们在hadoop深入研究:(一)——hdfs介绍里已讲过,hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存。 hadoop Archives可以有效的处理以上问题,他可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件,并转载 2013-07-07 10:26:30 · 893 阅读 · 0 评论 -
hadoop深入研究:(四)——distcp
我们前几篇文章讲的都是单线程的操作,如果要并行拷贝很多文件,hadoop提供了一个小工具distcp,最常见的用法就是在两个hadoop集群间拷贝文件,帮助文档很详尽,这里就不一一解释了,开发环境没有两个集群,用同一集群演示: hadoop distcp hdfs://namenode:9000/user/hadoop/input hdfs://namenode:9000/user/hado转载 2013-07-07 10:25:16 · 1306 阅读 · 0 评论 -
hadoop深入研究:(二)——java访问hdfs
读数据 使用hadoop url读取 比较简单的读取hdfs数据的方法就是通过java.net.URL打开一个流,不过在这之前先要预先调用它的setURLStreamHandlerFactory方法设置为FsUrlStreamHandlerFactory(由此工厂取解析hdfs协议),这个方法只能调用一次,所以要写在静态块中。然后调用IOUtils类的copyBytes将hdfs数据流拷贝到标转载 2013-07-07 10:20:33 · 1161 阅读 · 0 评论 -
hadoop深入研究:(一)——hdfs介绍
hdfs设计原则 1.非常大的文件: 这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据 2.流式数据访问: 基于一次写,多次读。 3.商用硬件: hdfs的高可用是用软件来解决,因此不需要昂贵的硬件来保障高可用性,各个生产商售卖的pc或者虚拟机即可。 hdfs不适用的场景 1.低延迟的数据访问 hd转载 2013-07-07 10:17:21 · 1186 阅读 · 0 评论 -
Hadoop的那些事儿
from:http://www.searchtb.com/2010/11/talk-about-hadoop.html 在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但转载 2013-08-05 17:22:58 · 829 阅读 · 0 评论 -
hadoop深入研究:(十)——序列化与Writable接口
转自:http://blog.csdn.net/lastsweetop/article/details/9193907 所有源码在github上,https://github.com/lastsweetop/styhadoop 简介 序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。 通讯格式需求 hadoop在节点间的内部转载 2013-07-07 10:33:48 · 1173 阅读 · 0 评论