Hadoop&HDFS
胜佑
这个作者很懒,什么都没留下…
展开
-
Hadoop之为何不使用RAID?
Hadoop之为何不使用RAID?一、引言:在一次和同事的讨论中遇到一个这样的问题:有一个hadoop集群,在hbase的put数据出现瓶颈,他们想要把datanode上的磁盘做成RAID 0(比如10块磁盘做成一个RAID 0),我当时就说这样的做法不太好,但是没有给出充足的理由不好反驳,只是说官方建议每块磁盘做成单独的RAID 0.今天有机会看到《Hadoop 指南》上正好有一块写到had...转载 2018-09-20 20:03:23 · 934 阅读 · 0 评论 -
初识HDFS(10分钟了解HDFS、NameNode和DataNode)
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。HDFS特点: ① 保存多个副本,...转载 2018-09-27 19:55:52 · 727 阅读 · 0 评论 -
hadoop对于压缩文件的支持
hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。hadoop对每个压缩格式的支持,详细见下表: 压缩格式 工具 算法 文件扩展名 多文件...转载 2018-09-29 17:47:39 · 445 阅读 · 0 评论 -
Shuffle过程介绍
摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行...转载 2018-10-30 11:48:53 · 380 阅读 · 0 评论 -
MapReduce详解
1.1 MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。 1.2 MapReduce做什么...转载 2018-11-06 10:34:41 · 310 阅读 · 0 评论 -
MapReduce使用示例大全
版权声明:本文为博主原创文章,请尊重劳动成果,觉得不错就在文章下方顶一下呗,转载请标明原地址。 https://blog.csdn.net/m0_37739193/article/details/76053636MapReduce功能实现系列:MapReduce功能实现一---Hbase和Hdfs之间数据相互转换MapReduce功能实现二---排序MapReduce功能实现三---...转载 2018-11-07 11:22:09 · 2314 阅读 · 0 评论 -
MapReduce中Combiner的作用和用法
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sl1992/article/details/53980826MapReduce中Combiner的作用和用法①每一个map可能会产生大量的输出,Combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 ②Combiner最基本是实现本地key的归并,...转载 2018-11-07 13:46:57 · 2350 阅读 · 0 评论