![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
Exzzla
这个作者很懒,什么都没留下…
展开
-
HDFS概述与架构
概述HDFS即Hadoop分布式文件系统。源自GFS论文。有以下特点: 1、高容错性的分布式文件系统。 2、可构建在廉价机器上,通过多副本机制,提高可靠性。 3、易扩展、为用户提供性能不错的文件存储服务。缺点: 1、不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。 2、无法高效的对大量...原创 2019-02-25 14:09:48 · 416 阅读 · 0 评论 -
Hadoop HA原理及架构
什么是HA?1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。Hadoop HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。HDFS HA官网:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1/hadoop-p...原创 2019-04-11 11:26:12 · 666 阅读 · 0 评论 -
Yarn 详解
Yarn(Yet Another Resource Negotiator 另一种资源协商者)它作为 Hadoop的一个组件,负责整个集群资源的管理和调度。 在Hadoop2.0的第一个版本2.0.0-alpha,Yarn 作为一个正式组件加入。 在hadoop 1.x时,JobTracker存在单点故障、节点压力大不容易扩展、不能够支持多种计算框架。Yarn...原创 2019-03-13 17:31:07 · 756 阅读 · 0 评论 -
Hadoop系列深入优化
1、 操作系统调优 1)增大打开文件数据和网络连接上限,调整内核参数net.core.somaxconn,提高读写速度和网络带宽使用率 2)适当调整epoll的文件描述符上限,提高Hadoop RPC并发 3)关闭swap。如果进程内存不足,系统会将内存中的部分数据暂时写入磁盘,当需要时再将磁盘上的数据动态换置到内存中,这样会降低进程执行效率...原创 2019-03-18 16:51:20 · 190 阅读 · 0 评论 -
Yarn 调优 (内存、CPU)
在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的。根据经验,每两个container使用一块磁盘以及一个CPU核的时候可以使集群的资源得到一个比较好的利用。内存配置YARN所有可用的内存资源应该要减去系统预留内存、各个进程内存的经验值。即:总共保留的内存=系统内存+各个进程内存的经验值。Hbase 、系统需要的内存(一般留总内存的20%左右)参考:每台...原创 2019-03-18 16:44:35 · 1234 阅读 · 0 评论 -
MapReduce详解
MapReduce源于Google一篇论文,它充分借鉴了“分而治之”的思想,将一个数据处理过程拆分为主要的Map(映射)与Reduce(归约)两步。简单地说,MapReduce就是"任务的分解与结果的汇总"。 MapReduce (MR) 是一个基于磁盘运算的框架,贼慢,慢的主要原因:1)MR是进程级别的,一个MR任务会创建多个进程(map task和reduce t...原创 2019-03-05 16:35:01 · 848 阅读 · 0 评论 -
HDFS 读写流程与副本放置策略
HDFS写数据流程1)客户端调用Distributed FileSystem模块的create方法,与NameNode进行RPC通信,请求上传文件,NameNode检查目标路径的文件是否已存在,以及有没有权限创建该文件。假如OK,直接先将操作写入edits文件(WAL),创建一个新文件,但是不关联任何的block。2)NameNode返回是否可以上传。3)客户端请求第一个 b...原创 2019-02-28 17:30:57 · 513 阅读 · 0 评论 -
使用ssh-copy-id命令轻松实现ssh多台机器免密
为什么要实现多台机器ssh免密? 配置分布式集群时, 不同的节点靠ssh互相通信,如果不配置免密, 无法完成通信。 多台机器ssh免密原理: 在每台机器的认证授信文件中, 都有其他机器(包括自己)的公钥。 假设有三台机器 (hostname如下)hadoop000hadoop001hadoop002 ssh-keygen ...原创 2019-02-18 17:08:26 · 1219 阅读 · 0 评论 -
Hadoop伪分布式环境搭建
版本 :hadoop-2.6.0-cdh5.7.0HDFS伪分布式搭建1)创建hadoop用户与app文件夹[root@hadoop001 ~]# useradd hadoop[root@hadoop001 ~]# su - hadoop[hadoop@hadoop001 ~]$ mkdir app[hadoop@hadoop001 ~]$ cd app/上传jar包到...原创 2019-02-18 16:16:49 · 106 阅读 · 0 评论 -
HDFS:NN、SNN、DN剖析
namenode被格式化之后,将在HADOOP_HOME/tmp/dfs/name/current (默认)产生以下文件: 参数:core-site.xml : hadoop.tmp.dir 指定hadoop运行时产生文件的存储目录 参数: hdfs-site.xml : dfs.namenode.name.dir 指定namenode...原创 2019-02-27 15:16:00 · 894 阅读 · 0 评论 -
Hadoop 源码编译(CDH版)
本文使用的hadoop版本为 hadoop-2.6.0-cdh5.7.0为什么要源码编译? 直接使用的hadoop-2.6.0-cdh5.7.0.tar.gz包部署的hadoop集群对于许多的压缩格式都是不支持的(如下图),生产上是不可接受的,故需要重新编译hadoop使之支持压缩。源码包下载地址 : http://archive.cloudera.com/cdh5/cd...原创 2019-04-17 16:59:08 · 1109 阅读 · 0 评论