hadoop
张冲andy
熟悉各种数据库,包括不限于 mysql,postgresql,oracle,redis,mongodb,clickhouse等
展开
-
Hadoop体系结构之 Mapreduce
MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的不同的从节点上。主节点监视它们的执行情况,并重新执行之前失败的任务。从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接受到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控Task原创 2017-08-12 18:52:13 · 299 阅读 · 0 评论 -
hadoop之 hadoop日志存放路径
环境:[root@hadp-master hadoop-2.7.4]# hadoop versionHadoop 2.7.4Hadoop的日志大致可以分为两类:(1)、Hadoop系统服务输出的日志;(2)、Mapreduce程序输出来的日志。这两类的日志存放的路径是不一样的。本文基于Hadoop 2.x版本进行说明的,其中有些地方在Hadoop 1.x中是没有的,请周知。原创 2017-10-16 20:36:04 · 3949 阅读 · 0 评论 -
hadoop之 Hadoop1.x和Hadoop2.x构成对比
Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker;Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS:HA、NameNode Federation 2、MapReduce/其他计算框架:运行在YARN之上的MapReduc转载 2017-10-16 22:16:57 · 481 阅读 · 0 评论 -
hadoop之 Hadoop 2.x HA 、Federation
HDFS2.0之HA主备NameNode: 1、主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换; 2、主NameNode的信息发生变化后,会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中; 3、所有DataNode同时向两个NameNode发送心跳信息(块信息);两种切换方式: 1、手动切原创 2017-10-16 22:28:13 · 237 阅读 · 0 评论 -
数据仓库与ODS的区别
我在公司的数据部门工作,每天的订单类数据处理流程大致如下:删除分析数据库的历史订单数据全量更新订单数据到分析数据库。(由于订单核心数据不大,所以经受得起这么折腾)将数据简单清洗,并生成数据集市层分析处理,产出报表。当然还有其他的数据也是这么处理的(比如产品的数据、景区的数据、票种的数据、供应商的数据等等)还有日志类的数据,这里不是重点,就不介绍了!这么干了一年,发现有如下问题:原创 2017-10-26 17:47:00 · 3409 阅读 · 3 评论 -
hadoop之 心跳时间与冗余快清除
1.Hadoop datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:timeout = 2 * heartbeat.recheck.int原创 2018-01-31 19:48:42 · 339 阅读 · 1 评论 -
hadoop之 map个数控制
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,1.x默认为64M,2.x为1原创 2018-02-03 17:06:03 · 1401 阅读 · 0 评论 -
hadoop之 reduce个数控制
1、参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.reduce.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximummapred.reduce.tasks原创 2018-02-03 20:01:38 · 1417 阅读 · 0 评论 -
PIG之 Hadoop 2.7.4 + pig-0.17.0 安装
首先: 参考 http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群。 然后,在master节点安装pig。 我们用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式原创 2018-01-28 21:18:27 · 742 阅读 · 0 评论 -
hadoop 配置文件简析
文件名称 格式 描述hadoop-env.sh bash脚本 记录hadoop要用的环境变量core-site.xml hadoop 配置 xml hadoop core 配置项,例如 HDFS 和 Mapreduce 常用的i/o 设置等hdfs-si原创 2018-02-05 10:21:08 · 155 阅读 · 0 评论 -
Hadoop之 MapReducer工作过程
1. 从输入到输出一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。在shuffle阶段还会发生copy(复制)和sort(排序)。在MapReduce的过程中,一个作业被分成Map和Reducer两转载 2018-02-05 11:41:21 · 697 阅读 · 1 评论 -
hadoop之 Yarn 调度器Scheduler详解
概述集群资源是非常有限的,在多用户、多任务环境下,需要有一个协调者,来保证在有限资源或业务约束下有序调度任务,YARN资源调度器就是这个协调者。YARN调度器有多种实现,自带的调度器为Capacity Scheduler和Fair Scheduler。YARN资源调度器均实现Resource Scheduler接口,是一个插拔式组件,用户可以通过配置参数来使用不同的调度器,也可以自己按照接转载 2018-02-05 15:30:37 · 393 阅读 · 0 评论 -
hadoop之 hadoop 机架感知
1.背景Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程序读取离原创 2017-10-13 10:59:53 · 363 阅读 · 0 评论 -
hadoop之 hadoop 2.2.X 弃用的配置属性名称及其替换名称对照表
Deprecated Properties 弃用属性The following table lists the configuration property names that are deprecated in this version of Hadoop, and their replacements.下表列出了在这个版本的Hadoop中被弃用的配置属性名称及其替换。原创 2017-10-18 23:15:39 · 444 阅读 · 0 评论 -
Hadoop体系结构之 Yarn
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。原创 2017-08-12 18:52:59 · 353 阅读 · 0 评论 -
Hadoop体系结构之 HDFS
HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能,在最新的版本中就已经实现了)。NameNode作为主服务器,管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件原创 2017-08-12 18:51:24 · 2532 阅读 · 0 评论 -
Hadoop 之 NameNode 元数据原理
在对NameNode节点进行格式化时,调用了FSImage的saveFSImage()方法和FSEditLog.createEditLogFile()存储当前的元数据。Namenode主要维护两个文件,一个是fsimage,一个是editlog。fsimage :保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间原创 2017-08-13 13:00:17 · 338 阅读 · 1 评论 -
hadoop之 Zookeeper 分布式应用程序协调服务
(1) Zookeeper 在 Hadoop 集群中的作用Zookeeper 是分布式管理协作框架,Zookeeper 集群用来保证 Hadoop 集群的高可用,(高可用的含义是:集群中就算有一部分服务器宕机,也能保证正常地对外提供服务。)(2) Zookeeper 保证高可用的原理Zookeeper 集群能够保证 NameNode 服务高可用的原理是:Hadoop 集群中有两个原创 2017-08-13 17:40:30 · 231 阅读 · 0 评论 -
CentOS7下搭建hadoop2.7.3完全分布式
这里搭建的是3个节点的完全分布式,即1个nameNode,2个dataNode,分别如下:CentOS-master nameNode 192.168.11.128CentOS-node1 dataNode 192.168.11.131CentOS-node2 dataNode 192.168..11.1321.首先创建好一个CentOS原创 2017-08-27 17:02:48 · 1021 阅读 · 0 评论 -
Hadoop 2.7.4 关闭与启动
环境说明:[root@hadp-master sbin]# hadoop versionHadoop 2.7.4一、 脚本封装全部一起启动、关闭1.1 启动[root@hadp-master sbin]# ./start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.s原创 2017-08-27 21:44:20 · 7534 阅读 · 1 评论 -
hadoop之 HDFS fs 命令总结
版本:Hadoop 2.7.4-- 查看hadoop fs帮助信息[root@hadp-master sbin]# hadoop fsUsage: hadoop fs [generic options][-appendToFile ... ][-cat [-ignoreCrc] ...][-checksum ...][-chgrp [-R] GROUP PAT原创 2017-08-28 00:23:13 · 2468 阅读 · 0 评论 -
hadoop之 hadoop用途方向
hadoop是什么?Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何原创 2017-08-28 21:26:06 · 22868 阅读 · 3 评论 -
hadoop 之Hadoop生态系统
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统: 2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是G原创 2017-09-06 17:39:56 · 408 阅读 · 0 评论 -
hadoop之 Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无原创 2017-09-06 22:00:24 · 237 阅读 · 0 评论 -
hadoop之 解析HDFS的写文件流程
文件是如何写入HDFS的 ?下面我们来先看看下面的“写”流程图: 假如我们有一个文件test.txt,想要把它放到Hadoop上,执行如下命令:引用 # hadoop fs -put /usr/bigdata/dataset/input/20130706/test.txt /opt/bigdata/hadoop/data原创 2017-09-07 16:07:44 · 768 阅读 · 0 评论 -
hadoop之 HDFS-Hadoop存档
每个文件按块方式存储, 每个块的元数据存储在namenode的内存中Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问Hadoop存档文件可以用作MapReduce的输入使用Hadoop存档工具Hadoop存档是通过archive工具根据一组文件创建而来的,该存档工具运行一个MapReduce作业来并行原创 2017-09-07 17:53:28 · 676 阅读 · 0 评论 -
java之 JVM 内存管理详解
一、JVM结构根据《java虚拟机规范》规定,JVM的基本结构一般如下图所示:从左图可知,JVM主要包括四个部分:1.类加载器(ClassLoader):在JVM启动时或者在类运行时将需要的class加载到JVM中。(右图表示了从java源文件到JVM的整个过程,可配合理解。 关于类的加载机制,可以参考http://blog.csdn.net/tonytfjing/原创 2017-10-17 19:09:46 · 987 阅读 · 1 评论 -
hadoop之 YARN配置参数剖析—RM与NM相关参数
参数均需要在yarn-site.xml中配置:1. ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yarn.resourcemanager.hostname}:8032(2)原创 2017-10-18 22:41:16 · 362 阅读 · 0 评论 -
hadoop YARN配置参数剖析—MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Job原创 2017-10-18 23:06:54 · 853 阅读 · 0 评论