BigData
文章平均质量分 81
woailyoo0000
这个作者很懒,什么都没留下…
展开
-
YARN多资源队列配置和使用
一. YARN的由来从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以是实现Hadoop集群的资源共享,不仅仅可以跑MapReduce,还可以跑Spark,Flink。二.YARN架构YARN主要负责集群资源的管理和调度,支持主从架构,主节点最多可以有2个,从节点可以有多个.其中:ResourceManager: 这是主节点,主要负责集群资源的分配和管理NodeManager:原创 2021-01-23 23:28:52 · 4820 阅读 · 1 评论 -
MapReduce解析之Shuffle过程详解
一. Shuffle执行过程Shuffle是一个网络拷贝的过程,是指通过网络把数据从map端拷贝到reduce端的过程。整体如图:在map阶段,最左边是一个inputsplit,一个inputsplit会产生一个map任务,map任务在执行的时候会把k1,v1转化为k2,v2,这些数据会先临时存储到一个内存缓冲区中,这个内存缓冲区的大小默认是100M(io.sort.mb属性),当达到内存缓冲区大小的80%(io.sort.spill.percent),也就是80MB的时候,会把内存中的数据原创 2021-01-14 20:38:32 · 467 阅读 · 0 评论 -
MapReduce案例之WordCount源码
一. 流程图二. WordCount流程梳理大致流程如下:第一阶段: 开发Map阶段第二阶段: 开发Reduce阶段第三阶段: 组装Job完整代码如下:package MapReduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.had原创 2021-01-12 23:02:41 · 471 阅读 · 1 评论 -
MapReduce解析
一. MapReduce介绍现在,我们有一摞牌,我想知道这摞牌中有多少张黑桃。最直接的方法就是一张一张牌数,最终统计出有多少张是黑桃。这种方式的效率比较低。如果牌的张数很多,例如有10亿张,该方法将完全无用武之地。这时我们可以使用MapReduce的计算方法第一步: 把这摞牌分配给所有节点第二步:让所有节点检查一下自己手中的牌有多少张是黑桃,然后把这个数目汇报给你第三步: 把所有节点的黑桃数加起来,得到最终结果。这样分布式计算,每个节点分一分小任务,最终再汇总,就可以快速得到答案原创 2021-01-11 22:05:50 · 836 阅读 · 1 评论 -
HDFS高可用群集HA搭建
一 .群集架构二.群集规划 namenode datanode journalnode zkfc zookeeperbigdata01 yes yes yes yesbigdata02 yes yes yes yes yesbigdata03 yes yes yes yes针对HDFS的HA群集,只需要启动HDFS相关的进程就可以了,YARN的相关进程可以不启动,它们两个的进程本来就是相互独立的。在HDFS的HA群集中,原创 2021-01-07 22:43:46 · 320 阅读 · 1 评论 -
HDFS高级特性
一. HDFS回收站我们Windows系统里面有一个回收站,当想恢复删除文件的时候可以到这里面恢复,HDFS也有回收站。HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/每一个被用户在shell命令行删除的文件/目录,都会进入到对应的回收站目录中,在一段时候内用户没对数据进行恢复的话,HDFS就会自动把这个文件/目录彻底删除。默认情况下HDFS的回收站是没有开启的,需要通过一个配置来开启,在core-site.xml中添加如下配置:value的单位是分钟,144原创 2021-01-07 21:46:37 · 224 阅读 · 1 评论 -
JAVA(maven + IDEA)操作HDFS
一. maven在Windows中的安装配置① 把apache-maven-3.6.3解压到D盘② 修改conf目录下的settings.xml<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.or...原创 2020-12-26 14:01:39 · 575 阅读 · 1 评论 -
HDFS常用操作
一. -ls 查看目录信息[root@bigdata01 hadoop-3.2.0]# hdfs dfs -ls hdfs://bigdata01:9000/[root@bigdata01 hadoop-3.2.0]#hdfs中url这一串内容在使用时默认是可以省略的,因为hdfs在执行的时候会根据HADOOP_HOME自动识别配置文件中的fs.defaultFS属性所以这样简写也是可以的:[root@bigdata01 hadoop-3.2.0]# hdfs dfs -ls /[ro..原创 2020-12-26 13:47:03 · 285 阅读 · 1 评论 -
MapReduce性能优化
一.小文件问题Hadoop 的HDFS和MapReduce都是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源。针对HDFS而言,每一个小文件在namenode中都会占用150字节的内存空间,最终导致群集中虽然存储了很多文件,但文件总体的体积并不大,这样就没有意义了。针对MapReduce而言,每一个小文件都是一个Block,都会产生一个InputSplit,最终每一个小文件都会产生一个map任务,这样会导致同时启动太多的Map任务,Map任务的启动是非常消耗性能的,如原创 2020-12-24 20:46:39 · 436 阅读 · 1 评论 -
Hadoop 分布式群集安装
看一下这个图,图里面表示是三个节点,左边这个是主节点,右边的两个是从节点,hadoop群集是支持主从架构的.不同节点上启动的进程是不一样的.主节点进程: NameNode,Secondary namenode, ResourceManager从节点进程: DataNode, NodeManager环境准备:三个虚拟机192.168.247.5 hadoop1192.168.247.6 hadoop2192.168.247.7 hadoop3注意:每个节点的基础环境都...原创 2020-10-27 10:59:08 · 228 阅读 · 1 评论