从零开始学习大数据-Haddop
初认hadoop,重点是hdfs 读写流程,mapreduce框架原理,NN与2NN 之间关系(持久化)本篇注重理论
yidianyidei
这个作者很懒,什么都没留下…
展开
-
Hadoop 中分布式组件工作机制策略及基础思想理论概述
文章目录一 Hadoop 组成1 HDFS 组成NN集群安全模式DN:详细请见2NN详细请见2 数据上传详细请见:3 Mapreduce过程详细请见4 YarnRM:NM:AMContainer详细请见一 Hadoop 组成hdfs :分布式文件存储系统mapreduce:分布式计算框架yarn:分布式资源调度框架1 HDFS 组成NN DN 2NNNN:NameNode 存储事–存储元数据NN启动加载 Fsimage+edit.log NN (有了最新元数据信息)—>安全模式(99原创 2020-08-05 16:31:39 · 146 阅读 · 0 评论 -
Hadoop 企业优化(调优)
文章目录MapReduce 跑的慢的原因MapReduce优化方法数据输入Map 阶段Reduce 阶段IO 传输*数据倾斜HDFS小文件优化方法HDFS小文件弊端HDFS小文件解决方案解决方案MapReduce 跑的慢的原因2- 设置相等3-map reduce 共存 4-打har 包 或者combineTextinputformat5-指压缩后的 ---解压6-溢写, 改大环型缓冲区7-合并 改变一次合并文件数量 MapReduce优化方法MapReduce优化方法主原创 2020-07-31 15:07:27 · 110 阅读 · 0 评论 -
Yarn 资源调度器详解以及 什么是调度器介绍 遇到任务卡顿 如何处理
文章目录Yarn 资源调度器Yarn 基本架构* Yarn 工作机制资源调度器FIFO 先进先出调度器容量调度器 **Capacity Scheduler**** Fair Scheduler 公平调度器(灵活)问任务的推测执行1.作业完成时间取决于最慢的任务完成时间2.推测执行机制3.执行推测任务的前提条件4.不能启用推测执行机制情况你在工作中有没有碰到任务卡到过?怎么处理:Yarn 资源调度器Hadoop 分三个部分组成:HDFS,MapReduce YarnYarn是一个资源调度平台,负责为运算原创 2020-07-31 14:58:26 · 521 阅读 · 0 评论 -
Hadoop数据压缩以及特点什么时候会用到压缩?Snappy 是什么呢
回顾Shuffle加载在map 输出 reduce 输入之前这么一个过程shuffle目的 —“分组”环型缓冲区80%(分区排序–同时完成)----combiner----- 溢写磁盘上(分区且有序 spill.index(索引)+.out(输出文件))—归并排序–数据流还没落盘(把所有溢写文件 归并成一个文件 ,比如分区1 都归并写在一个分区1 ,分区2 都写在一个分区2里 )溢写完输出多个文件,多个文件分区归并,归并完结果是一个文件,这个文件是分区且有序(输出在磁盘的样子)Shuffle原创 2020-07-31 14:40:48 · 387 阅读 · 1 评论 -
Hadoop-----MapReduce 框架原理(重要)
文章目录MapReduce 框架原理**(重点)地图:**一** InputFormat 数据输入1 把文件切片概况FileInputFormat 切片源码解析2CombineTextInputFormat (小文件切片机制)1、应用场景:2、虚拟存储切片最大值设置3、切片机制切片机制(1)虚拟存储过程:(2)切片过程:3 自定义inputFormat4 总结二 Shuffle归并排序:1*** Shuffle 机制概述2 Partition 分区分区与ReduceTasks 之间关系呢???默认分区分区总原创 2020-07-26 22:44:21 · 211 阅读 · 0 评论 -
大数据~DataNode详解&MapReduce 概述
文章目录DataNode 详解一 DataNode 工作机制数据完整性掉线时限参数设置二 服役新数据节点\0. 需求\1. 环境准备\2. 服役新节点具体步骤(1)直接启动DataNode,即可关联到集群(2)在hadoop105上上传文件(3)如果数据不均衡,可以用命令实现集群的再平衡三 退役旧数据节点1 添加白名单刷新NameNode更新ResourceManager节点2 黑名单退役四 Datanode多目录配置五 HDFS 2.X新特性1 集群间数据拷贝2 小文件存档六 MapReduce优点:原创 2020-07-24 12:47:14 · 503 阅读 · 0 评论 -
HDFS 读写流程图解&上传&下载&网络拓扑&Secondary NameNode与 NameNode 之间关系(重点干货)
HDFS上传图解图解块2 也是如此流程扩展网络拓扑只描述他们关系 ,不管他们是什么。图机架感知(副本选择策略)—副本数是3的情况下 ,第一个副本是localrack ,其它可能是不同机架不同节点,不会跨数据中心机架感知(副本选择策略)—副本数是3的情况下 ,第一个副本是localrack ,其它可能是不同机架不同节点,不会跨数据中心为何建立通道串行?围绕 IO —>因为性能---->并行的话压力集中在客户端,使得性能变差------>只能串行挂了?请求原创 2020-07-21 00:32:52 · 228 阅读 · 0 评论 -
大数据---Hadoop集群搭建之HDFS
一 概念1 生产背景管理多台机器上的文件,这就是分布式文件管理系统HDFS 是分布式文件管理系统中一种2 定义文件系统用于存储文件,通过目录(树)来定位文件,其次它是分布式的,由很多服务器联合起来体现其功能,集群中的服务器有各自的角色3 应用场景适合一次写入 多次读出场景(不支持文件修改,支持文件追加)—适合做数据分析4* 优缺点优点1 高容错性:通过自己保存多个副本形式(副本->服务器)&自动恢复2 适合处理大数据:数据规模(GB-PB)级别的数据&am原创 2020-07-20 17:57:00 · 256 阅读 · 0 评论 -
大数据---Hadoop集群搭建学习(干货)
文章目录Hadoop 集群搭建学习1 Hadoop发展史2 Hadoop三大发行版本3 Hadoop的优势(4高)4 Hadoop组成(面试重点)5 HDFS架构概述6 MapReduce架构概述7 大数据技术生态体系8 推荐系统框架图一 装hadoop&Java1创建文件夹2 安装JDK1.卸载现有JDK2.查看软件包3.解压安装包4 配置环境变量Grep案例WordCount案例二 伪分布式运行模式启动HDFS并运行MapReduce程序配置集群*启动集群启动YARN并运行MapRedu原创 2020-07-04 19:09:50 · 796 阅读 · 0 评论