![](https://img-blog.csdnimg.cn/bffd7d7dc5dc4a39a72ee212b96b6586.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 87
大数据中Hadoop(HDFS、Yarn、MR等)框架学习文章汇总
电光闪烁
一个大数据开发工程师的学习之路
展开
-
Hadoop文章汇总
Hadoop相关博文汇总:Hadoop(1):Hadoop概述 Hadoop(2):Hadoop的安装和部署 Hadoop(3):Hadoop安装和部署过程中的常见问题 Hadoop(4):HDFS概述 Hadoop(5):HDFS的Shell操作 Hadoop(6):HDFS的API操作 Hadoop(7):HDFS读写流程 Hadoop(8):HDFS之NameNode和SecondaryNameNode Hadoop(9):HDFS之DataNode Hadoop(10):Map原创 2022-04-12 00:36:34 · 1134 阅读 · 0 评论 -
Hadoop(38):Hadoop调优之综合调优
目录0. 相关文章链接1. 需求2.HDFS参数调优3.MapReduce参数调优4.Yarn参数调优5.执行程序0. 相关文章链接Hadoop文章汇总1. 需求1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程2)需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3)2....原创 2022-05-09 23:02:10 · 329 阅读 · 0 评论 -
Hadoop(37):Hadoop调优之Yarn生产经验
目录0. 相关文章链接1. 常用的调优参数2. 调度器的使用0. 相关文章链接Hadoop文章汇总1. 常用的调优参数1)Resourcemanager相关yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器2)Nodemanager相关yarn.nodem...原创 2022-05-09 22:36:58 · 233 阅读 · 0 评论 -
Hadoop(36):Hadoop调优之MapReduce生产经验
目录0. 相关文章链接1. MapReduce跑的慢的原因1.1. 计算机性能1.2. I/O操作优化2.MapReduce常用调优参数(上)3. MapReduce常用调优参数(下)4.MapReduce数据倾斜问题4.1.数据倾斜现象4.2.减少数据倾斜的方法0. 相关文章链接Hadoop文章汇总1. MapReduce跑的慢的原因MapReduce程序效率的瓶颈在于两点:1.1. 计算机性能CPU、内存、磁盘、网络1.2. I...原创 2022-05-09 22:32:29 · 631 阅读 · 0 评论 -
Hadoop(35):Hadoop调优之HDFS集群迁移
目录0. 相关文章链接1. Apache和Apache集群间数据拷贝2.Apache和CDH集群间数据拷贝0. 相关文章链接Hadoop文章汇总1. Apache和Apache集群间数据拷贝1)scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/root/hello.txt // 推 push scp -r root@hadoop103:/user/root/hello.txt hello....原创 2022-05-09 22:11:43 · 1279 阅读 · 0 评论 -
Hadoop(34):Hadoop调优之HDFS故障排除
目录0. 相关文章链接1. NameNode故障处理2.集群安全模式&磁盘修复2.1. 安全模式概述2.2.案例1:启动集群进入安全模式2.3. 案例2:磁盘修复2.4. 案例3:模拟等待安全模式3.慢磁盘监控4.小文件归档4.1.HDFS存储小文件弊端4.2.解决存储小文件办法之一4.3. 实例操作0. 相关文章链接Hadoop文章汇总1. NameNode故障处理1)需求:NameNode进程挂了并且存储的数据也...原创 2022-05-08 12:43:29 · 803 阅读 · 0 评论 -
Hadoop(33):Hadoop调优之HDFS存储优化
目录0. 相关文章链接1. 纠删码1.1. 纠删码原理1.2.纠删码案例实操2.异构存储(冷热数据分离)2.1. 什么是异构存储2.2.异构存储Shell操作2.3.测试环境准备2.4.HOT存储策略案例2.5.WARM存储策略测试2.6. COLD策略测试2.7.ONE_SSD策略测试2.8.ALL_SSD策略测试2.9.LAZY_PERSIST策略测试0. 相关文章链接Hadoop & Hive 文章汇总1...原创 2022-05-07 21:41:22 · 863 阅读 · 0 评论 -
Hadoop(32):Hadoop调优之HDFS集群扩容及缩容
0. 相关文章链接Hadoop 文章汇总1. 添加白名单白名单:表示在白名单的主机IP地址可以,用来存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击。配置白名单步骤如下:1)在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件创建白名单(在hadoop的whitelist文件下添加白名单机器,比如在whitelist中添加如下主机名称,那集群正常工作的节点为102 1原创 2022-05-06 23:56:34 · 395 阅读 · 0 评论 -
Hadoop(31):Hadoop调优之HDFS多目录
目录0. 相关文章链接1. NameNode多目录配置2.DataNode多目录配置3.集群数据均衡之磁盘间数据均衡0. 相关文章链接Hadoop 文章汇总1. NameNode多目录配置1)NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性2)具体配置如下在hdfs-site.xml文件中添加如下内容(注意:因为每台服务器节点的磁盘情况不同,所以这个配置配完之后,可以选择不分发)<property> &l..原创 2022-05-06 23:33:50 · 375 阅读 · 0 评论 -
Hadoop(30):Hadoop调优之HDFS集群压测
目录0. 相关文章链接1. 为什么要进行集群压测2.测试HDFS写性能2.1. 写测试底层原理2.2. 测试内容:向HDFS集群写10个128M的文件2.3. 注意:如果测试过程中,出现异常2.4. 测试结果分析3. 测试HDFS读性能3.1.测试内容:读取HDFS集群10个128M的文件3.2.删除测试生成数据3.3.测试结果分析0. 相关文章链接Hadoop 文章汇总1. 为什么要进行集群压测在企业中非常关心每天从Java后台拉取过来的...原创 2022-05-05 23:28:29 · 631 阅读 · 0 评论 -
Hadoop(29):Hadoop调优之HDFS核心参数
目录0. 相关文章链接1.NameNode内存生产配置2.NameNode心跳并发配置3.开启回收站配置3.1. 回收站工作机制3.2. 开启回收站功能参数说明3.3.启用回收站3.4.查看回收站3.5. 其他删除方式3.6.恢复回收站数据0. 相关文章链接Hadoop 文章汇总1.NameNode内存生产配置1)NameNode内存计算每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128 * ...原创 2022-05-05 23:02:02 · 846 阅读 · 0 评论 -
Hadoop(28):Yarn的Tool接口案例
目录0. 相关文章链接1. 需求2.具体步骤3. 提交Jar包0. 相关文章链接Hadoop 文章汇总1. 需求使用如下命令执行官方的WordCount案例:hadoop jar wc.jar com.atguigu.mapreduce.wordcount2.WordCountDriver /input /output1期望可以动态传参,结果报错,误认为是第一个输入参数。hadoop jar wc.jar com.atguigu.mapreduce.word.原创 2022-05-05 21:46:19 · 303 阅读 · 0 评论 -
Hadoop(27):Yarn中公平调度器多队列提交
目录0. 相关文章链接1. 需求2.配置多队列的公平调度器3.测试提交任务0. 相关文章链接Hadoop 文章汇总1. 需求创建两个队列,分别是test和atguigu(以用户所属组命名)。期望实现以下效果:若用户提交任务时指定队列,则任务提交到指定队列运行;若未指定队列,test用户提交的任务到root.group.test队列运行,produce提交的任务到root.group.produce队列运行(注:group为用户所属组)。公...原创 2022-05-05 21:39:31 · 598 阅读 · 0 评论 -
Hadoop(26):Yarn中容量调度器多队列提交
目录0. 相关文章链接1. 在生产环境怎么创建队列2. 创建多队列的好处3. 需求4.配置多队列的容量调度器5. 向Hive队列提交任务6. 任务优先级0. 相关文章链接Hadoop 文章汇总1. 在生产环境怎么创建队列1)调度器默认就1个default队列,不能满足生产要求。2)按照框架:hive /spark/ flink 每个框架的任务放入指定的队列(企业用的不是特别多)3)按照业务模块:登录注册、购物车、下单、业务部门1、业务部门22. 创建.原创 2022-05-05 21:32:36 · 530 阅读 · 0 评论 -
Hadoop(25):Yarn核心参数配置案例
目录0. 相关文章链接1. Yarn核心参数1.1. ResourceManager相关1.2. NodeManager相关1.3.Container相关2.Yarn案例实操2.1. 需求2.2. 需求分析2.3.修改yarn-site.xml配置参数如下2.4.分发配置2.5.重启集群2.6.执行WordCount程序2.7.观察Yarn任务执行页面0. 相关文章链接Hadoop 文章汇总1. Yarn核心参数1.1. ...原创 2022-05-05 00:21:08 · 380 阅读 · 0 评论 -
Hadoop(24):Yarn的常用命令
目录0. 相关文章链接1. 什么是YARN的常用命令2. yarn application查看任务3.yarn logs查看日志4.yarn applicationattempt查看尝试运行的任务5.yarn container查看容器6.yarn node查看节点状态7.yarn rmadmin更新配置8.yarn queue查看队列0. 相关文章链接Hadoop 文章汇总1. 什么是YARN的常用命令Yarn状态的查询,除了可以在bigda...原创 2022-05-04 23:55:52 · 3230 阅读 · 0 评论 -
Hadoop(23):Yarn调度器和调度算法
目录0. 相关文章链接1. YARN调度器概述2. 先进先出调度器(FIFO)3. 容量调度器(Capacity Scheduler)3.1. 容量调度器的特点3.2. 容量调度器资源分配算法4. 公平调度器(Fair Scheduler)4.1. 公平调度器的特点4.2. 公平调度器之缺额4.3. 公平调度器队列资源分配方式4.4. 公平调度器资源分配算法0. 相关文章链接Hadoop 文章汇总1. YARN调度器概述目前,Had...原创 2022-05-04 23:45:32 · 614 阅读 · 0 评论 -
Hadoop(22):Yarn概述
目录0. 相关文章链接1. Yarn基础架构2. Yarn工作机制3. Yarn的作业提交全过程3.1. HDFS、YARN、MapReduce三者之间的关系3.2. 作业提交过程之YARN3.3. 作业提交过程之HDFS和MapReduce3.4. 作业提交全过程详解0. 相关文章链接Hadoop 文章汇总1. Yarn基础架构Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等...原创 2022-05-04 23:16:38 · 267 阅读 · 0 评论 -
Hadoop(21):MapReduce开发过程中常见错误及解决方案
目录0. 相关文章链接1. 导包出错2. 输入参数3. java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4)4. 是否执行分区过程5. windows和Linux环境冲突6.找不到文件异常7.报类型转换异常8.集群中运行wc.jar时出现了无法获得输入文件9.出现了如下相关异常10.输出的文件内容中数据为空0. 相关文章链接Hadoop 文章...原创 2022-05-03 23:51:51 · 1814 阅读 · 0 评论 -
Hadoop(20):Hadoop数据压缩
目录0. 相关文章链接1. 概述1.1. 压缩的好处和坏处1.2. 压缩的原则2. MR支持的压缩编码2.1. 压缩算法对比介绍2.2.压缩性能的比较3. 压缩方式选择3.1. Gzip压缩3.2. Bzip2压缩3.3.Lzo压缩3.4. Snappy压缩3.5. 压缩位置选择4. 压缩参数配置5. 压缩实操案例5.1. Map输出端采用压缩5.2.Reduce输出端采用压缩0. 相关文章链接Hadoop 文章汇总1. ...原创 2022-05-03 23:41:31 · 414 阅读 · 0 评论 -
Hadoop(19):MapReduce框架原理之MapReduce开发总结
目录0. 相关文章链接1. 输入数据接口:InputFormat2. 逻辑处理接口:Mapper3. Partitioner分区4.Comparable排序5.Combiner合并6.逻辑处理接口:Reducer7.输出数据接口:OutputFormat0. 相关文章链接Hadoop 文章汇总1. 输入数据接口:InputFormat(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat的功能逻辑是:一次读一行...原创 2022-05-03 23:23:22 · 203 阅读 · 0 评论 -
Hadoop(18):MapReduce框架原理之数据清洗(ETL)
目录0. 相关文章链接1. 数据清洗(ETL)概述2. 需求3. 需求分析4. 实现代码0. 相关文章链接Hadoop 文章汇总1. 数据清洗(ETL)概述“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。在运行核心业务MapReduce程序之前,往往要先对...原创 2022-05-03 23:19:33 · 2242 阅读 · 0 评论 -
Hadoop(17):MapReduce框架原理之Join应用
目录0. 相关文章链接1.Reduce Join2.Reduce Join案例实操2.1. 需求2.2. 需求分析2.3. 代码实现2.4. 测试2.5. 总结3. Map Join3.1. 使用场景3.2. 优点3.3.具体办法:采用DistributedCache4.Map Join案例实操4.1. 需求4.2.需求分析4.3. 实现代码0. 相关文章链接Hadoop 文章汇总1.Reduce Join...原创 2022-05-03 21:58:17 · 247 阅读 · 0 评论 -
Hadoop(16):MapReduce框架原理之MapReduce内核源码解析
目录0. 相关文章链接1. MapTask工作机制2.ReduceTask工作机制3.ReduceTask并行度决定机制3.1.设置ReduceTask并行度(个数)3.2.实验:测试ReduceTask多少合适3.3.注意事项4.MapTask & ReduceTask源码解析4.1.MapTask源码解析流程4.2.ReduceTask源码解析流程0. 相关文章链接Hadoop 文章汇总1. MapTask工作机制1)R...原创 2022-05-03 21:27:39 · 607 阅读 · 0 评论 -
Hadoop(15):MapReduce框架原理之OutputFormat数据输出
目录0. 相关文章链接1. OutputFormat接口实现类2.自定义OutputFormat案例实操2.1. 需求2.2. 需求分析2.3. 案例实操0. 相关文章链接Hadoop 文章汇总1. OutputFormat接口实现类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面介绍几种常见的OutputFormat实现类。1)OutputFormat实现类2)默认输出格.原创 2022-05-03 21:13:51 · 492 阅读 · 0 评论 -
Hadoop(14):MapReduce框架原理之Shuffle机制
目录0. 相关文章链接1. 什么是Shuffle机制2. Partition分区2.1. 什么是Partition分区2.2. 默认Partitioner分区2.3.自定义Partitioner步骤2.4.分区总结2.5.案例分析3. Partition分区案例实操3.1. 需求3.2. 需求分析3.3. 具体代码3.4.在驱动函数中增加自定义数据分区设置和ReduceTask设置4.WritableComparable排序4.1. 排序...原创 2022-05-03 01:15:21 · 442 阅读 · 0 评论 -
Hadoop(13):MapReduce框架原理之MapReduce工作流程
目录0. 相关文章链接1. MapReduce详细工作流程一2. MapReduce详细工作流程二3. MapReduce工作流程详解0. 相关文章链接Hadoop 文章汇总1. MapReduce详细工作流程一2. MapReduce详细工作流程二3. MapReduce工作流程详解如上所示的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:MapTask收集我们的map()原创 2022-04-22 23:34:16 · 563 阅读 · 1 评论 -
Hadoop(12):MapReduce框架原理之InputFormat数据输入
目录0. 相关文章链接1. 切片与MapTask并行度决定机制1.1. 问题引出1.2. MapTask并行度决定机制1.3. 数据切片与MapTask并行度决定机制2. Job提交流程源码和切片源码详解2.1.Job提交流程源码详解2.2.FileInputFormat切片源码解析(input.getSplits(job))3.FileInputFormat切片机制3.1.FileInputFormat切片机制概述3.2.FileInputFormat...原创 2022-04-22 23:27:37 · 357 阅读 · 0 评论 -
Hadoop(11):Hadoop序列化
目录0. 相关文章链接1. 序列化概述1.1. 什么是序列化1.2. 为什么要序列化1.3. 为什么不用Java的序列化1.4. Hadoop序列化特点2. 自定义bean对象实现序列化接口(Writable)3. 序列化案例实操3.1. 需求3.2. 需求分析3.3. 编写MapReduce程序0. 相关文章链接Hadoop 文章汇总1. 序列化概述1.1. 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输...原创 2022-04-18 23:26:09 · 265 阅读 · 0 评论 -
Hadoop(10):MapReduce概述
目录0. 相关文章链接1. MapReduce定义2. MapReduce优缺点2.1. MapReduce优点2.2. MapReduce缺点3. MapReduce核心思想4. MapReduce进程5. 常用数据序列化类型6. MapReduce编程规范7. WordCount案例实操7.1. Mapper阶段7.2. Reduce阶段7.3. Driver阶段8.WordCount案例实操8.1. 本地测试8.2. 提交到集群测试.原创 2022-04-18 23:12:29 · 362 阅读 · 0 评论 -
Hadoop(9):HDFS之DataNode
目录0. 相关文章链接1. DataNode工作机制2. 数据完整性3. 掉线时限参数设置0. 相关文章链接Hadoop 文章汇总1. DataNode工作机制(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。DN向NN汇报当前解读信息的时间间隔,默认6小原创 2022-04-18 22:43:01 · 692 阅读 · 0 评论 -
Hadoop(8):HDFS之NameNode和SecondaryNameNode
目录0. 相关文章链接1. NN和2NN工作机制2. Fsimage和Edits解析2.1.oiv查看Fsimage文件2.2.oev查看Edits文件3. CheckPoint时间设置0. 相关文章链接Hadoop 文章汇总1. NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中...原创 2022-04-18 22:20:15 · 336 阅读 · 0 评论 -
Hadoop(7):HDFS读写流程
目录0. 相关文章链接1. HDFS写数据流程1.1. 剖析文件写入1.2. 网络拓扑-节点距离计算1.3. 机架感知(副本存储节点选择)1.4. Hadoop3.1.3副本节点选择2. HDFS读数据流程0. 相关文章链接Hadoop 文章汇总1. HDFS写数据流程1.1. 剖析文件写入1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameN原创 2022-04-18 22:06:10 · 384 阅读 · 0 评论 -
Hadoop(6):HDFS的API操作
目录0. 相关文章链接1. 客户端环境准备1.1. win10安装hadoop环境1.2. 配置Hadoop环境变量1.3. 在IDEA中创建Maven工程2. HDFS的API案例实操2.1. HDFS文件上传(测试参数优先级)2.2. HDFS文件下载2.3. HDFS文件更名和移动2.4. HDFS删除文件和目录2.5. HDFS文件详情查看2.6. HDFS文件和文件夹判断0. 相关文章链接Hadoop 文章汇总1. 客户端环境准备需要原创 2022-04-17 22:40:34 · 1485 阅读 · 0 评论 -
Hadoop(5):HDFS的Shell操作
目录0. 相关文章链接1. 基本语法2. 命令大全3. 常用命令实操3.1. 准备工作3.2. 上传3.3. 下载3.4. HDFS直接操作0. 相关文章链接Hadoop 文章汇总1. 基本语法hadoop fs 具体命令 OR hdfs dfs 具体命令两个是完全相同的。2. 命令大全[root@yangshibiao ~]# hadoop fsUsage: hadoop fs [generic options] [-..原创 2022-04-16 21:26:33 · 944 阅读 · 0 评论 -
Hadoop(4):HDFS概述
目录0. 相关文章链接1. HDFS产出背景及定义1.1. HDFS产生背景1.2. HDFS定义2. HDFS优缺点2.1. HDFS优点2.2. HDFS缺点3. HDFS组成架构4. HDFS文件块大小0. 相关文章链接Hadoop 文章汇总1. HDFS产出背景及定义1.1. HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理...原创 2022-04-16 20:31:30 · 214 阅读 · 0 评论 -
Hadoop(3):Hadoop安装和部署过程中的常见问题
目录0. 相关文章链接1. ssh没有配置好2.DataNode和NameNode进程同时只能工作一个3.执行命令不生效4. jps命令问题5. 不能通过浏览器访问服务的web页面0. 相关文章链接Hadoop 文章汇总1. ssh没有配置好在Hadoop的安装过程中,HDFS的主节点NameNode需要跟子节点通信,需要其他机器的免密登录,Yarn里的ResourcesManage也是同样道理,所以在安装之前需要配置好这些主节点所在机器对其他机器...原创 2022-04-12 21:49:25 · 1088 阅读 · 0 评论 -
Hadoop(2):Hadoop的安装和部署
0. 相关文章链接Hadoop 文章汇总1. Hadoop的安装部署关于Hadoop的安装和部署在博主的其他博文中已有介绍,可以参考如下链接:Apache Hadoop 3.x 版本的安装和配置Apache Hadoop 3.x 版本的HA高可用配置和部署2.Hadoop的目录结构Hadoop中的目录结构如下所示:drwxr-xr-x. bindrwxr-xr-x. etcdrwxr-xr-x. includedrwxr-xr-x. libdrwxr-xr.原创 2022-04-12 20:59:34 · 633 阅读 · 0 评论 -
Hadoop(1):Hadoop概述
0. 相关文章链接Hadoop 文章汇总1. Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。2. Hadoop的发展历史1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。2)2001年年底Lucene成为原创 2022-04-12 00:34:04 · 927 阅读 · 0 评论