![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发
文章平均质量分 58
大数据开发基础
你可以自己看
一个努力奋斗的鱼
展开
-
使用虚拟机完成Hadoop完全分布式的搭建
1、首先要下载好虚拟机VMware workstation,并进行安装。链接:https://pan.baidu.com/s/1EuNflW8so-xx46qrdCRbDg 提取码:hjl42、下载Linux的对应版本,可以通过官网下载。链接:https://pan.baidu.com/s/1DJ411izE54jI014dgVwekg 提取码:hjl43、在VMware上新建三台虚拟机(以示范为主),主机名分别为master、slave1,slave2。4、创建好虚拟机后,每台虚拟..原创 2022-02-24 20:42:35 · 6330 阅读 · 3 评论 -
HDFS高可用搭建
HDFS HA高可用集群部署原创 2022-02-26 20:59:25 · 1180 阅读 · 0 评论 -
YARN高可用部署
YARN HA集群部署原创 2022-02-26 22:39:47 · 1010 阅读 · 0 评论 -
Hadoop单机和完全分布式自带Mapreduce测试
hadoop单机和完全分布式测试原创 2022-03-03 16:23:42 · 1612 阅读 · 0 评论 -
hadoop完全分布式出现故障的解决方式(无法正常启动)
hadoop集群异常,无法正常启动原创 2022-03-03 19:43:58 · 1309 阅读 · 0 评论 -
创建xsync进行hadoop快速分发差异文件
hadoop的xsync分发原创 2022-03-03 20:00:22 · 693 阅读 · 0 评论 -
Hadoop配置历史服务器
hadoop历史服务器配置原创 2022-03-03 20:00:55 · 325 阅读 · 0 评论 -
hadoop配置日志的聚集
hadoop创建日志聚集原创 2022-03-03 20:40:28 · 461 阅读 · 0 评论 -
hadoop集群的整体启动/停止脚本
hadoop启动方式汇集原创 2022-03-03 21:20:45 · 1126 阅读 · 2 评论 -
hadoop两道入门面试题
Hadoop两道常见入门面试题原创 2022-03-04 09:28:44 · 71 阅读 · 0 评论 -
Hadoop——集群时间同步
Hadoop——集群时间同步原创 2022-03-04 09:52:18 · 224 阅读 · 0 评论 -
hadoop常见错误及解决方案
1)防火墙没关闭、或者没有启动 YARNINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)IP 地址配置错误4)ssh 没有配置好5)root 用户和 自定义用户 两个用户启动集群不统一6)配置文件修改不细心7)不识别主机名称解决办法:(1)在/etc/hosts 文件中添加 192.168.10.102 hadoop102(2)主机名称不..原创 2022-03-04 10:04:25 · 1041 阅读 · 0 评论 -
Windows下HDFS的环境准备——HDFS相关的客户端操作
首先下载一个环境依赖包(我的hadoop版本是3.1.3,如果是其他版本的需要另外寻找资源下载)链接:https://pan.baidu.com/s/1mnUJKFi8SDQxurn_D_DAvg提取码:hjl4下载好以后将这个依赖包放到没有中文的路径下然后去配置环境变量添加一个HADOOP_HOME(值是上面下载好的hadoop3.1.0的路径)在path下添加环境变量然后确定即可进入hadoop3.1.0的bin目录下,启动进程画面一闪...原创 2022-03-05 10:28:37 · 2555 阅读 · 1 评论 -
HDFS的读写流程(面试重点)
HDFS的读写流程原创 2022-03-05 19:52:31 · 7330 阅读 · 0 评论 -
DataNode工作机制
1.DataNode启动后会向NameNode注册。(将自己所保存的Block信息告诉NameNode)2.NameNode接收到DataNode发送的信息,注册成功3.在默认配置中,DataNode会周期性(6小时)上报所有块信息4.DataNode会每三秒心跳一次,目的是告诉NameNode,它还活着5.当NameNode超过十分钟+30秒没有收到DataNode的心跳,则认为该节点不可用,那么后续NameNode不会再向该节点进行读写操作...原创 2022-03-05 20:10:02 · 843 阅读 · 0 评论 -
HDFS文件块大小(面试重点)
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。1.HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置2.如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢HDFS的大小设置主要取决于磁盘传输速率(一般公司128M,大公司256M)...原创 2022-03-05 20:19:45 · 1561 阅读 · 0 评论 -
HDFS的shell操作(开发重点)
hadoop fs 具体命令 OR hdfs dfs 具体命令(两个是完全相同的)命令大全创建 hadoop fs -mkdir 目录上传hadoop fs -moveFromLocal 源文件 目标路径hadoop fs -copyFromLocal 源文件 目标路径hadoop fs -put 源文件 目标路径追加一个文件到已经存在的文件末尾hadoop fs -appendToFile 源文件 目标文件下载hadoop fs -copyToLocal 源原创 2022-03-05 20:28:00 · 341 阅读 · 0 评论 -
Windows下搭建环境测试Mapreduce--集群测试
创建Maven工程设置Maven配置导包<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</version>...原创 2022-03-09 16:58:08 · 1670 阅读 · 2 评论 -
Hadoop的序列化和反序列化
1) 什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2) 为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3)为什么不用 Java 的序列化Java 的序列化是一个重量原创 2022-03-09 20:16:06 · 3054 阅读 · 0 评论 -
MapReduce框架原理及例子测试
切片与 与 MapTask 并行度1 ) 问题引出MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数据,也启动 8 个 MapTask,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?2 )MapTask 并行度决定 机制数据 块:Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS .原创 2022-03-11 20:31:32 · 2590 阅读 · 0 评论 -
Hadoop-Yarn
yarn原创 2022-03-15 10:49:24 · 2916 阅读 · 0 评论 -
HDFS-核心参数
NameNode内存生产配置1)NameNode 内存计算每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿G MB KB Byte2)Hadoop2.x 系列,配置 NameNode 内存NameNode 内存默认 2000m,如果服务器内存 4G,NameNode 内存可以配置 3g。在hadoop-env.sh 文件中配置如下。HADOOP_NAMENODE..原创 2022-03-28 16:15:34 · 1819 阅读 · 0 评论 -
HDFS-集群压测
在企业中非常关心每天从 Java 后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从 HDFS 上拉取需要的数据?为了搞清楚 HDFS 的读写性能,生产环境上非常需要对集群进行压测。HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试,我将自己配置的三台虚拟机网络都设置为100mbps100Mbps 单位是 bit;10M/s 单位是 byte ; 1byte=8bit,100Mbps/8=12.5M/s。接下来,测试网速。先创建一个目...原创 2022-03-28 17:03:34 · 2449 阅读 · 0 评论 -
HDFS-多目录
NameNode 多目录配置1)NameNode 的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性2 )具体配置 如下(1)在 hdfs-site.xml 文件中添加如下内容<property><name>dfs.namenode.name.dir</name><value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2<.原创 2022-03-28 17:22:27 · 468 阅读 · 0 评论 -
HDFS-集群扩容及缩容
添加白名单白名单:表示在白名单的主机 IP 地址可以,用来存储数据。企业中:配置白名单,可以尽量防止黑客恶意访问攻击。配置白名单步骤如下:1 )在 NameNode 节点的/opt/module/hadoop-3.1.3/etc/hadoop 目录 下 分别创建whitelist和blacklist文件(1)创建白名单vim whitelist在 whitelist 中添加如下主机名称,假如集群正常工作的节点为 102 103(以自己的实际情况为准,这里只是示范)ha...原创 2022-03-29 14:55:02 · 283 阅读 · 0 评论 -
HDFS-存储优化
注:演示纠删码和异构存储需要一共 5 台虚拟机。提前准备 5 台服务器的集群。纠删码纠删码原理HDFS 默认情况下,一个文件有 3 个副本,这样提高了数据的可靠性,但也带来了 2 倍的冗余开销。Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约 50%左右的存储空间。1 )纠删码操作相关的命令hdfs ec2 )查看当前支持的纠删码策略hdfs ec -listPolicies3 ) 纠删码策略解释:RS-3-2-1024k:使用 RS 编码,每..原创 2022-03-29 16:35:36 · 400 阅读 · 0 评论 -
HDFS-故障排除
NameNode故障处理1 ) 需求:NameNode 进程挂了并且存储的数据也丢失了,如何恢复 NameNode2 )故障模拟(1)kill -9 NameNode 进程(2)删除 NameNode 存储的数据(hadoop-3.1.3/data/tmp/dfs/name)3 )问题解决(1)拷贝 SecondaryNameNode 中数据到原 NameNode 存储数据目录(2)重新启动 NameNode(3)向集群上传一个文件集群安全模式&磁盘修.原创 2022-03-30 20:23:21 · 587 阅读 · 0 评论 -
HDFS-集群迁移
1 )scp 实现 两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件...原创 2022-03-30 20:35:36 · 2856 阅读 · 0 评论 -
MapReduce生产经验
MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:1 )计算机性能CPU、内存、磁盘、网络2 )I/O 操作优化(1)数据倾斜(2)Map 运行时间太长,导致 Reduce 等待过久(3)小文件过多MapReduce 常用调优参数MapReduce 数据倾斜问题1 )数据倾斜现象数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。2 )减少数据倾斜的方法(1 )首先检查...原创 2022-04-04 13:58:02 · 1096 阅读 · 0 评论 -
Hadoop-Yarn生产经验
常用的调优参数1)调优参数列表(1)Resourcemanager 相关(2)Nodemanager 相关(3)Container 容器相关具体操作细节参考:Hadoop-Yarn_你可以自己看的博客-CSDN博客原创 2022-04-04 14:33:00 · 709 阅读 · 0 评论 -
Hadoop综合调优
Hadoop 小文件优化方法Hadoop小文件弊端HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode 的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。小文件过多,在进行 MR 计算时,会生成过多切片,需要启动过多的 MapTask。每个MapTask 处理的数据量小,导致 MapTask 的处理时间比启动时间还小,白白消耗资源。Hadoop小文原创 2022-04-04 15:15:42 · 278 阅读 · 0 评论