搭建伪分布式hadoop可能遇到的问题

ubuntu网络链接激活失败,或者网络链接图标不显示的问题:

原因是安装Ubuntu的时候没有激活网络

第一步:重启网络服务:
sudo service network-manager restart
第二步:
sudo service network-manager stop
sudo rm /var/lib/NetworkManager/NetworkManager.state
sudo service network-manager start
网络链接成功

权限不够,如何解决:

在当前目录下,以终端的形式打开
输入命令 sudo chmod 777 文件名

为什么在linux 中,执行sudo apt-get update命令后显示部分索引文件下载失败

先敲个命令
sudo sed -i ‘s/cn.archive.ubuntu.com/mirrors.aliyun.com/g’ /etc/apt/sources.list
然后再执行sudo apt update试试?

复制文件时,显示略过

缺少参数 -r

解压

sudo tar -zxvf googlemusic.tar.gz -C /usr/lib/rhythmbox
sudo 超级用户
tar [选项…][file]…
-zxvf 解压tar.gz
-C 添加指定的 FILE 至归档 , 注意 C 是大写, ubuntu 是 区别大小写的。

错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

解决:在命令行输入:hadoop classpath
把上述输出的值添加到yarn-site.xml文件对应的属性 yarn.application.classpath下面
重启yarn,重新跑MapReduce任务:
yarn --daemon stop resourcemanager
yarn --daemon stop nodemanager
yarn --daemon start resourcemanager
yarn --daemon start nodemanager

为什么安装Hadoop需要安装jdk?

由于Hadoop是java进程,所以需要添加jdk,所以一般需要在hadoop运行的配置文件hadoop-env.sh中,
配置jdk路径:

1.hadoop-env.sh
由于Hadoop是java进程,所以需要添加jdk
2.mapred-env.sh
添加jdk路径
3.yarn-env.sh
添加jdk路径

hadoop配置文件

1.core-site.xml
1.1指定namenode的位置
1.2hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配
置namenode和datanode的存放位置,默认就放在这个路径中。

2.hdfs-site.xml
2.1配置namenode和datanode存放文件的具体路径
2.2配置副本的数量,最小值为3,否则会影响到数据的可靠性

3.yarn-site.xml
3.1Yarn.resourcemanager.hostname:资源管理器所在节点的主机名
3.2Yarn.nodemanager.aux-services:一个逗号分隔的辅助服务列表,这些服务由节点管理器执行。该属性默
认为空。
4.mapred-site.xml
注意:此文件本身是没有的,需要将mapred-site.xml.template重命名
Mapreduce.framework.name:决定mapreduce作业是提交到 YARN集群还是使用本地作业执行器本地执行。

hadoop中各个节点的作用

namenode:

管理文件系统的命名空间,他维护着文件系统树及整棵树上所有的文件和目录,这些信息以两个文件形式永
久的保存在本地磁盘上,命名空间镜像文件(fsimage)和(Editlogs)
fsimage:namenode启动时,对整个文件系统的快照
editlogs:namenode启动以后,对文件系统的改动序列
namenode也记录着每个文件中各个块所在的数据节点信息(包括副本数,用户对hdfs的操作),但它并不永
久保存块的位置信息,因为这些信息会在系统启动时根据数据节点信息重建。

datanode

datanode负责提供来自文件系统客户端读和写的请求,受客户端或者namenode的调度,并且定期向
namenode发送(通过心跳机制存储的块的列表)

journalNode

namenode之间为了数据同步,会通过一组称作JournalNodes的独立进程相互通信,当active状态的
NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode
有能力读取JournalNodes中的变更信息,并且一直监控editlog的变化,把变化应用与自己的命名空间。
standby可以确保在集群出错时,命名空间状态已经完全同步了。为了确保快速切换,standby状态的
NameNode有必要知道集群中所有数据块的位置。为了做到这点,所有的DataNodes必须配置两个
NameNode的地址,发送数据块位置信息和心跳给他们两个。
对于HA集群而言,确保同一时刻只有一个NameNode处于active状态是至关重要的。否则,两个
NameNode的数据状态就会产生分歧,可能丢失数据,或者产生错误的结果。为了保证这点,JournalNodes
必须确保同一时刻只有一个NameNode可以向自己写数据。

nodemanager

yarn中的每一台节点服务器都运行一个NodeManager,NodeManager相当于管理当前机器的一个代理,
负责本台机器的程序运行,并且对本台机器资源进行管理和监控,NodeManager定时向ResourceManager
汇报本节点的资源(cpu,内存,磁盘)等使用情况,启动并监控Container(容器)。

ResourceManager

管理集群资源,负责全局资源的监控,分配和管理。接收来自NodeManager的心跳信息,进行整体资源的
汇总,监控ApplicationMaster的开启和创建。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值