linux hadoop 配置

原文:https://blog.csdn.net/qq_41934990/article/details/81510038

根据原文,再结合自己实际操作修改如下:

 

文档介绍:hadoop文件配置

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html

下载hadoop压缩包------》hadoop.apache.org

将下载好的hadoop压缩包山传到linux上,可以上传到linux远程的图形化界面

解压hadoop压缩包

tar -zxvf hadoop-2.7.3.tar.gz -C /opt/modules/

了解目录结构,删除无用文件

rm -rf bin/*.cmd

rm -rf sbin/*.cmd

rm -rf etc/hadoop/*.cmd

rm -rf share/doc/

修改配置:etc/hadoop/

(1)*-evn.sh:3个模块的环境变量文件

hadoop-env.sh 、yarn-env.sh(23行)、mapred-env.sh

JAVA_HOME=/opt/modules/jdk1.8.0_91

按模块配置

    common模块:core-site.xml

vi core-site.xml

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://linux:8020</value>//linux为当前用户,也可直接本地地址
           </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/xfj/hadoop_tmp</value>//自定义路径
        </property>
</configuration>

<!--指定文件系统HDFS的主机名称和端口号-->

<!--指定文件系统本地临时存储目录,默认值是系统/tmp-->

<!--临时目录需要自己创建-->

b、HDFS模块配置:

hdfs-site.xml

<!--由于是伪分布式,仅有一台机器,副本数量没有必要设置为3-->

<configuration>
        <!-- 由于伪分布式安装部署, 仅有一台机器,所有block副本数没有必要设置
为3,设置为1即可 -->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.http.address</name>
                 <value>0.0.0.0:50070</value>
        </property>
</configuration>

<property>

        <name>dfs.replication</name>

        <value>1</value>

     </property>

slaves:指定小弟DataNode运行在那台机器上

如果有多个小弟,一行一个

bigdata-hpsk01.huadian.com

c、测试HDFS模块是否OK

-》格式化

bin/hdfs namenode -format

成功的标准:

18/08/07 23:25:02 INFO util.ExitUtil: Exiting with status 0

-》启动

主节点

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop namenode

从节点

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh stop datanode

-》验证是否成功:

方式一:查看进程jps

方式二:

bigdata-hpsk01.huadian.com:50070

-》测试HDFS:

(1)怎么用

bin/hdfs dfs

(2)创建一个目录

 bin/hdfs dfs -mkdir -p /datas

(3)查看

 bin/hdfs dfs -ls /

(4)上传文件

 bin/hdfs dfs -put /opt/datas/input.data  /datas

(5)查看文件

bin/hdfs dfs -text /datas/input.data

(6)删除文件

bin/hdfs dfs -rm -r -f  /datas/input.data

d、YARN

对于分布式资源管理和任务调度框架来说,

在YARN上可以运行多种应用程序

- MapReduce

- spark

- tez

配置:yarn-site.xml

<!--resourcemanager服务运行的主机名名称-->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>mapreduce_shuffle</value>

</property>

 

<!--告知YARN,MapReduce程序将在 其上运行-->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

(2)slaves

指定nodemanager运行的主机名称,由于NameNode和DataNode在同一台机器

前面已经配置

e、启动YARN服务

-》启动:

主节点:resourceManager

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh stop resourcemanager

 

从节点:nodeManager

sbin/yarn-daemon.sh start nodemanager

sbin/yarn-daemon.sh stop nodemanager

-》验证启动:

方式一:jps

方式二:

http://bigdata-hpsk01.huadian.com:8088/

f、Mapreduce模块

并行计算 的框架

思想:分而治之

核心:

map :分

并行处理数据,将数据分割,一部分一部分的处理

reduce:合

将Map处理数据的结果进行合并,

 

配置:

mv mapred-site.xml.template mapred-site.xml

<!--指定MapReduce的程序运行在YARN-->

<property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

</property>

g、测试MapReduce程序

案例:wordcount程序

准备数据:/datas/input.data

程序:

/opt/modules/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

将MapReduce应用提交到YARN上运行

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount

Usage: wordcount <in> [<in>...] <out>

<in>:表示MapReduce程序要处理的数据在哪里

<out>:表示MapReduce程序处理数据之后的结果 存储在哪里,这个目录不能存在

 终极提交:

 bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /datas/input.data /datas/output/output001

 

 bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar  wordcount /datas/input.data/datas/output/output001

 

 

9.1.5如果格式化、启动某个进程失败,怎么办????

看日志文件。。。。就是IDEA控制台的输出

logs/XX.log

 

hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log

模块   root   进程名字 主机名

 

后缀名:

日志分类:标准输出、错误输出

.log:程序启动相关信息   ==========

.out:程序运行的相关输出

system.out.println(),system.error.println

 

使用tail -100f xxx.log

找Exception,case by
 额外配置:

历史服务器

HistoryServer

 

配置:mapred-site.xml 后面添加

 

<!--历史服务器-->

<property>

<name>mapreduce.jobhistory.address</name>

<value>bigdata-hpsk01.huadian.com:10020</value>

</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>bigdata-hpsk01.huadian.com:19888</value>

</property>

启动服务

sbin/mr-jobhistory-daemon.sh start historyserver

 

日志聚集功能

YARN提供日志中央化管理功能,他能将运行完成的任务 日志 上传到HDFS指定目录下。

以便后期监控查看

 

配置:yarn-site.xml

<!--启动日志聚集功能-->

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

 

<!--设置日志保存的时间,1周-->

<property>

<name>yarn.log-aggregation.retain-seconds</name>

<value>604800</value>

</property>

注意:重启YARN和JobHistoryServer服务,

修改了配置文件,需要重新读取

到此hadoop环境搭建成功
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
配置Linux上的Hadoop,需要进行以下步骤: 1. 下载Hadoop安装包并解压缩。将下载的Hadoop安装包解压到指定目录,例如将其解压到/home/app目录下。解压命令为:tar -zxvf hadoop-2.8.0.tar.gz -C /root/apps/hadoop 。 2. 添加Hadoop安装目录到系统环境变量。修改配置文件/etc/profile,使用命令vi /etc/profile进行修改。在文件中添加以下内容: export JAVA_HOME=/root/apps/jdk/jdk1.8.0_141 export HADOOP_HOME=/root/apps/hadoop-2.8.0 export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 保存文件后,执行命令source /etc/profile,使环境变量生效 。 3. 配置Hadoop环境的配置文件hadoop-env.sh。编辑文件/root/apps/hadoop/hadoop2.8.0/etc/hadoop/hadoop-env.sh。设置JAVA_HOME的值为Java安装路径,例如export JAVA_HOME=/root/apps/jdk/jdk1.8.0_141 。 4. 配置Hadoop的核心配置文件core-site.xml。编辑文件/root/apps/hadoop/hadoop2.8.0/etc/hadoop/core-site.xml,在<configuration>标签内添加以下内容: <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/apps/hadoop/tmp</value> </property> 保存文件 。 请注意,上述配置文件中的路径和参数值可能会根据你的实际安装情况而有所变化。确保根据你自己的环境进行相应的修改和配置。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [linux配置Hadoop](https://download.csdn.net/download/weixin_44136294/12875403)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Linuxhadoop的安装以及配置文件修改](https://blog.csdn.net/qq_42012160/article/details/89032213)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值