重新记录一下Hadoop的学习历程,持续更新中…
Hadoop
Hadoop环境搭建
分布式安装下,需要在各个主机上安装好jdk和ssh,然后在各个主机上安装Hadoop,将hadoop压缩包移动到指定的文件夹下解压,这里我的
解压路径为/home/hadoop/app/,我把我的所有程序都安装在了/home/app路径下
接下来修改Hadoop的配置文件,配置文件存放在Hadoop安装路径下的/etc/hadoop
cd /home/hadoop/app/hadoop-2.6.0-cdh5.15.1/etc/hadoop(这里是我的路径,你要写你自己的),在该路径下你会看到需要修改的几个
配置文件,分别是:core-site.xml, hadoop-env.sh, hdfs-site.xml, mapred-site.xml.template, yarn-env.sh, yarn-site.xml
1. 修改core-site.xml: vim core-site.xml打开该文件 ,在<configuration></configuration>中加入以下代码:其它未设置的参数
则使用默认值
<property>
<name>hadoop.tmp.dir</name> //设定临时目录,这里我是在app目录下新建了tmp/dfs5151目录
<value>file:/home/hadoop/app/tmp/dfs5151</value>
</property>
<property>
<name>io.file.buffer.size</name> //设定流文件缓冲区大小
<value>131072</value>
</property>
<property>
<name>fs.defaultFS</name>//设定网址,hadoop000是我的主机别名,端口在hadoop3之后好像变成了9000
<value>hdfs://hadoop000:8020</value>
</property>
2. 修改hadoop-env.sh文件:vim hadoop-env.sh打开该文件,将JAVA_HOME配置为本机JAVA_HOME路径
3. 修改yarn-env.sh, vim yarn-env.sh打开该文件,同样将JAVA_HOME修改为本机的JAVA_HOME路径
4. 修改hdfs-site.xml, vim hdfs-site.xml打开该文件,在<configuration></configuration>中加入以下代码:
<configuration>
<property>
<name>dfs.replication</name> //设置副本个数,HDFS默认是3个
<value>1</value>
</property>
<property>
<name>dfs.namenode.http.address</name> //设置高可用的web端口(hadoop000:50070)
<value>hadoop000:50070</value>
</property>
5. 修改mapred-site.xml: cp mapred-site.xml.template mapred-site.xml(复制一份并重命名为mapred-site.xml),
在<configuration>中添加以下代码
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
6. 修改yarn-site.xml: vim yarn-site.xml打开该文件,在<configuration>中添加以下代码
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
7. 修改slaves文件:vim slaves打开该文件,将你的作为slave的主机别名添加进去(如果你搭建的是分布式集群就把所有slave节点添加进去
我部署的是伪分布式集群,只有一台机器,这里我就添加的该主机别名hadoop000)
8. 最后配置Hadoop的环境,vim /etc/profile打开文件,根据Hadoop文件夹的路径配置
9. 如果搭建分布式集群,使用scp将已经配置好的hadoop传到从节点服务器上,传过去之后再从节点上同样对hadoop进行路径配置,同步骤8
第一次启动Hadoop时要先格式化文件系统,之后不能重复执行,格式化命令为:
hdfs namenode -format
启动集群:$HADOOP_HOME/sbin/start-dfs.sh 或 sh start-dfs.sh
关闭集群:$HADOOP_HOME/sbin/stop-dfs.sh
启动yarn:$HADOOP_HOME/sbin/start-yarn.sh