hadoop学习笔记（2）伪分布模式配置

最新推荐文章于 2022-10-27 15:39:29 发布
zhaogezhuoyue
最新推荐文章于 2022-10-27 15:39:29 发布
阅读量340
点赞数
分类专栏： hadoop 文章标签： hadoop mapreduce html ssh file 测试
本文链接：https://blog.csdn.net/zhaogezhuoyue/article/details/7459588
版权
hadoop 专栏收录该内容
6 篇文章 0 订阅
订阅专栏
伪分布模式配置

http://blog.csdn.net/qll125596718/article/details/7079924

分类：海量数据处理 2011-12-17 14:26 204人阅读评论(0) 收藏举报
前面介绍了linux下hadoop的安装和简单配置，主要是独立模式的配置，所谓独立模式是指不需要运行任何守护进程（daemon），所有程序都再单个JVM上执行，由于在独立模式下测试和调试MapReduce程序较为方便，因此该模式适合用在开发阶段。
这里主要记录了本人配置hadoop伪分布模式的过程。所谓伪分布模式是在单机上模拟Hadoop分布式，单机上的分布式并不是真正的分布式，而是使用java进程模拟分布式运行中的各类节点，包括：NameNode, DataNode, SecondaryNameNode, JobTracker, TaskTracker。其中，前三个概念是从分布式存储的角度来说的：集群节点由一个NameNode和若干个DataNode组成，另有一个SecondaryNameNode作为NameNode的备份；后两个概念是从分布式应用的角度来说的：集群中的节点由一个JobTracker和若干个TaskTracker组成，JobTracker负责任务的调度，TaskTracker负责并行任务执行。TaskTracker必须运行在DataNode上，这样便于数据的本地化计算，而JobTracker和NameNode则无需运行在同一台机器上。Hadoop本身是无法区分伪分布和分布式的，两种配置也很相似，唯一不同的是伪分布式是在单机上配置，DataNode和NameNode均是同一台机器。
java的安装和Hadoop的安装在前一节已经记录过了，这里略过不谈，下面主要记录伪分布模式的配置。
 
 1.SSH无密码验证配置在伪分布模式下运行时必须启动守护进程，而启动守护进程的前提是已经成功安装SSH。NameNode将使用SSH协议启动DataNode进程，伪分布模式下DataNode和NameNode均是本身，所以必须配置SSH localhost的无密码验证。
首先，确保SSH已经安装，且服务器正在运行。我机器上是默认安装了的，所以这里不谈。
然后，基于空口令创建一个新SSH密钥，以启用无密码登录：
$ ssh-keygen  -t  rsa  -P  ''  -f  ~/.ssh/id_rsa
$ cat  ~/.ssh/id_rsa.pub  >>  ~/.ssh/authorized_keys
用以下指令进行测试:
$ ssh  localhost
这里测试我不知道需不需要重启机器再测试，网上的资料没说要重启，但我是重启了机器才能够通过ssh无密码登录的。
 
 2.修改Hadoop配置文件Hadoop的各个组件均可利用XML文件进行配置。core-site.xml文件用于配置Common组件的属性，hdfs-site.xml文件用于配置HDFS属性，mapred-site.xml文件则用于配置MapReduce属性。这些配置文件都在conf子目录下。
 （1）在hadoop-env.sh中配置Java环境export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0
 
 （2）配置core-site.xml, hdfs-site.xml及mapred-site.xmlcore-site.xml:
[html]view plaincopy 
    
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
     <property>  
         <name>fs.default.name</name>  
         <value>hdfs://localhost:9000</value>  
         <description>HDFS的URI，文件系统://namenode标识:端口号</description>  
     </property>  
   
     <property>  
         <name>hadoop.tmp.dir</name>  
         <value>/root/hadoop/hadoop-0.20.2/hadooptmp</value>    
         <description>namenode上本地的hadoop临时文件夹</description>  
     </property>  
 </configuration>  
hdfs-site.xml:
[html]view plaincopy 
    
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
     <property>   
         <name>dfs.name.dir</name>   
         <value>/root/hadoop/hadoop-0.20.2/hdfs/name</value>   
         <description>namenode上存储hdfs名字空间元数据 </description>   
     </property>   
   
     <property>   
         <name>dfs.data.dir</name>   
         <value>/root/hadoop/hadoop-0.20.2/hdfs/data</value>   
         <description>datanode上数据块的物理存储位置</description>   
     </property>   
   
     <property>  
         <name>dfs.replication</name>    
         <value>1</value>  
         <description>副本个数，不配置默认是3,应小于datanode机器数量</description>  
     </property>  
 </configuration>  
mapred-site.xml:
[html]view plaincopy 
    
 <?xml version="1.0"?>  
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
   
 <!-- Put site-specific property overrides in this file. -->  
   
 <configuration>  
     <property>  
         <name>mapred.job.tracker</name>  
         <value>localhost:9001</value>  
         <description>jobtracker标识:端口号，不是URI</description>  
     </property>  
   
     <property>   
         <name>mapred.local.dir</name>   
         <value>/root/hadoop/hadoop-0.20.2/mapred/local</value>   
         <description>tasktracker上执行mapreduce程序时的本地目录</description>   
     </property>   
   
     <property>   
         <name>mapred.system.dir</name>   
         <value>/tmp/hadoop/mapred/system</value>   
         <description>这个是hdfs中的目录，存储执行mr程序时的共享文件</description>   
     </property>   
 </configuration>  
 （3）配置masters文件,加入namenode的主机名文件内容如下：
 
[html]view plaincopy 
    
 localhost  
 （4）配置slaves文件,加入所有datanode的主机名文件内容如下：
[html]view plaincopy 
    
 localhost  
 3.格式化HDFS文件系统在使用hadoop前，必须格式化一个全新的HDFS安装，通过创建存储目录和NameNode持久化数据结构的初始版本，格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据，而DataNode可以动态的加入或离开集群，因此这个格式化过程并不涉及DataNode。同理，用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。
格式化HDFS文件系统非常方便。只需键入如下命令：
$ hadoop  namenode  -format
该命令输出如下：
[html]view plaincopy 
    
 /************************************************************  
 STARTUP_MSG: Starting NameNode  
 STARTUP_MSG:   host = localhost.localdomain/127.0.0.1  
 STARTUP_MSG:   args = [-format]  
 STARTUP_MSG:   version = 0.20.2  
 STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010  
 ************************************************************/  
 11/12/17 13:44:58 INFO namenode.FSNamesystem: fsOwner=root,root,bin,daemon,sys,adm,disk,wheel  
 11/12/17 13:44:58 INFO namenode.FSNamesystem: supergroup=supergroup  
 11/12/17 13:44:58 INFO namenode.FSNamesystem: isPermissionEnabled=true  
 11/12/17 13:44:58 INFO common.Storage: Image file of size 94 saved in 0 seconds.  
 11/12/17 13:44:58 INFO common.Storage: Storage directory /root/hadoop/hadoop-0.20.2/hdfs/name has been successfully formatted.  
 11/12/17 13:44:58 INFO namenode.NameNode: SHUTDOWN_MSG:   
 /************************************************************  
 SHUTDOWN_MSG: Shutting down NameNode at localhost.localdomain/127.0.0.1  
 ************************************************************/  
 4.Hadoop集群启动为启动HDFS和MapReduce守护进程，输入一下命令：
$ start-dfs.sh
输出如下（可以看出分别启动了namenode, datanode, secondarynamenode，也给出了日志的存放位置）：
[html]view plaincopy 
    
 starting namenode, logging to /root/hadoop/hadoop-0.20.2/bin/../logs/hadoop-root-namenode-localhost.localdomain.out  
 localhost: starting datanode, logging to /root/hadoop/hadoop-0.20.2/bin/../logs/hadoop-root-datanode-localhost.localdomain.out  
 localhost: starting secondarynamenode, logging to /root/hadoop/hadoop-0.20.2/bin/../logs/hadoop-root-secondarynamenode-localhost.localdomain.out  
 $ start-mapred.sh 
 
输出如下（可以看出分别启动了jobtracker, tasktracker）：
[html]view plaincopy 
    
 starting jobtracker, logging to /root/hadoop/hadoop-0.20.2/bin/../logs/hadoop-root-jobtracker-localhost.localdomain.out  
 localhost: starting tasktracker, logging to /root/hadoop/hadoop-0.20.2/bin/../logs/hadoop-root-tasktracker-localhost.localdomain.out  
也可以用下面一条命令代替上面两条命令：$ start-all.sh
实际上这个脚本里面就是调用了上面的两条命令。
本地计算机将启动三个守护进程：一个namenode，一个辅助namenode和一个datanode。可以浏览logs目录中的日志文件来检查守护进程是否成功启动，或通过Web界面：在http://localhost:50030/查看jobtracker或在http://localhost:50070/查看namenode。此外，java的jps命令也能查看守护进程是否在运行:
$ jps
[html]view plaincopy 
    
 6129 SecondaryNameNode  
 6262 JobTracker  
 6559 Jps  
 6033 DataNode  
 6356 TaskTracker  
 5939 NameNode  
终止守护进程也很容易，示例如下：
$ stop-dfs.sh
$ stop-mapred.sh
 
 5.伪分布环境测试
 在hadoop的根目录下有几个jar文件，其中hadoop-0.20.2-examples.jar就是我们需要的，它里面包含wordcount，功能是计算输入文本中单词的数量，咱们使用命令建立测试的文件：
（1）先在本地磁盘建立两个输入文件file01和file02：
$ echo "Hello World Bye World" > file01
$ echo "Hello Hadoop Goodbye Hadoop" > file02
（2）在hdfs中建立一个input目录：
$ hadoop  fs  -mkdir  input
（3）将file01和file02拷贝到hdfs中：
$ hadoop  fs  -copyFromLocal  /root/hadoop/file0*  input
（4）执行wordcount：
$ hadoop  jar  hadoop-0.20.2-examples.jar  wordcount  input  output
（5）完成之后，查看结果：
$ hadoop  fs  -cat  output/part-r-00000
 
执行结果为：
[html]view plaincopy 
    
 Bye 1  
 GoodBye 1  
 Hadoop  2  
 Hello   2  
 World   2  
也可以进入http://localhost:50030/jobtracker.jsp查看结果：

 
ok，搞定，很想拿一些大的数据集玩一玩真正全分布模式，不过现在在外面帮导师做项目，机器不够，最少要三台，等回学校了，实验室搞几台机器玩玩。