hadoop-0.20.2 单机模式和伪分布式部署
1. install cygwin sshd
2. 下载hadoop-0.20.2,解压到d:/hadoop-0.20.2
3. hadoop-evn.sh添加以下配置:
export JAVA_HOME=C:/jdk1.6
4. 单机模式
下面的实例将已解压的 conf 目录拷贝作为输入,
查找并显示匹配给定正则表达式的条目。输出写入到指定的 output 目录。
$ ssh localhost
$ export "LANG=en.UTF-8"
$ cd d:/hadoop-0.20.2
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*
5. 伪分布式:
配置文件conf/
core-site.xml:
从src/core/core-default.xml拷贝文件到conf下改名为core-site.xml.并更改以下配置
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
hdfs-site.xml:
从src/hdfs/hdfs-default.xml拷贝并改名.其他配置不需要改变.
mapred-site.xml:
从src/mapred/mapred-default.xml拷贝并改名.并更改以下配置
<property>
<name>mapred.job.tracker</name>
<value>localhost:9999</value>
</property>
$ ssh localhost
$ export "LANG=en.UTF-8"
$ cd d:/hadoop-0.20.2
#格式化一个新的分布式文件系统
$ bin/hadoop namenode -format #Y(不能是y)
#启动 Hadoop 守护进程
$ bin/start-all.sh
#浏览 NameNode 和 JobTracker 的网络接口
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/
#查看进程
$ jps
4600 JobTracker
828 Jps
4772 NameNode
#将输入文件拷贝到分布式文件系统
$ bin/hadoop fs -put conf input
#运行发行版提供的示例程序
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
#查看输出文件1.将输出文件从分布式文件系统拷贝到本地文件系统查看
$ bin/hadoop fs -get output output
$ cat output/*
#2.在分布式文件系统上查看
$ bin/hadoop fs -cat output/*
#完成全部操作后,停止守护进程
$ bin/stop-all.sh
stopping jobtracker localhost: stopping tasktracker stopping namenode localhost: stopping datanode localhost: stopping secondarynamenode $ exit logout $ exit PS: hadoop启动的时候,即start-all.sh这一步: netstat -a 会看到有两个127.0.0.1:9000和两个127.0.0.1:9999 查看任务管理器,会看到多个java进程.
参考资料:
1. Hadoop 开发者入门期刊
2. Hadoop---在window下配置安装之cygwin的安装
http://hi.baidu.com/%BD%AB%D6%AE%B7%E7_%BE%B2%D6%AE%D4%A8/blog/item/8832551c7598551f314e15c2.html
3. Hadoop---在window下的安装配置----基于cygwin的
http://hi.baidu.com/%BD%AB%D6%AE%B7%E7_%BE%B2%D6%AE%D4%A8/blog/item/a0ebb1db953a772033fa1c9a.html
4. 在 Windows 平台下部署 Hadoop 开发环境
http://blog.csdn.net/savechina/article/details/5656937