安装教程:http://dblab.xmu.edu.cn/blog/install-hadoop-in-centos/
日常启动的一些操作:
1. Hadoop 运行程序时,输出目录不能存在,否则会提示错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,因此若要再次执行,需要执行如下命令删除 output 文件夹:
./bin/hdfs dfs -rm -r output # 删除 output 文件夹
2. 启动Hadoop
>./sbin/start-dfs.sh
3. 若要关闭 Hadoop,则运行
./sbin/stop-dfs.sh
4. 启动yarn
>$ ./sbin/start-yarn.sh $ 启动YARN
$ ./sbin/mr-jobhistory-daemon.sh start historyserver # 开启历史服务器,才能在Web中查看任务运行情况
**但 YARN 主要是为集群提供更好的资源管理与任务调度,然而这在单机上体现不出价值,反而会使程序跑得稍慢些。因此在单机上是否开启 YARN 就看实际情况了。
不启动 YARN 需重命名 mapred-site.xml
如果不想启动 YARN,务必把配置文件 mapred-site.xml 重命名,改成 mapred-site.xml.template,需要用时改回来就行。否则在该配置文件存在,而未开启 YARN 的情况下,运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误,这也是为何该配置文件初始文件名为 mapred-site.xml.template。
>$ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
>$ mv ./etc/hadoop/mapred-site.xml ./etc/hadoop/mapred-site.xml.template
5. 关闭yarn
>$ ./sbin/stop-yarn.sh
$./sbin/mr-jobhistory-daemon.sh stop historyserver
完全分布式教程链接:
http://dblab.xmu.edu.cn/blog/install-hadoop-cluster/