前期的hadoop配置已经配好了, 环境变量ok,开始启动hadoop,
接下来在uarhadoop的用户下执行
1、创建目录
创建hdfs/name, hdfs/data, tmp目录
cd /var/www/html/hadoop-2.7.3
mkdir -p hdfs/data
mkdir -p hdfs/name
madir tmp
2、格式化namenode
hdfs namenode -format
3、出现问题:Cannot remove current directory: /usr/local/hadoop/hdfs/name/current
由于执行了两次hdfs namemode -format
导致的,
删除hdfs/name hdfs/data 下的current文件夹即可, 在重新格式化, 重启hadoop.
重新格式化
再启动hadoop:
3.2、jps出现process information unavailable
这样可以进入本地文件系统的/tmp
目录下, 删除名称hsperfdata_{username}的文件夹, 然后重启Hadoop。
在web上查看:
安装成功!
开始测试。。。
4.1、首先创建相应的输入文件夹
hdfs dfs -mkdir -p /user/hadoop/input
4.2、创建输入的数据,采用/etc/protocols文件作为测试
通过put将本地文件上传到hdfs文件系统上:
hdfs dfs -put /etc/protocols /user/uarhadoop/input
查看内容:
4.3、执行测试
测试/etc/protocols文件中以a开头的单词数量:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input out 'a*'
执行过程出现了:
17/01/14 23:17:38 INFO ipc.Client: Retrying connect to server: master/192.168.1.141:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
是由于historyserver 没有启动导致
解决方法如下:
http://blog.csdn.net/wuxintdrh/article/details/53239787
再次执行, 执行成功
接下来看看统计的结果: