1. 单机运行步骤
a. 设置 hadoop-env.sh 中 JAVA_HOME
b. 在hadoop-env.sh 中 设置自己的fs.default.name,dfs.data.dir,dfs.name.dir
c. 安装ssh
$ sudo apt-get install ssh
$ sudo apt-get install rsync
d. 检查是否可以不用密码登陆
$ ssh localhost
如果不可以
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
e. 格式化DFS
$ hadoop namenode -format
f. 启动HDFS
$ ./bin/start-dfs.sh
g. 检查是否成功
$ hadoop dfs -ls
2. 分布式运行步骤
a. 生成密钥,使主从节点可以无密码身份验证,在每台机器上执行
$ ssh-keygen -t rsa
生成密钥文件, copy id_rsa.pub to master.pub, 然后把master.pub 拷到从机上
执行
$ cat master.pub >>authorized_keys
在主机执行ssh 从机host 看看是否可以无密码登陆
b. 设置 conf/slaves conf/master 添加自己的主从地址,然后拷贝到其他机器
c. 拷贝主机的 hadoop-site.xml 到所有的从机
d. 格式化主机HDFS,重启,然后检查日志,并且访问主机端口50070看datanode节点是否工作正常