大数据学习笔记

useradd hadoop 
passwd 
123456....


修改密码
passwd hadoop
....




为用户添加sudo权限工作








安装ssh相关
查看ssh的安装包 :rpm -qa | grep ssh 
查看ssh是否安装成功 :ps -ef | grep ssh
开启sshd服务 :service sshd start 
开启sshd服务 :/bin/systemctl start sshd.service 
查看sshd服务的网络连接情况:netstat -
如需安装
sudo yum install openssh-clients
sudo yum install openssh-server




ssh 登录本机测试是否成功
ssh localhost登录本机验证
成功后
exit


ssh-keygen生成秘钥,并将秘钥加入到授权中,实现无密码登录
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat id_rsa.pub >> authorized_keys  # 加入授权
chmod 600 ./authorized_keys    # 修改文件权限


之后用
ssh localhost命令,无需输入密码在进行登录验证




安装JDK
sudo yum install java-1.7.0-openjdk java-1.7.0-openjdk-devel
默认安装位置为 /usr/lib/jvm/java-1.7.0...小版本
rpm -ql java-1.7.0-openjdk-devel | grep '/bin/javac'
执行后会输出一个路径,除去路径末尾的 “/bin/javac”,剩下的就是正确的路径了
$JAVA_HOME/bin/java -version
java -version
是否都能正确输出
echo $JAVA_HOME


下载hadoop
http://hadoop.apache.org/




验证是否完整
cat hadoop-2.7.3.tar.gz.mds|grep 'MD5'
md5sum hadoop-2.7.3.tar.gz|tr "a-z" "A-Z"
查看输出的值是否相等,若不一样要重新下载


避免文件操作权限的不一致,讲所有文件的权限全部改为hadoop操作
sudo chown -R  hadoop:hadoop /opt/hadoop-2.7.3/


文件名改为hadoop
 sudo mv /opt/hadoop-2.7.3/ /opt/hadoop




单机配置(非分布式 )
[hadoop@localhost bin]$ ./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 
查看hadoop提供的示例


选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,
最后输出结果到 output 文件夹中。




[hadoop@localhost hadoop]$ cp ./etc/hadoop/*.xml ./input
[hadoop@localhost hadoop]$ ls ./input
[hadoop@localhost hadoop]$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'




若出现UnknowHostException,需要在/etc/hosts中加入
127.0.0.1 主机名(hostname)


cat ./output/*查看结果


注意,Hadoop 默认不会覆盖结果文件,因此再次运行上面实例会提示出错,需要先将 ./output 删除。
rm -r ./output


配置完成后,执行namenode格式化
./bin/hdfs namenode -format    hadoop namenode -format


接着开启 NameNode 和 DataNode 守护进程
./sbin/start-dfs.sh
报错
Hadoop安装完后,启动时报Error: JAVA_HOME is not set and could not be found.
解决办法:
        修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。
        应当使用绝对路径。
        export JAVA_HOME=$JAVA_HOME                  //错误,不能这么改
        export JAVA_HOME=/usr/java/jdk1.6.0_45        //正确,应该这么改






启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、
”DataNode”和SecondaryNameNode(如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,
然后再次尝试启动尝试)。如果没有 NameNode 或 DataNode ,那就是配置不成功,请仔细检查之前步骤,
或通过查看启动日志排查原因




启动日志记录在
hadoop/logs/hadoop-hadoop-namenode-dblab.log 中






执行格式化报错
/usr/local/hadoop/tmp/dfs/name/current
修改权限
sudo chown -r hadoop:hadoop /usr/local

在centos中访问http://localhost:50070/查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。


伪分布式实例
HDFS中创建用户目录
./bin/hdfs dfs -mkdir -p /user/hadoop

sbin/hadoop-daemon.sh start datanode单独启动datanode



sbin/hadoop-daemon.sh start namenode单独启动namenode


sbin/hadoop-daemon.sh start datanode单独启动datanode

sbin/hadoop-daemon.sh start datanode单独启动datanode


journal[ˈdʒɜ:nl][ˈdʒɜ:rnl]
n.日报,日志,日记; 定期刊物,期刊,杂志; [会计] 分类账;


sbin/hadoop-daemon.sh start datanode单独启动datanode


decommissioning 
v.使退役( decommission的现在分词 ); 除役;



sbin/hadoop-daemon.sh start datanode单独启动datanode

elapsed time[ɪˈlæpst][ɪˈlæpst]
n.经过时间; 共用…时(间);

sbin/hadoop-daemon.sh start datanode单独启动datanode


volume 英[ˈvɒlju:m]
美[ˈvɑ:lju:m]
n. 体积; 卷; 音量; 量,大量;
adj. 大量的;
vi. 成团卷起;

接受文件与发送文件安装
yum -y install lrzsz 




                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                
sbin/hadoop-daemon.sh start datanode单独启动datanode
阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页