一、环境准备
可以选择三种安装环境:
1、虚拟机vmware+linux系统
2、物理服务器ESxi
3、在windows上搭建需要cygwin或workstation
二、安装模式
1、单机模式
2、伪分布模式
3、全分布式
hadoop下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.2.0/
三、操作系统环境变量:
1、关闭防火墙
chkconfig iptables off 永久关闭,需要重启机器才生效
service iptables status查看防火墙的状态
2、关闭SELINUX
修改/etc/selinux/config中的SELINUX=""为disabled
3、修改/etc/hosts
4、配置JAVA环境
chmod +x
./jdk-6u45-linux-i586-rpm.bin
配置环境变量
vi /etc/profile
集群方法:gpssh
5、 虚拟机创建用户,不适用root
useradd hadoop
passwd hadoop
6、实现无密码登录
1、生成密钥
$ssh-keygen -t rsa($代表普通用户登录的)(rsa是加密算法)
2、生成authorized_keys
$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys(必须是这个名字)
3、将文件copy到别的机器
$scp ~/.ssh/authorized_keys slave1:~/.ssh/
4、授权(原来是644要改为600:当前用户只读可写的权限),因为系统会检测文件的权限,如果太大的话不会通过验证
$chmod 600authorized_keys
7、上传hadoop文件并解压,什么用户都可以改成自己所属的用户和组即可
#tar -zxvf hadoop-1.2.1-bin.tar.gz(#代表是root用户)(x:解包z:解压v:列出明细f:指出具体文件)
#chown -R hadoop:hadoop hadoop-1.2.1(-R:包括子目录)
8、配置环境变量
在.bashrc中
加入:
export JAVA_HOME=/ usr/java/jdk1.6.0_45export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib
9、SSH原理:
四、hadoop目录结构
bin:命令
conf:配置文件
src源文件
五、hadoop需要配置的文件
1、hadoop-env.sh
export JAVA_HOME(需要放开)
export HADOOP_HEAPSIZE=100(已经配置,需要了解)每个进程配置最大的能使用的内存的量(单位M)
2、core-site.xml
fs.dafault.name:namenode的IP位置和端口
hadoop.tmp.dir
3、hdfs-site.xml
dfs.name.dir:存储元数据,默认是core-site.xml设置的路径/dfs/name下
dfs.data.dir:数据节点存储块的位置,默认是core-site.xml设置的路径/dfs/data下
自己指定的路径,要手动创建目录,并给权限
fs.checkpoint.dir
dfs.replication:备份数
4、mapred-site.xml
mapred.job.tracker:默认local
5、masters
master指定secondarynamenode是哪台虚机
6、slaves
指定从节点是哪些虚机
7、hadoop-met
8、rics.properties
9、log4j.properties
所有的配置在所有的虚机上进行,scp即可。
在master进行格式化主机,是为了生成hdfs的文件结构,在上面存贮元数据
hadoop namenode -format
启动:
start-all.sh
停止:
stop-all.sh
jps查看启动情况