一. hadoop介绍
1. hadoop概述
apache开源的软件
- 提供了 reliable(可靠的) scalable (可伸缩的) distributed computing (分布式的计算)
- 使用简单的编程模型可以处理大规模数据集的计算框架
- 不依赖硬件来达到高可用
2. hadoop模块
- Hadoop Common(通用工具,为了支持其他hadoop模块)
- Hadoop Distributed File System (hdfs) 分布式文件系统,使用廉价的及其存储大规模的数据集
- Hadoop YARN (作业调度和集群资源管理)
- Hadoop MapReduce (基于yarn的处理大规模数据集的框架)
==hadoop:适合海量数据的分布式存储和分布式计算平台。==
3. hadoop的核心模块
- 分布式存储 使用多个廉价的机器来存储数据
- 分布式计算 把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果
二.基本环境配置
2.1 关闭防火墙
service iptables stop #关闭防火墙服务
chkconfig iptables off #关闭开机自动启动
2.2 修改主机名称
vi /etc/hostname # 编辑
2.3 修改主机映射
vim /etc/hosts
ip 主机名
三. hadoop单机版安装(开始安装)
3.1 上传hadoop的软件包
hadoop-2.6.4-bin_x64.tar.gz
3.2 解压hadoop
tar -zxvf hadoop-2.6.4-bin_x64.tar.gz -C /opt/
3.3 重命名hadoop
mv hadoop-2.6.4/ hadoop
3.4 删除hadoop中的*.cmd
rm -rf /opt/hadoop/bin/*.cmd /opt/hadoop/sbin/*.cmd /opt/hadoop/etc/hadoop/*.cmd
3.5 配置环境变量
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
3.6 hadoop-env.sh、 yarn-env.sh、 mapred-env.sh 等三个文件打开
export JAVA_HOME=/opt/jdk
3.7 core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://uplooking01</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:///opt/hadoop-repo/tmp</value>
</property>
</configuration>
3.8 hdfs-site.xml~~~xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///opt/hadoop-repo/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///opt/hadoop-repo/data</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:///opt/hadoop-repo/secondary</value>
</property>
<!-- secondaryName http地址 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>uplooking01:9001</value>
</property>
<!-- 数据备份数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- 运行通过web访问hdfs-->
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<!-- 剔除权限控制-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
3.9 mapred-site.xml 暂时没找到
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 历史job的访问地址-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>uplooking01:10020</value>
</property>
<!-- 历史job的访问web地址-->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>uplooking01:19888</value>
</property>
<property>
<name>mapreduce.map.log.level</name>
<value>INFO</value>
</property>
<property>
<name>mapreduce.reduce.log.level</name>
<value>INFO</value>
</property>
</configuration>
3.10 yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>uplooking01</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>uplooking01:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>uplooking01:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>uplooking01:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>uplooking01:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>uplooking01:8088</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
</configuration>
3.11 创建目录
mkdir /opt/hadoop-repo
mkdir /opt/hadoop-repo/name
mkdir /opt/hadoop-repo/data
mkdir /opt/hadoop-repo/tmp
mkdir /opt/hadoop-repo/secondary
3.12 配置免密码登录
配置对称加密,然后复制公钥 获取权限认证。
ssh-keygen -t "rsa" #生成密钥对
ssh-copyls-id uplooking01
3.13 格式化文件系统(谨慎操作)
hadoop namenode -format
3.14 启动hadoop
start-all.sh #启动hdfs和yarn
3.15 访问hadoop,进行测试
http://10.10.10.11:50070
http://10.10.10.11:8088
如果访问成功,说明已经安装成功!!!