hadoop介绍与环境搭建

最新推荐文章于 2022-05-11 08:33:04 发布

wt5264

最新推荐文章于 2022-05-11 08:33:04 发布

阅读量198

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/wt5264/article/details/108992229

版权

一. hadoop介绍

1. hadoop概述

apache开源的软件

提供了 reliable(可靠的) scalable (可伸缩的) distributed computing (分布式的计算)
使用简单的编程模型可以处理大规模数据集的计算框架
不依赖硬件来达到高可用

2. hadoop模块

Hadoop Common(通用工具,为了支持其他hadoop模块)
Hadoop Distributed File System (hdfs) 分布式文件系统,使用廉价的及其存储大规模的数据集
Hadoop YARN (作业调度和集群资源管理)
Hadoop MapReduce (基于yarn的处理大规模数据集的框架)

==hadoop:适合海量数据的分布式存储和分布式计算平台。==

3. hadoop的核心模块

分布式存储使用多个廉价的机器来存储数据
分布式计算把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果

二.基本环境配置

2.1 关闭防火墙

service iptables stop  #关闭防火墙服务
chkconfig  iptables  off #关闭开机自动启动

2.2 修改主机名称

vi /etc/hostname  # 编辑

2.3 修改主机映射

vim /etc/hosts
    ip 主机名

三. hadoop单机版安装(开始安装)

3.1 上传hadoop的软件包

hadoop-2.6.4-bin_x64.tar.gz

3.2 解压hadoop

tar -zxvf hadoop-2.6.4-bin_x64.tar.gz -C /opt/

3.3 重命名hadoop

    mv hadoop-2.6.4/ hadoop

3.4 删除hadoop中的*.cmd

 rm -rf /opt/hadoop/bin/*.cmd /opt/hadoop/sbin/*.cmd  /opt/hadoop/etc/hadoop/*.cmd

3.5 配置环境变量

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3.6 hadoop-env.sh、 yarn-env.sh、 mapred-env.sh 等三个文件打开

export JAVA_HOME=/opt/jdk

3.7 core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://uplooking01</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:///opt/hadoop-repo/tmp</value>
    </property>
</configuration>

3.8 hdfs-site.xml~~~xml

<configuration>
    <property>  
        <name>dfs.namenode.name.dir</name>  
        <value>file:///opt/hadoop-repo/name</value>  
    </property>

    <property> 
        <name>dfs.datanode.data.dir</name>  
        <value>file:///opt/hadoop-repo/data</value>  
    </property>
    <property>
        <name>dfs.namenode.checkpoint.dir</name>
        <value>file:///opt/hadoop-repo/secondary</value>
    </property>
    <!-- secondaryName http地址 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>uplooking01:9001</value>
    </property>
    <!-- 数据备份数量-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!-- 运行通过web访问hdfs-->
    <property> 
        <name>dfs.webhdfs.enabled</name>  
        <value>true</value>  
    </property>
    <!-- 剔除权限控制-->
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property> 
</configuration>

3.9 mapred-site.xml 暂时没找到

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property> 
    <!-- 历史job的访问地址-->
    <property>  
        <name>mapreduce.jobhistory.address</name>  
        <value>uplooking01:10020</value>  
    </property>
    <!-- 历史job的访问web地址-->
    <property>  
        <name>mapreduce.jobhistory.webapp.address</name>  
        <value>uplooking01:19888</value>  
    </property>
    <property>
        <name>mapreduce.map.log.level</name>
        <value>INFO</value>
    </property>
    <property>
        <name>mapreduce.reduce.log.level</name>
        <value>INFO</value>
    </property>
</configuration>

3.10 yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>uplooking01</value>
    </property> 
    <property>  
        <name>yarn.resourcemanager.address</name>  
        <value>uplooking01:8032</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.scheduler.address</name>  
        <value>uplooking01:8030</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.resource-tracker.address</name>  
        <value>uplooking01:8031</value>  
    </property>  
    <property>  
        <name>yarn.resourcemanager.admin.address</name>  
        <value>uplooking01:8033</value>  
    </property>
    <property> 
        <name>yarn.resourcemanager.webapp.address</name>  
        <value>uplooking01:8088</value>  
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>  
        <value>true</value>  
    </property>
</configuration>

3.11 创建目录

mkdir /opt/hadoop-repo
mkdir /opt/hadoop-repo/name
mkdir /opt/hadoop-repo/data
mkdir /opt/hadoop-repo/tmp
mkdir /opt/hadoop-repo/secondary

3.12 配置免密码登录

配置对称加密，然后复制公钥获取权限认证。

ssh-keygen -t "rsa"  #生成密钥对
ssh-copyls-id uplooking01

3.13 格式化文件系统(谨慎操作)

hadoop namenode -format

3.14 启动hadoop

start-all.sh  #启动hdfs和yarn

3.15 访问hadoop，进行测试

 http://10.10.10.11:50070
 http://10.10.10.11:8088

如果访问成功，说明已经安装成功！！！

wt5264

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
hadoop介绍与环境搭建

一. hadoop介绍1. hadoop概述apache开源的软件提供了 reliable(可靠的) scalable (可伸缩的) distributed computing (分布式的计算) 使用简单的编程模型可以处理大规模数据集的计算框架不依赖硬件来达到高可用2. hadoop模块Hadoop Common(通用工具,为了支持其他hadoop模块) Hadoop Distributed File System (hdfs) 分布式文件系统,使用廉价的及其存储大规模...
复制链接

扫一扫