伪分布基础上,搭建完全分布式

伪分布基础上,搭建完全分布式

  1. 安装jdk

    1. 拷贝并解压
    2. 创建软链接
  2. 安装hadoop

    1. 拷贝并解压
    2. 创建软链接
  3. 配置环境变量

    1. 配置jdk环境变量
    2. 配置hadoop环境变量
  4. 设置无密登录

    主节点设置无密登录,将公钥库保存给其他节点,就可以通过ssh 其他机器名远程登录其他机器节点

    1. 创建密钥
    2. 创建公钥库
  5. 设置hadoop配置文件

    1. 修改core-site.xml
    2. 修改hdfs-site.xml
  6. 克隆三个虚拟机

  7. 关闭防火墙

    1. 查看chkconfig iptables --list
    2. root用户下,关闭chkconfig iptables off
  8. 修改静态IP

    1. 查看ifconfig中MAC地址与/etc/udev/rule.d/70-中的MAC地址是否一致
      1. 修改70中的eth0改为1,拷贝MAC地址到/etc/sysconfig/network-script/ifcfg-eth0中
      2. 将70中eth0删除,拷贝MAC地址到/etc/sysconfig/network-script/ifcfg-eth0中,修改文件中eth0为1,重命名文件为1
      3. 重启
  9. 修改主机名

    1. 修改/etc/sysconfig/network为slave01
    2. 修改/etc/hosts文件,追加slave01的IP
    3. 重启
  10. hadoop完全分布配置

  • [core-site.xml]

    • 【fs.defaultFS = hdfs://master:9000】

      【设置主节点为master,端口号为9000】

    • 【hadoop.tem.dir = /home/hadoop/tmp】

      【设置hdfs文件存储目录】

  • [hdfs-site.xml]

    • 【dfs.blocksize = 128m】

      【块大小设置,默认128M】

    • 【dfs.replication = 3】

      【副本数为3个】

    • 【dfs.namenode.name.dir = file://${hadoop.tmp.dir}/dfs/name】

      【namenode信息存储位置,主要存储fsimage和edit_log文件】

    • 【dfs.datanode.data.dir = file://${hadoop.tmp.dir}/dfs/data】

      【datanode信息存储位置,主要存储块池,以及序列化的数据】

  • [yarn-site.xml]

    • 【yarn.nodemanager.aux-services = mapreduce_shuffle】

      【设置yarn执行过程默认为MapReduce】

  • [mapred-site.xml]

    • 【将mapred-site.xml.template拷贝为mapred-site.xml】

    • 【mapreduce.framework.name = yarn】

      【MapReduce的调度由yarn执行】

  • [slaves.xml]

    • 【追加所有设置为datanode的主机名:将master也作为数据节点的情况】
    • 【删除localhost,追加所有设置为datanode的主机名:不将master也作为数据节点的情况】
  • master中配置完毕,将full-hadoop远程复制到所有slave从节点上

    • $>scp -r ~/soft/hadoop/etc/full-hadoop/ hadoop@slave01:~/soft/hadoop/etc/

      $>scp -r ~/soft/hadoop/etc/full-hadoop/ hadoop@slave02:~/soft/hadoop/etc/

      $>scp -r ~/soft/hadoop/etc/full-hadoop/ hadoop@slave03:~/soft/hadoop/etc/

  • 修改所有节点软链接

    • 【设置软链接hadoop为full-hadoop】
  1. 格式化

    • 【在master节点上,删除原HDFS文件系统存储路径】
    • 【格式化master的HDFS文件系统】
  2. 测试

    • 【在master节点执行】

    • $>start-dfs.sh

    • $>start-yarn.sh

    • 【所有节点的pid都不一样】

【meta数据:每512字节有4字节的校验和】


block块

【hadoop每128M创建一个block块】

【HDFS以block块的形式存储在集群上】

【默认备份3份,存储在${hadoop.tmp.dir}/dfs/data】

  1. block块大小设置合理性

    • 【磁盘存储设备:机械、固态】
    • 网络带宽
    • 业务数据
  2. 根据经验,每个文件、目录大致占用150字节

    【P291】

远程拷贝文件

$>scp [-r] 目录/文件 目标用户名@机器名://路径

【$> scp /etc/hosts root@master://etc/】

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值