尚硅谷大数据hadoop教程入门

p01 课程整体介绍

在这里插入图片描述

p02 大数据的概念

p03大数据的特点

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

p04 05 大数据应用场景

p06 未来工作内容

在这里插入图片描述

p07hadoop入门 课程介绍

在这里插入图片描述

p08 09 hadoop是什么

在这里插入图片描述

p 10 hadoop3大发行版本

p11 hadoop优势

在这里插入图片描述
在这里插入图片描述

p12 hadoop 1 2 3版本区别

在这里插入图片描述

p13 HDFS概述

NameNode DataNode SecondNameNode

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

p14 Hadoop入门 YARN概述

ResourceManager NodeManager

在这里插入图片描述

p15 MapReduce概述

在这里插入图片描述

p16 HDFS YARN MapReduce三者关系

在这里插入图片描述

p17 大数据技术生态体系

在这里插入图片描述
在这里插入图片描述

p18 VMWARE安装

我安装的16 网上找序列码直接用

p19 centos7安装

看到韩老师的linux视频

p20 ip和主机名称配置

修改ip
在这里插入图片描述

在这里插入图片描述
修改主机名称
在这里插入图片描述
修改主机名和host映射
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

p21 xshell远程访问

我用的crt

p22 模版虚拟机准备完成

安装epel-release

Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于 RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数 rpm 包在官方 repository 中是找不到的。

yum install -y epel-release
在这里插入图片描述

关闭防火墙

在这里插入图片描述

创建用户

在这里插入图片描述

配置用户权限

在这里插入图片描述

在opt目录下创建文件夹,改变文件所有者

在这里插入图片描述

卸载自带的JDK

检查系统中自带的JDK:

rpm -qa | grep -i java

卸载自带的JDK:(需要以root用户运行)

# grep -i 忽略大小写
# xargs 将前面的输出结果作为命令的参数
# -n1 每次只取一个结果作为命令参数。如果不加,则会将所有结果以空格分隔拼接作为命令的参数
# rpm -e --nodeps:不验证套件档的相互关联性进行卸载
rpm -qa | grep -i java | grep -v ".noarch" | xargs -n1 rpm -e  --nodeps

p23 克隆3台虚拟机

在这里插入图片描述
克隆完成之后,还需要依次修改 hadoop102、hadoop103、hadoop104的ip和hostname。

p24 jdk安装

在02上安装jdk和hadoop 剩下2台复制就行了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

p25 hadoop安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
hadoop目录结构
在这里插入图片描述

p26 hadoop入门 本地运行模式

在这里插入图片描述
在这里插入图片描述

p27 scp&rsync命令

集群模式 把在hadoop1机器上安装的东西同步到hadoop2 和hadoop3上

scp(secure copy)安全拷贝

scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

scp    -r        $pdir/$fname             $user@$host:$pdir/$fname
命令   递归     要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

前提:在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、
sudo chown atguigu:atguigu -R /opt/module

在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。
scp -r /opt/module/jdk1.8.0_212  atguigu@hadoop103:/opt/module

或者 hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。
scp -r atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

或者在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。
scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module

rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。

rsync    -av       $pdir/$fname             $user@$host:$pdir/$fname
命令   选项参数   要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

选项参数说明
选项	功能
-a	归档拷贝
-v	显示复制过程

rsync -av hadoop-3.1.3/ atguigu@hadoop103:/opt/module/hadoop-3.1.3/

p28 xsync集群分发脚本

自定义xsync集群分发脚本

需求:循环复制文件到所有节点的相同目录下

rsync命令原始拷贝:
rsync -av /opt/module atguigu@hadoop103:/opt/

在/home/atguigu/bin目录下创建xsync文件,如果想直接执行命令,配置好PATH路径
追加path
在这里插入图片描述

在这里插入图片描述

#!/bin/bash

#1. 判断参数个数 $#代表参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in xiaoxiong02 xiaoxiong03 xiaoxiong04
do
    echo ====================  $host  ====================
    #3. 遍历所有目录,挨个发送. '$@' 代表所有参数

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                echo 要复制的文件或目录:$file;
                #5. 获取父目录 这里-P的意思是防止是当前目录是软连接,进入真实目录
                pdir=$(cd -P $(dirname $file); pwd)
                echo 当前要复制的文件或目录所在父目录:$pdir
                #6. 获取当前文件的名称,防止当前文件名是绝对路径
                fname=$(basename $file)
                # 在要复制到的目标机器上创建好目录,-p的意思是防止目标机器上已经存在该目录而报错,如果已存在不会再建立
                ssh $host "mkdir -p $pdir"
                # 复制当前 要复制的文件或目录 到 目标机器的父目录
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

在这里插入图片描述
在这里插入图片描述

p29 ssh免密登陆

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

p30 集群配置

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

p31群起集群并测试

在这里插入图片描述
在这里插入图片描述

上传文件到hdfs

在这里插入图片描述
在这里插入图片描述

从hdfs下载到本地

在这里插入图片描述
执行wordcount程序,注意 后面两个路径是hdfs的文件路径
在这里插入图片描述

P32集群崩溃处理办法

在这里插入图片描述

p33 历史服务器配置

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

p34 日志聚集功能配置

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

p35 两个常用脚本

在这里插入图片描述
编写Hadoop集群常用脚本
在这里插入图片描述

启动与关闭集群脚本

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh xiaoxiong02 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh xiaoxiong03 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh xiaoxiong02 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh xiaoxiong02 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh xiaoxiong03 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh xiaoxiong02 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

在这里插入图片描述
查看所有集群jps脚本

#!/bin/bash

for host in xiaoxiong02 xiaoxiong03 xiaoxiong04
do
        echo =============== $host ===============
        ssh $host jps 
done

在这里插入图片描述

p36 两道面试题

在这里插入图片描述

p37 集群时间同步

在这里插入图片描述

p38 常见问题总结

在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大数据Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。想要从入门到精通大数据Hadoop,需要以下几个步骤。 首先,了解Hadoop的基本概念和架构。HadoopHadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)组成。HDFS用于存储大规模数据集,而MapReduce用于分布式计算。了解这些基本概念对于理解Hadoop的运行方式至关重要。 其次,学习Hadoop的安装和配置。Hadoop的安装可以通过官方网站提供的二进制文件进行,同时需要配置相关环境变量和属性文件。熟悉Hadoop的配置能够更好地适应不同的需求和环境。 第三,学习Hadoop的编程模型和API。Hadoop使用Java编程语言来实现分布式计算任务。了解Hadoop编程模型和API可以帮助我们编写MapReduce程序,实现数据的分布式处理和并行计算。 第四,了解Hadoop生态系统中的其他组件。Hadoop生态系统包括HBase、Hive、Pig、Spark等多个组件,它们可以与Hadoop一起使用,提供更强大的数据处理和分析能力。了解这些组件的基本概念和用法,能够更好地解决实际的数据处理问题。 最后,通过实践项目来提升技能。只有通过实践,才能真正掌握Hadoop的使用和应用。可以通过解决实际的数据问题,运行和调优MapReduce程序,深入理解Hadoop的工作原理和性能优化。 总结起来,要想从入门到精通大数据Hadoop,需要了解基本概念和架构,学习安装配置,掌握编程模型和API,了解Hadoop生态系统中的其他组件,并通过实践项目来提升技能。这些步骤将帮助我们更好地理解和运用Hadoop,实现大数据的存储和处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值