大数据概论&Hadoop入门

大数据概论

1.大数据概念
大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决:海量的数据存储、海量数据的分析计算、统一资源管理调度。
2.数据存储单位有:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、BD
1 Byte = 8 bit 1KB = 1024Byte 1MB = 1024KB 1G=1024M 1T=1024G
1P=1024T 1ZB=1024T 1ZB=10的21次方字节 等于1000EB
3.大数据特点(4V)
数据量大(Volume)
数据类型繁多(Variety)
处理速度快(Velocity)
价值密度低(Value)
4.大数据的影响
5.大数据的应用场景
6.大数据的发展前景
7.大数据部门组织机构
(1)平台组:
Hadoop、Flume、Kafka、HBase、Spark等框架平台搭建
集群性能监控
集群性能调优
(2)数据仓库组:
ETL工程师 数据清洗
Hive工程师 数据分析、数据仓库建模
(3)数据挖掘组:
算法工程师
推荐系统工程师
用户画像工程师
(4)报表开发组:
JavaEE工程师

大数据处理架构Hadoop

1.什么是Hadoop
Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台(分布式系统基础架构)。它实现了MapReduce计算模型和分布式文件系统HDFS等功能。借助于Hadoop,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的存储与处理分析。
2.Hadoop发展历史
3.Hadoop的特性
(1)高可靠性
(2)高效性
(3)高可扩展性
(4)高容错性
(5)成本低
(6)运行在Linux平台上
(7)支持多种编程语言
4.Hadoop三大发行版本:Apache、Cloudera、Hortonworks
5.Hadoop组成(重点)
Hadoop1.x和Hadoop2.x区别:

Hadoop1.x组成:
MapReduce(计算+资源调度)
HDFS(数据存储)
Common(辅助工具)

Hadoop2.x组成:
MapReduce(计算)
Yarn(资源调度)
HDFS(数据存储)
Common(辅助工具)

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调整,耦合性较大;在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

6.HDFS(Hadoop Distributed File System)的架构概述
HDFS组成作用
NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

7.YARN架构概述
YARN组成和作用
1)ResourceManager(RM):
(1)处理客户端请求
(2)监控NodeManager
(3)启动或监控ApplicationMaster
(4)资源的分配与调度
2)NodeManager(NM):
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理来自ApplicationMaster的命令
3)ApplicationMaster(AM):
(1)负责数据的切分
(2)为应用程序申请资源并分配给内部的任务
(3)任务的监控与容错
4)Container:
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

8.MapReduce架构概述
MapReduce组成和作用
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总

Hadoop运行环境搭建(重点)

1.虚拟机环境准备
1)克隆虚拟机
2)修改克隆虚拟机的静态IP
3)修改主机名
4)关闭防火墙
5)创建用户
6)配置用户具有root权限
7)在/opt目录下创建文件夹module、software
7.1)在/opt目录下创建module、software文件夹
[jinghang@hadoop01 opt]$ sudo mkdir module
[jinghang@hadoop01 opt]$ sudo mkdir software
7.2)修改module、software文件夹的所有者cd
[jinghang@hadoop01 opt]$ sudo chown jinghang:jinghang module/ software/
[jinghang@hadoop01 opt]$ ll

2.安装JDK
1)卸载现有JDK
1.1)查询是否安装Java软件
[jinghang@hadoop01 opt]$ rpm -qa | grep java
1.2)如果安装的版本低于1.7,卸载该JDK
[jinghang@hadoop01 opt]$ sudo rpm -e 软件包
1.3)查看JDK安装路径
[jinghang@hadoop01 ~]$ which java
2)用Xshell工具将JDK导入到opt目录下面的software文件夹下面,选择jdk1.8拖入
3)1. 在Linux系统下的opt目录中查看软件包是否导入成功
[jinghang@hadoop01 opt]$ cd software/
[jinghang@hadoop01 software]$ ls
hadoop-2.7.2.tar.gz jdk-8u144-linux-x64.tar.gz
4)解压JDK到/opt/module目录下
[jinghang@hadoop01 software]$ tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/
5)配置JDK环境变量
5.1)先获取JDK路径
[jinghang@hadoop01 jdk1.8.0_144]$ pwd
/opt/module/jdk1.8.0_144
5.2)打开/etc/profile文件
[jinghang@hadoop01 software]$ sudo vi /etc/profile
在profile文件末尾添加JDK路径
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$ PATH:$JAVA_HOME/bin
5.3)保存后退出 :wq
5.4)让修改后的文件生效
[jinghang@hadoop01 jdk1.8.0_144] $ source /etc/profile
6)测试JDK是否安装成功
[jinghang@hadoop01 jdk1.8.0_144]# java -version
java version “1.8.0_144”
注意:重启(如果java -version可以用就不用重启)
[jinghang@hadoop01 jdk1.8.0_144]$ sync
[jinghang@hadoop01 jdk1.8.0_144]$ sudo reboot

3.安装Hadoop
下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/
1)用Xshell工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面,切换到sftp连接页面,选择Linux下编译的hadoop jar包拖入
2)进入到Hadoop安装包路径下
[jinghang@hadoop01 ~]$ cd /opt/software/
3)解压安装文件到/opt/module下面
[jinghang@hadoop01 software]$ tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
4)查看是否解压成功
[jinghang@hadoop01 software]$ ls /opt/module/
hadoop-2.7.2
5)将Hadoop添加到环境变量
5.1)获取Hadoop安装路径
[jinghang@hadoop01 hadoop-2.7.2]$ pwd
/opt/module/hadoop-2.7.2
5.2)打开/etc/profile文件
[jinghang@hadoop01 hadoop-2.7.2]$ sudo vi /etc/profile
在profile文件末尾添加JDK路径:(shitf+g)
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$ PATH:$ HADOOP_HOME/bin
export PATH=$ PATH:$HADOOP_HOME/sbin
5.3)保存后退出 :wq
5.4)让修改后的文件生效
[jinghang@ hadoop01 hadoop-2.7.2] $ source /etc/profile
6.测试是否安装成功
[jinghang@hadoop01 hadoop-2.7.2]$ hadoop version
Hadoop 2.7.2
7.重启(如果Hadoop命令不能用再重启)
[jinghang@ hadoop01 hadoop-2.7.2]$ sync
[jinghang@ hadoop01 hadoop-2.7.2]$ sudo reboot

Hadoop目录结构
1.查看Hadoop目录结构
[jinghang@hadoop01 hadoop-2.7.2]$ ll
2.重要目录
1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
4)sbin目录:存放启动或停止Hadoop相关服务的脚本
5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值