大数据概论&Hadoop入门

最新推荐文章于 2024-05-22 05:00:00 发布

Iridescent_cy

最新推荐文章于 2024-05-22 05:00:00 发布

阅读量244

点赞数

分类专栏：总结文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/weixin_45770700/article/details/103585563

版权

总结专栏收录该内容

27 篇文章 1 订阅

订阅专栏

大数据概论

1.大数据概念
大数据（Big Data）:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决：海量的数据存储、海量数据的分析计算、统一资源管理调度。
2.数据存储单位有：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、BD
1 Byte = 8 bit 1KB = 1024Byte 1MB = 1024KB 1G=1024M 1T=1024G
1P=1024T 1ZB=1024T 1ZB=10的21次方字节等于1000EB
3.大数据特点（4V）
数据量大（Volume）
数据类型繁多（Variety）
处理速度快（Velocity）
价值密度低（Value）
4.大数据的影响
5.大数据的应用场景
6.大数据的发展前景
7.大数据部门组织机构
（1）平台组：
Hadoop、Flume、Kafka、HBase、Spark等框架平台搭建
集群性能监控
集群性能调优
（2）数据仓库组：
ETL工程师数据清洗
Hive工程师数据分析、数据仓库建模
（3）数据挖掘组：
算法工程师
推荐系统工程师
用户画像工程师
（4）报表开发组：
JavaEE工程师

大数据处理架构Hadoop

1.什么是Hadoop
Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台（分布式系统基础架构）。它实现了MapReduce计算模型和分布式文件系统HDFS等功能。借助于Hadoop,程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的存储与处理分析。
2.Hadoop发展历史
3.Hadoop的特性
（1）高可靠性
（2）高效性
（3）高可扩展性
（4）高容错性
（5）成本低
（6）运行在Linux平台上
（7）支持多种编程语言
4.Hadoop三大发行版本:Apache、Cloudera、Hortonworks
5.Hadoop组成（重点）
Hadoop1.x和Hadoop2.x区别:

Hadoop1.x组成：
MapReduce（计算+资源调度）
HDFS（数据存储）
Common(辅助工具)

Hadoop2.x组成：
MapReduce（计算）
Yarn(资源调度)
HDFS（数据存储）
Common(辅助工具)

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调整，耦合性较大；在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。

6.HDFS（Hadoop Distributed File System）的架构概述
HDFS组成作用
NameNode(nn):存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

7.YARN架构概述
YARN组成和作用
1）ResourceManager(RM):
（1）处理客户端请求
（2）监控NodeManager
（3）启动或监控ApplicationMaster
（4）资源的分配与调度
2）NodeManager（NM）：
（1）管理单个节点上的资源
（2）处理来自ResourceManager的命令
（3）处理来自ApplicationMaster的命令
3）ApplicationMaster（AM）：
（1）负责数据的切分
（2）为应用程序申请资源并分配给内部的任务
（3）任务的监控与容错
4）Container：
Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

8.MapReduce架构概述
MapReduce组成和作用
MapReduce将计算过程分为两个阶段：Map和Reduce
1）Map阶段并行处理输入数据
2）Reduce阶段对Map结果进行汇总

Hadoop运行环境搭建（重点）

1.虚拟机环境准备
1）克隆虚拟机
2）修改克隆虚拟机的静态IP
3）修改主机名
4）关闭防火墙
5）创建用户
6）配置用户具有root权限
7）在/opt目录下创建文件夹module、software
7.1)在/opt目录下创建module、software文件夹
[jinghang@hadoop01 opt]$ sudo mkdir module
[jinghang@hadoop01 opt]$ sudo mkdir software
7.2)修改module、software文件夹的所有者cd
[jinghang@hadoop01 opt]$ sudo chown jinghang:jinghang module/ software/
[jinghang@hadoop01 opt]$ ll

2.安装JDK
1）卸载现有JDK
1.1)查询是否安装Java软件
[jinghang@hadoop01 opt]$ rpm -qa | grep java
1.2)如果安装的版本低于1.7，卸载该JDK
[jinghang@hadoop01 opt]$ sudo rpm -e 软件包
1.3)查看JDK安装路径
[jinghang@hadoop01 ~]$ which java
2)用Xshell工具将JDK导入到opt目录下面的software文件夹下面，选择jdk1.8拖入
3)1. 在Linux系统下的opt目录中查看软件包是否导入成功
[jinghang@hadoop01 opt]$ cd software/
[jinghang@hadoop01 software]$ ls
hadoop-2.7.2.tar.gz jdk-8u144-linux-x64.tar.gz
4)解压JDK到/opt/module目录下
[jinghang@hadoop01 software]$ tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/
5)配置JDK环境变量
5.1)先获取JDK路径
[jinghang@hadoop01 jdk1.8.0_144]$ pwd
/opt/module/jdk1.8.0_144
5.2)打开/etc/profile文件
[jinghang@hadoop01 software]$ sudo vi /etc/profile
在profile文件末尾添加JDK路径
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$ PATH:$JAVA_HOME/bin
5.3)保存后退出 :wq
5.4)让修改后的文件生效
[jinghang@hadoop01 jdk1.8.0_144] $ source /etc/profile
6)测试JDK是否安装成功
[jinghang@hadoop01 jdk1.8.0_144]# java -version
java version “1.8.0_144”
注意：重启（如果java -version可以用就不用重启）
[jinghang@hadoop01 jdk1.8.0_144]$ sync
[jinghang@hadoop01 jdk1.8.0_144]$ sudo reboot

3.安装Hadoop
下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/
1)用Xshell工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面,切换到sftp连接页面，选择Linux下编译的hadoop jar包拖入
2)进入到Hadoop安装包路径下
[jinghang@hadoop01 ~]$ cd /opt/software/
3)解压安装文件到/opt/module下面
[jinghang@hadoop01 software]$ tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
4)查看是否解压成功
[jinghang@hadoop01 software]$ ls /opt/module/
hadoop-2.7.2
5)将Hadoop添加到环境变量
5.1)获取Hadoop安装路径
[jinghang@hadoop01 hadoop-2.7.2]$ pwd
/opt/module/hadoop-2.7.2
5.2)打开/etc/profile文件
[jinghang@hadoop01 hadoop-2.7.2]$ sudo vi /etc/profile
在profile文件末尾添加JDK路径：（shitf+g）
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$ PATH:$ HADOOP_HOME/bin
export PATH=$ PATH:$HADOOP_HOME/sbin
5.3)保存后退出 :wq
5.4)让修改后的文件生效
[jinghang@ hadoop01 hadoop-2.7.2] $ source /etc/profile
6.测试是否安装成功
[jinghang@hadoop01 hadoop-2.7.2]$ hadoop version
Hadoop 2.7.2
7.重启(如果Hadoop命令不能用再重启)
[jinghang@ hadoop01 hadoop-2.7.2]$ sync
[jinghang@ hadoop01 hadoop-2.7.2]$ sudo reboot

Hadoop目录结构
1.查看Hadoop目录结构
[jinghang@hadoop01 hadoop-2.7.2]$ ll
2.重要目录
1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
4）sbin目录：存放启动或停止Hadoop相关服务的脚本
5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

Iridescent_cy

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据概论&Hadoop入门

大数据概论1.大数据概念大数据（Big Data）:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决：海量的数据存储、海量数据的分析计算、统一资源管理调度。2.数据存储单位有：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、BD1 By...
复制链接

扫一扫