大数据技术之Hadoop

Chen Mon

已于 2022-06-08 11:19:04 修改

阅读量4.1k

点赞数 1

于 2022-05-22 14:47:18 首次发布

本文链接：https://blog.csdn.net/weixin_52112640/article/details/124907147

版权

本文详细介绍了大数据的概念，包括Volume、Velocity、Variety和Value四个特点，接着深入探讨了Hadoop框架，阐述了其优势及2.0版本的组成，包括HDFS、YARN和MapReduce。最后，逐步讲解了如何在Linux环境中搭建Hadoop的完全分布式运行环境，涉及虚拟机创建、JDK和Hadoop的安装配置、SSH免密登录以及集群配置等关键步骤。

摘要由CSDN通过智能技术生成

第三章 Hadoop运行环境搭建（完全分布式）

3.1 准备三台虚拟机

（1）创建虚拟机（在VMware中单击：文件->新建虚拟机）

（2）登录linux修改ip和用户名配置映射

（3）使用yum安装，需要虚拟机可以正常上网

（4）安装epel-release

（5）安装net-tool工具包集合里面包含ifconfig等命令

（6）测试ifconfig

（7）关闭防火墙，关闭防火墙开机自启

（8）在/opt目录下创建module、software文件夹

（3）修改克隆机主机名，以slave1举例

（4）重启虚拟机slave1（reboot）

3.3 在master安装JDK

（1）用FinalShell传输工具将JDK和Hadoop导入到opt目录下的software文件夹下面

（2）解压JDK到/opt/module目录下

（3）查看JDK

（4）配置JDK环境变量

3.4 在master安装Hadoop

（1）将/opt/software目录下的hadoop-2.7.7解压到/opt/module

第一章大数据概述

1.大数据概念

大数据(Big Data) :指无去在一定时间范围内用常规软件工具进行捕捉、管理和处理的数居集合，是需要新处理模式才能具有更强的央策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决，海量数据的存储和海量数据的分析问题。

1.2、大数据特点

1、Volume(大量)

截至目前，人类生产的所有印刷材半料的教据量是200 PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而-些大企业的数居量已经接近B量级.

2、Velocity（高速）

这是大数据区分于专统澎对居挖掘的最显著特征.根据IDC的“数字宇宙”的报告，预十到2020年，全球数据使用量将达到35.2ZB.在如此海量的数据面前，处理数据日的交效率就是企业的生命.

3、Variety（多样）

这种类型的多样性也让数据被分为结构化数据和非结构化教据。相对于以往便于存储的以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网络日志音频、视频烦、图片、地理位置信息等，这些多类型的据对数据的处理能力提出了更高要求。

4、Value（低价值密度）

价值密度的高低与教居总量的大小成反比。比如，在一天监控视烦中，我们只关心宋宋老师晚上在床上健身那—分钟，女何快速对有价值教据“提纯”成为目前大数居背景下待解央的难是题。价值密度的高低与教居总量的大小成反比.比如，在一天监控视烦中，我们只关心宋宋老师晚上在床上健身那-分钟，女何快速对有价值教据“提纯”成为目前大数居背景下待解央的难是题.

1.3 大数据部门组织结构

大数据部门组织结构，适用于大中型企业

第二章 Hadoop框架

2.1 Hadoop是什么

（1） Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

（2）主要解决，海量教据的存情和海量教据的分析计算问题。

（3）广义上来说，Hadoop通常是指一个更广泛的概念———Hadoop生态圈。

2.2 Hadoop的优势

（1）高可靠性: Hadoop底层维户多个数据副本，所以即使Hadoop某个计算元素或存储山现故障，也不会导致数据的丢失。
（2）高扩展性:在集群间分配任务数据，可方便的扩广展以千计的节点。
（3）高效性:在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
（4）高容错性:能够自动将失败的任务重新分配。

2.3 Hadoop2.0的组成

（1）HDFS架构

NameNode (rm):存情文件的元数据，如文件名，文件目录结构，文件国性〈生成时间、倒本数.文件权限)，以及每个文件的块列去和块所在的DataNode等。

DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验和。

Seccnday NameNode(2nm):用来监控HDFS状志的辅助后合程序，每隔一段时间获取HDFS元数据的快照。

（2）YARN架构概述

（3）MapReduce架构概述

MapReduce将计算过程分为两个阶段: Map和Reduce

Map阶段并行处理输入数据

Reduce阶段对Map结果进行汇总

2.4 大数据技术生态体系

第三章 Hadoop运行环境搭建（完全分布式）

3.1 准备三台虚拟机

（1）创建虚拟机（在VMware中单击：文件->新建虚拟机）

单击编辑虚拟机设置（选择centos镜像）然后开启虚拟机

单击软件选择

单击安装位置选择完成（默认即可）

点击开始安装（设置root密码）

安装完后会让我们重启一下

（2）登录linux修改ip和用户名配置映射

修改BOOTPROTO=static

修改ONBOOT=yes

增加ip ：192.168.10.20

增加网关：192.168.10.2

增加DNS1:192.168.10.2

最低0.47元/天解锁文章

Chen Mon

关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之Hadoop

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录第一章大数据概述1.大数据概念大数据(Big Data) :指无去在一定时间范围内用常规软件工具进行捕捉、管理和处理的数居集合，是需要新处理模式才能具有更强的央策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储....
复制链接

扫一扫