【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（一）

努力学习呀~

已于 2023-07-24 21:11:40 修改

阅读量151

点赞数

文章标签： hadoop 大数据 hive

于 2023-02-12 12:24:33 首次发布

本文链接：https://blog.csdn.net/weixin_43741856/article/details/128992381

版权

【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（一）

【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（一）

一、大数据相关概念

1.1 什么是数据？

数据是指人类的一切语言文字、图形图画、音像记录，所有感官可以察觉的事物。
对于大数据而言，一般处理的数据是：结构化，半结构化，非结构化数据。

1.2 常见的数据存储单位有哪些？

1Byte = 8bit 1K(千)= 1024Byte 1MB（兆)=1024K 1G(吉) = 1024M 1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽)=1024E 1Y (尧)=1024Z 1B(布)=1024Y 1N(诺)=1024B 1D(刀)=1024N

1.3 大数据主要解决问题及特点

主要解决问题：海量数据的存储和海量数据的计算问题。
特点：
1、数据体量大；
2、分析的数据来源多样化；
3、数据的价值密度比较低，需要们有很强大的数据价值提纯能力；
4、数据的增长速度较快，在实时分析中，我们需要保证数据的处理速度；
5、大数据要求保证源数据的数据质量。

1.4 什么是分布式系统？

分布式系统是一个硬件或软件组件分布在不同的网络计算机上，彼此之间仅仅通过消息传递进行通信和协调的系统。

1.5 分布式和集群区别？

分布式强调的是一个系统被拆分到多台主机上，用于任务拆分；
集群强调的是多台主机做一样的事情。

二、Hadoop相关概念

2.1 Hadoop概述

Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
狭义上说，Hadoop指Apache这款开源框架，它的核心组件有:
（1）HDFS（分布式文件系统）：解决海量数据存储；
（2）YARN（作业调度和集群资源管理的框架）：解决资源任务调度；
（3）MAPREDUCE（分布式运算编程框架）：解决海量数据计算。

2.2 Hadoop生态圈

狭义上说，Hadoop指Apache这款开源框架；
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
生态圈框架，例如：
HDFS：分布式文件系统
MapReduce：分布式运算程序开发框架
ZooKeeper：分布式协调服务基础组件
HIVE：基于HADOOP的分布式数据仓库，提供基于SQL的查询数据操作
FLUME：日志数据采集框架
oozie：工作流调度框架
Sqoop：数据导入导出工具（比如用于mysql和HDFS之间）
Impala：基于hive的实时sql查询分析
Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

2.3 Hadoop特性优点

（1）扩容能力（Scalable）：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计的节点中。
（2）成本低（Economical）：Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
（3）高效率（Efficient）：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
（4）可靠性（Rellable）：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

三、总结

Hadoop是大数据学习之路的重要一环，对于Hadoop的学习可以认为是大数据学习的入门第一课；Hadoop中的HDFS负责海量数据存储，MapReduce负责海量数据计算，YARN负责资源任务调度。要学好大数据入门第一课，Hadoop的三大核心组件学习必不可少，下一期将详细介绍Hadoop的集群搭建。

努力学习呀~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（一）

数据是指人类的一切语言文字、图形图画、音像记录，所有感官可以察觉的事物。大数据处理的数据一般是结构化，半结构化，非结构化数据。分布式系统是一个硬件或软件组件分布在不同的网络计算机上，彼此之间仅仅通过消息传递进行通信和协调的系统。Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
复制链接

扫一扫