入门级，Hadoop详情教程（一）

最新推荐文章于 2025-02-05 14:47:57 发布

原创

最新推荐文章于 2025-02-05 14:47:57 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hadoop #java #mapreduce

本文深入介绍Hadoop大数据处理框架，涵盖Hadoop概念、特性及其与传统数据库的区别。详细解析Hadoop核心组件HDFS、YARN及MapReduce的工作原理，包括分布式文件系统HDFS的架构、YARN资源管理机制及MapReduce并行运算流程。

Hadoop入门一

大数据简介

（1）概念
①无法在一定的时间内通过常规软件进行抓取，管理和处理的数据
②解决海量数据的存储和计算问题
在这里插入图片描述
（2）特性
数量大Volume，增长快Velocity，种类多Variety，价密低Value
（3）固有特性
时效性，不可变性
（4）分布式计算：
①传统分布式：
1)多数据节点-copy data->单计算节点 master
2)特点：数据量小，受限于单体计算节点CPU性能
3)提升方法：提升单体计算机的运算能力
②hadoop分布式：
1)都具有存储和运算功能节点-copy computed result from single node->汇总计算节点
2)特点：数据量大，受单体计算节点影响小
3)提升方法：扩展低成本集群