hadoop是什么?
(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的
,并不适合那种对几个记录随机读写的在线事务处理模式。
(2)Hadoop就是一个分布式计算
的解决方案。
Hadoop模块
-
包括common,hdfs,yarn,MapReduce,ozone五个
-
Hadoop Common:支持其他Hadoop模块的常用实用程序。
-
Hadoop分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
-
Hadoop YARN:作业调度和集群资源管理的框架。
-
Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。(一种计算框架)
-
Hadoop Ozone: Hadoop的对象存储。(后加)
三种运行模式
-
本地(独立)模式:
- Hadoop配置为以非分布式模式运行,作为单个Java进程。这对调试很有用 伪分布式模式:
-
Hadoop还可以在伪分布式模式下在
单节点
上运行,其中每个Hadoop守护程序在单独的Java进程中运行 - 在一台机器上运行hdfs文件系统,运行mr程序,从hdfs上获取数据,结果存放到hdfs上 完全分布式模式
-
运行在
多台机器
上,同时只有一个hdfs系统