1.狭义
数据存储: HDFS
数据计算: MapReduce
资源和计算作业调度分配: YARN
谁最重要?
个人理解 数据存储 计算跟调度相辅相成。
2.广义:hadoop生态圈的所有软件(模块)
hive sqoop HBASE kafka spark flink(偏实时)等
离线数据仓库 实时数据仓库
3.三种支持的模式之一启动 Hadoop 集群
Local (Standalone) Mode 本地 一台机器 一个Java进程
Pseudo-Distributed Mode 伪分布式 一台机器 多个Java进程
Fully-Distributed Mode 完全分布式 多个机器 多个java进程