认知hadoop
2020年3月17日
Hadoop是Apache旗下的一套开源软件平台
Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量 数据进行分布式处理
Hadoop的核心组件:HDFS(分布式存储)、MapReduce(分布式计算)、Yarn(资源调度引擎)
HDFS:为海量数据提供存储
块级别的分布式文件存储系统
1)NameNode(nn)存储文件的元数据
2)DataNode(dn)在本地文件系统存储文件快数据,以及快数据的校验和
3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
MapReduce为海量数据提供计算
Map阶段:切分成一个个的小任务
Reduce阶段:汇总各个小任务的结果
YARN:资源协调者、Hadoop 资源管理器,提供统一的资源管理和调度
Hadoop生态圈:
业务模式:
PaaS:平台即服务
SaaS:软件即