hadoop的核心
hadoop发行版目前历经三代,1已经基本淘汰了,使用比较广泛的是2和3. 后面这两代架构没有发生大的变化,主要是性能发明方面的的不断优化。
hadoop的核心是:
- HDFS 分布式文件存储系统
- YARN 资源管理和任务调度系统
- mapreduce计算框架
集群架构:这里对初学者来说有一个很重要的点,就是集群架构。(什么是集群请看这一篇:)
HDFS集群和YARN集群都是标准的主从架构:
一个主节点 很多个从节点 一个机器上面会有一个从节点 这样就联合多台机器进行集群化的处理,主节点有全局管理的作用,所以一旦主节点丢失或者出问题了 那么基本就gg了,所以hadoop机制中肯定会有主节点保护和备份的内容 这里先不多赘述。
要非常注意的是:这两个核心集群逻辑上是分离的,比如一台机器上上都部署了HDFS的DN和YARN的NN 他们一起工作但是彼此什么关系都没有。不要把他们理解成同一个程序。