HDFS
- 文件块在集群中均匀分布时,HDFS工作状态最佳。
- 默认的,Hadoop会保存3个复本,第一保存在运行客户端的节点,第二个和第三个保存在另一个机架上的两个随机节点。
- 文件块若设置得太小,会增加寻址时间;文件块太大,会导致负载不均衡。默认的文件块大小为128M,划分时,不足128M的部分也会单独成为一个块,但块大小为实际的文件大小。
Mapreduce
- map任务处理本地数据时,性能最佳
YARN
- YARN是在hadoop2中增加的,用于改善mapreduce的性能,其最大优点在于扩大了hadoop的计算框架选择(如spark),而不仅仅局限于mapreduce。
- YARN的作用:在于对集群资源的精细化管理。包含资源管理器和节点管理器。
- 核心:三种资源调度器
FIFO调度器,容器调度器,公平调度器
4.YARN和MR区别