定义: 一个可靠的,可扩展的,可以分布式计算的开源软件(计算框架)
特点:
-
使用简单计算模型,在集群中,分布式的处理海量数据
集群:从硬件的角度分析,代表很多个服务器组成了一个集群
分布式:从软件的角度分析,代表一个任务在集群中的计算方式
-
集群中节点的数量可以从1到成千上万(可扩展),每个节点都可以有独立的计算和存储能力
-
相对于在硬件层次上做优化,在应用层做优化会更好
-
任何一个节点都可以出现错误。如果一个节点出现问题,还有集群中的其他节点继续完成工作。
Hadoop到底是什么
-
从技术的角度分析:
hadoop就是一个分布式的计算框架
-
从大数据的整体角度分析:
可以特指hadoop生态圈
主要解决什么问题
-
海量数据怎么存?
-
海量数据怎么算?
怎么解决这两个问题—四大组件
1. HDFS
Hadoop Distributed File System 分布式的文件系统
解决海量数据怎么存的组件
三个角色:
-
NameNode
主节点,全局只有一个,存储的是元数据