大数据4V特征
Volumn:体量大
Velocity:速度快
Variaty:样式多
Value:价值密度低
Hadoop
可靠的、可伸缩的、分布式计算的开源软件。
是一个框架、允许跨越计算机集群的大数据集处理,使用简单的编程模型(MapReduce)。
可从单个服务器扩展到几千台主机,每个节点提供了计算和存储的功能。而不是依赖高可用性的机器依赖于应用层面上的实现。
Hadoop 模块
hadoop common
公共类库
HDFS hadoop
分布式文件系统
Hadoop Yarn
作业调度和资源管理框架
Hadoop MapReduce
基于yarn系统的大数据集并行处理技术
Hadoop 节点
NameNode(管理节点)
DataNode(工作节点),
secondary NameNode(相当于MySQL数据库中主从复制的从节点),
ResourceManager
Nodemanager