一、Hadoopとは
(1)Hadoop是Apache Foundation开发的分布式系统基础架构
(2)主要解决海量数据的存储和海量数据的分析和计算
(3)广义来说,Hadoop一般指的是Hadoop生态系统这一更广泛的概念
二、分散システムおよびクラスター
(1)分散クラスタ
分布式:指多个服务器集中,每个服务器作为一个整体实现不同的服务,并做不同的事情。
群集:指由一组独立计算机系统组成的多处理器系统,通过网络实现进程间通信,多台计算机协同工作(服务)、并行或作为备份。
(2)Hadoopの利点:
高可靠性:由于Hadoop旗下拥有多个数据副本,因此即使Hadoop的计算元素或存储出现故障,数据也不会丢失。
高可扩展性:将任务数据分布在整个集群中,以轻松缩放数千个节点。
高效率:在MapReduce的考虑下,Hadoop并行运行,以加快任务处理速度。
高容错:自动重新分配失败任务的功能。
三、主従構造
大数据框架(大多数基础架构)符合中心化模式的。