Hadoop:基本介绍
Hadoop生态作用:
- 数据存储:在商用硬件(commodity hardware)上提供扩展来存放大量的数据
- 容错性:快速从局部错误、硬盘错误中恢复
- 数据多样性:支持多种形式的数据,比如图像、网络等。
- 创造共享的环境: 由于即使是中等规模的集群也可以有多个核心,因此允许多个作业同时执行是很重要的。
- 为公司创造价值。
主要工具:
-
MapReduce:处理大数据的程序模型。MapReduce只采用有限的模型来表示数据。
-
YARN: the scheduler and resource manager. 调度程序和资源管理器。
-
HDFS:兼容最好的标准级文件系统(对于用户来说,就是一个巨大的硬盘)
*更多工具:
-
Hive和Pig是MapReduce之上的两个额外的编程模型,分别用关系代数和数据流建模来增强MapReduce的数据建模。
-
Hive是在Facebook上创建的,用于在HDFS中对数据使用MapReduce发出类似sql的查询。
-
Pig是在雅虎创建的,用于使用MapReduce对基于数据流的程序建模。由于YARN管理资源的稳定性,不仅为MapReduce,但其他编程模型提供服务。
-
-
为了有效地处理大规模的图形,建立了Giraph。例如,Facebook使用Giraph来分析其用户的社交图表。
-
Storm、Spark和Flink是基于YARN资源调度器和HDFS构建的,用于实时和大数据的内存处理。内存处理是一种更快速运行大数据应用程序的强大方法,在某些任务上实现了100x的更好性能。
-
NoSQL (Cassandra、MongoDB、HBase),使用存储的文件和目录的模型来表示数据或处理任务有些麻烦。这样的例子包括大型稀疏表的几何和可信值。以上这些用来处理这种情况
-
Zookeeper:所有工具的集中管理系统,保证同步、配置和高可用性。
根据不同的需求选择不同的工具