流行的大数据技术,涉及大数据处理的各个阶段,包括:架构,采集,存储,计算处理和可视化。我们下面对hadoop生态圈做下了解:
The hadoop includes these modules:
- Hadoop Common: 为其他hadoop模块提供基础设施。
- Hadoop Distributed File System
(HDFS™): 一个高可靠、高吞吐量的分布式文件系统 - Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理
- Hadoop MapReduce: 一个分布式的离线并进行计算框架 ——分布式计算框架
- Hadoop Ozone:
生态圈的一款新的对象存储系统,可用于小文件和大文件存储
Other Hadoop-related projects at Apache include:
- Ambari™: 一种用于供应,管理和监控Apache Hadoop集群的基于Web的工具,其中包括对 Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari还提供了一个用于查看集群运行状况的仪表板,例如热图以及以可视方式查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。.
- Avro™:数据序列化系统。
- Cassandra™:无单点故障的可扩展多主数据库。
- Chukwa™:管理大型分布式系统的数据收集系统