流行的大数据技术

流行的大数据技术,涉及大数据处理的各个阶段,包括:架构,采集,存储,计算处理和可视化。我们下面对hadoop生态圈做下了解:

The hadoop includes these modules:

  • Hadoop Common: 为其他hadoop模块提供基础设施。
  • Hadoop Distributed File System
    (HDFS™): 一个高可靠、高吞吐量的分布式文件系统
  • Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理
  • Hadoop MapReduce: 一个分布式的离线并进行计算框架 ——分布式计算框架
  • Hadoop Ozone:
    生态圈的一款新的对象存储系统,可用于小文件和大文件存储

Other Hadoop-related projects at Apache include:

  1. Ambari™: 一种用于供应,管理和监控Apache Hadoop集群的基于Web的工具,其中包括对 Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari还提供了一个用于查看集群运行状况的仪表板,例如热图以及以可视方式查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。.
  2. Avro™:数据序列化系统。
  3. Cassandra™:无单点故障的可扩展多主数据库。
  4. Chukwa™:管理大型分布式系统的数据收集系统。
  5. HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储。
  6. Hive™:提供数据汇总和即席查询的数据仓库基础架构。
  7. Mahout™:可扩展的机器学习和数据挖掘库。
  8. Pig™:用于并行计算的高级数据流语言和执行框架。
  9. Spark™:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算。
  10. Tez™:一种基于Hadoop YARN的通用数据流编程框架,它提供了一个强大且灵活的引擎,可执行任意DAG任务来处理批处理和交互式用例的数据。Hado™,Pig™和Hadoop生态系统中的其他框架以及其他商业软件(例如ETL工具)正在采用Tez来替代Hadoop™MapReduce作为底层执行引擎。
  11. ZooKeeper™:分布式应用程序的高性能协调服务
  12. Flume: 日志收集工具
  13. Sqoop: 数据ETL/同步工具
  14. Oozie: 工作流程调度器
  15. Mesos: 分布式资源管理器
  16. Techyon: 分布式内存文件系统
  17. Giraph: 图计算模型
  18. MLib: 机器学习库
  19. Spark Streaming:流计算模型
  20. Kafka: 分布式消息队列
  21. Phoenix:HBase SQL接口
  22. Kylin+Druid
    Kylin是一个开源的分布式分析引擎
    Druid是目前最好的数据库连接池
  23. Superset: 是Airbnb开源的数据挖掘平台
  24. Storm: 分布式实时大数据处理系统

大数据解决方案

  1. Cloudera
  2. Hortonworks:基于hadoop apache开发的
  3. MapR:是一个比Hadoop分布式文件系统还要块3倍的产品。
  4. 华为FusionInsight
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页