Apache-Hadoop简介

Hadoop 是一个开源的分布式存储和处理框架,能够高效地处理大规模数据集

1.Hadoop图标和命名由来

当道格·卡廷(Hadoop之父)看到他牙牙学语的儿子抱着一只黄色毛绒小象,亲昵的叫“hadoop”,他灵光一闪,便把这技术命名为“Hadoop”,并且将其标志设计成了一只黄色的小象。

2.Hadoop组成部分:

  1. Hadoop 分布式文件系统(HDFS)

    HDFS 是 Hadoop 的文件系统,它被设计用来存储大规模数据集,并提供高可靠性、高吞吐量和容错性。它将数据分布存储在集群的不同节点上。
  2. Hadoop YARN

    YARN 是资源管理器,负责集群资源的管理和任务调度。它允许不同类型的数据处理工作负载在集群上运行,包括 MapReduce、Spark 等。
  3. MapReduce

    这是 Hadoop 的一种编程模型和处理框架,用于并行处理大规模数据集。MapReduce 将任务分成 Map 和 Reduce 两个阶段,可以处理分布式存储中的数据。

3.Hadoop特点和优势:

        1.可扩展性:Hadoop 是设计用来处理大规模数据的,可以轻松地扩展到成百上千甚至成千上万的服务器。

        2.容错性:Hadoop 具备高度的容错性,能够自动处理硬件故障,保证数据的可靠性。

        3.成本效益:使用商用硬件搭建 Hadoop 集群通常比传统存储和处理方案更经济。

        4.多用途性:除了 MapReduce,Hadoop 生态系统还支持各种工具和框架,如Spark、Hive、Pig等,扩展了其应用范围。

应用领域:

        1.大规模数据处理:Hadoop 在处理海量数据时表现出色,广泛应用于互联网、金融、医疗等领域。

        2.实时数据分析:虽然 Hadoop 的强项不是实时处理,但结合其他技术(如Spark Streaming、Flink),也能应对一定的实时处理需求。

        3.日志分析:许多企业使用 Hadoop 来分析和处理大量的日志数据,从中获取有价值的信息和洞察。

总结:

        Hadoop 提供了一个强大的基础架构,用于存储和处理大规模数据。其分布式文件系统(HDFS)、资源管理器(YARN)和处理框架(MapReduce)构成了一个可靠且高效的数据处理平台。然而,随着技术的发展,一些新兴技术如 Apache Spark 和其他基于内存的框架,也逐渐成为大数据处理的重要选择,因为它们能够提供更快的数据处理速度和更多的功能。

安装Hadoop

官网地址如下

https://hadoop.apache.org/icon-default.png?t=N7T8https://hadoop.apache.org/

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值