大数据入门1:Hadoop基本介绍

Hadoop:基本介绍

Hadoop生态作用:

  1. 数据存储:在商用硬件(commodity hardware)上提供扩展来存放大量的数据
  2. 容错性:快速从局部错误、硬盘错误中恢复
  3. 数据多样性:支持多种形式的数据,比如图像、网络等。
  4. 创造共享的环境: 由于即使是中等规模的集群也可以有多个核心,因此允许多个作业同时执行是很重要的。
  5. 为公司创造价值。

主要工具:

  • MapReduce:处理大数据的程序模型。MapReduce只采用有限的模型来表示数据。

  • YARN: the scheduler and resource manager. 调度程序和资源管理器。

  • HDFS:兼容最好的标准级文件系统(对于用户来说,就是一个巨大的硬盘)

    知乎:HDFS详解


*更多工具:

  • Hive和Pig是MapReduce之上的两个额外的编程模型,分别用关系代数和数据流建模来增强MapReduce的数据建模。

    • Hive是在Facebook上创建的,用于在HDFS中对数据使用MapReduce发出类似sql的查询。

    • Pig是在雅虎创建的,用于使用MapReduce对基于数据流的程序建模。由于YARN管理资源的稳定性,不仅为MapReduce,但其他编程模型提供服务。

  • 为了有效地处理大规模的图形,建立了Giraph。例如,Facebook使用Giraph来分析其用户的社交图表。

  • Storm、SparkFlink是基于YARN资源调度器和HDFS构建的,用于实时和大数据的内存处理。内存处理是一种更快速运行大数据应用程序的强大方法,在某些任务上实现了100x的更好性能。

  • NoSQL (Cassandra、MongoDB、HBase),使用存储的文件和目录的模型来表示数据或处理任务有些麻烦。这样的例子包括大型稀疏表的几何和可信值。以上这些用来处理这种情况

  • Zookeeper:所有工具的集中管理系统,保证同步、配置和高可用性。

根据不同的需求选择不同的工具

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值