大数据技术架构

本文介绍了大数据技术架构中的三大主流平台——Hadoop、Spark和Storm。Hadoop提供分布式存储和计算,适合离线数据分析;Spark通过内存计算提升了处理速度,适合实时分析;Storm则专注于实时流数据处理。这些架构平台结合了HDFS、YARN、MapReduce等技术,实现了大数据的高效管理和处理。
摘要由CSDN通过智能技术生成

目前应用比较广泛的大数据架构平台有三个:Hadoop架构平台、Spark架构平台、Storm 架构平台。Hadoop是一个“开源+分布式存储+分布式计算平台”,实现了MapReduce的思 想,将数据切片计算来处理大量的离线数据,处理的数据必须是已经存放在HDFS上或者类 似Hbase的数据库中,适用于海量数据的离线分析处理。Spark是在Hadoop的基础上进行了 一些架构的改良,Hadoop使用硬盘来存储数据,Spark使用内存来存储数据,可以提供超过 Hadoop100倍的运算速度,由于内存断电后会丢失数据,因此不能处理需要长期保存的数 据。Storm在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流,它不进行 数据的收集和存储工作,直接通过网络实时的接受数据并且实时的处理数据,然后直接通过 网络实时的传回结果。
大数据技术架构主要是针对一个集群而言,通过集群才能体现出大数据技术架构的优 势,一个大数据架构平台是多项新技术应用的组合,技术比较全面的架构平台。
1)HDFS(分布式文件系统)是底层应用,统一管理分布在集群上的文件系统,提供了 一个高度容错性和高吞吐量的海量数据存储解决方案。
2)YARN(群集资源管理系统)为上层应用提供统一的资源管理和调度,它的引入为集 群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
3)MapReduce(分布式离线计算框架)采用“分而治之”的思想,把对大规模数据集 的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结 果,得到最终结果。
4)Tez(DAG计算框架)是基于YARN之上的DAG计算框

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值