Spark技术问题互动问答1


“决胜云计算大数据时代”

 

Spark亚太研究院100期公益大讲堂 【第一期互动问答分享】

 

 

Q1:“能否延伸想象一下,Hadoop后续版本会不会通过设计调整,具备 Spark目前所具备的优势?”

A1

        Hadoop这几年的改进基本停留在代码层次,也就是修修补补的事情,这就导致了Hadoop现在具有深度的“技术债务”,负载累累;

        Hadoop本身的计算模型决定了Hadoop上的所有工作都要转化成Map、Shuffle和Reduce;

        等核心阶段,由于每次计算都要从磁盘读或者写数据,同时真个计算模型需要网络传输,

        这就导致了越来越不能忍受的延迟性,同时在前一个任务运行完之前,任何一个任务都不可以运行,这直接导致了其无力支持交互式应用;

        那么,为什么不全部重新写一个更好的Hadoop呢?答案是Spark的出现使得没有必要这样做了。

 

Q2:“Spark会不会取代Hadoop?”

A2

        Hadoop的HDFS存储系统目前公认的分布式大数据的首选存储系统,会继续倍使用;但在大数据计算框架上Spark会取代Hadoop;

        原先支持Hadoop的四大商业机构纷纷宣布支持Spark;

        Yahoo!、淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术等;

        Mahout前一阶段表示从现在起他们将不再接受任何形式的以MapReduce形式实现的 算法,另外一方面,Mahout宣布新的算法基于Spark;

        Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;

        Google已经开始将负载从MapReduce转移到Pregel和Dremel上;

        FaceBook则将负载转移到Presto上;

        2014年5月30日Spark 1.0发布,版本稳定 ,生态系统晚上,可以放心使用

 

 

Q3:Hadoop是否只会作为大数据的存储系统存在下去?”

A3:     

        Hadoop的HDFS已经是云计算大数据领域公认的数据存储系统,会成为云计算大数据存储的基石;

        Yarn也会成为一个集群资源管理的标准;

        在对速度处理时间长度没有特定要求,而又数据量特别大的场景使用Hadoop的MapReduce计算模型进行计算也是可以考虑的;

 

Q4:“现在都是大型公司在使用Spark,好像中型公司用的不多,比如做电信、金融的,是这种情况么?比Storm有哪些优势?”

A4

        现在,Yahoo!、淘宝、优酷土豆、网易、Baidu、腾讯等已经在商业生产环境下使用Spark技术等;

        Intel、IBM、Linkin、Twwitter等都在大力支持Spark;

        Spark由于其设计的时候的“One Stack torule them all”的特性,特别适合于中小公司 部署使用,是中小公司处理数据的福音; 中型公司基于Spark大约有5个人的团队即可在Spark之上做数据分析统计、机器学习、 实施流处理计算等;

 


Q5:“Spark现在不稳定吧,小公司的技术维护较为困难吧”

A5

        Spark由于其设计的时候的“One Stack torule them all”的特性,特别适合于中小公司

        部署使用,是中小公司处理数据的福音;

        小公司三五个人的团队即可使用和维护几十台的Spark集群;

        DataBricks公司正在和Cloudera等公司合作推出简易使用的商业发行版本;

 


Q6:“Spark是基于内存的分布式计算框架,相比Hadoop处理效率更好, 但是相比硬盘,内存还是贵的,整理性价比如何?能否对比说明一下?”

 

A6

        相比硬盘,内存确实是规定,但Spark确实目前云计算大数据领域具有最高性价比的

        大数据处理框架。

        Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询 等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。

        Spark的“One stack to rulethem all”的特性,使用一个技术堆栈即可解决数据分

析、流处理、图技术、机器学习等

        关于技术团队,如果使用Hadoop来完成数据分析、流处理、图技术、机器学习等就

需要至少4个技术团队分别负责具体的领域,而使用Spark只需要一个技术团队即可完成;

 

Q7:“如果数据量无法全部加在进内存(内存太小),这个在机器学习算法里比较常见,这时候Spark如何处理” ?

 

A7

        内存太小对于任何一个系统而言都是一个永恒的问题,对Spark也是如此;

        因为机器学习中有很多迭代计算,所以对内存要求确实很大;

        Spark有自己相对完善的内存管理策略,对于正在进行的计算肯定是要放在内存中的,

        但是可以根据LRU等算法把不是太活跃的数据可以物化起来;

        另外我们可以使用Google等公司的优秀的压缩算法来提高内存的使用,当然在压缩

        和解压缩的时候需要消耗CPU

 

Q8:“Spark存在哪些性能瓶颈点”

A8:

        内存是一个很大的限制,设想一下,如果单台机器的内存很轻易的达到1T的话,肯定

        可以极大的提高性能;

        另外一个性能瓶颈就是不同机器之间共享数据的问题,即分布式集群中的机器如何

        共享内容,推荐大家关注和使用Tachyon。

        集群中的网速也是一问题,但这是一个通用的问题;

 

 


Q9:“规模为10左右,内存32g的集群能支持多大的数据量” ?

A9

        现在淘宝、Yahoo!等公司的Spark集群的配置一般内存为200g或300g左右,CPU

        一般都在8颗以上;

        规模为10左右,内存32g的集群能够处理多大的数据,取决于当前需要计算的数据量,

        例如在进行实施流程处理的时候就能够一直不断的处理数据;

        规模为10左右,内存32g的集群,其硬盘配置 以及Spark内存管理策略和压缩等算法 也是影响数据处理能力的非常大的因素; 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值