bigdata
没出没
这个作者很懒,什么都没留下…
展开
-
大数据(一)--Hadoop
在10多年前,Google出了3篇paper论述分布式系统的做法,分别是GFS, MapReduce, BigTabl,但是未公开系统的实现。于是,工业界便按照这三篇论文的思想去实现了一些系统,Hadoop便是其中之一。后来,Hadoop得到Yahoo的支持才正式启航,得到了大规模的发展。 之所以Hadoop适合做大数据,有以下几个原因:首先,Hadoop扩展性好。不同于其他大多数系统,为了提高H原创 2015-04-13 22:19:29 · 1009 阅读 · 0 评论 -
大数据(二)--Spark
无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce和Dryad。这些系统将分布式编程简化为自动提供位置感知性调度、容错以及负载均衡,使得大量用户能够在商用集群上分析超大数据集。大多数现有的集群计算系统都是基于非循环的数据流模型。从稳定的物理存储(如分布式文件系统)中加载记录,记录被传入由一组确定性操作构成的DAG,然后写回稳定存储。DAG数据流图能够在运原创 2015-04-13 22:49:42 · 1698 阅读 · 0 评论 -
大数据(三)--Storm
Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的,主要有一下特点: 分布式系统:可横向拓展,根据需求随时添加删除节点。 运维原创 2015-04-13 23:21:25 · 938 阅读 · 0 评论 -
大数据(四)--总结
Hadoop采用MapReduce分布式计算框架,将数据切片计算来处理大量的离线数据数据。并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中。常用于离线的复杂的大数据处理。Hadoop的适用场景:(1)海量数据的离线分析处理;(2)大规模Web信息搜索;(3)数据密集型并行计算。Ha原创 2015-04-13 23:26:38 · 892 阅读 · 0 评论