spark应用
zhangqiang1104
这个作者很懒,什么都没留下…
展开
-
论文笔记:《Google MapReduce》
《Google MapReduce》用户首先创建一个Map函数处理一个基于keyalue pair的数据集合,输出中间的基于keyalue pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的集群上的调度,集群中计原创 2015-12-21 20:27:36 · 615 阅读 · 0 评论 -
论文笔记:《the Google File System》
《the Google File System》Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统,包括几百甚至几千台普通的廉价设备组装的存储机器,同时被相当数量的客户机访问。GFS存储的文件被分割成若干固定大小的chunk,以唯一的chunk标识区分,保存在chunkserver上,为保证数据可靠性,每个chunk块被复制到三个chunkserver。原创 2015-12-21 20:29:54 · 574 阅读 · 0 评论 -
论文笔记:Resilient Distributed Dataset: A Fault-Tolerant Abstraction for In-memory C
中文版链接:http://shiyanjun.cn/archives/744.html摘要本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机原创 2015-12-21 20:31:12 · 1331 阅读 · 0 评论