Mapreduce
张包峰
Distributed Computing
展开
-
Mapreduce for Machine Learning
MapReduce for Machine LearningBaofeng Zhang369447122@qq.com 转载请注明出处:http://blog.csdn.net/zbf8441372 AbstractWe are at the beginning of the multicoreera. Computers will have increasin原创 2012-04-10 22:44:48 · 5291 阅读 · 2 评论 -
论文摘抄 - FlumeJava
核心抽象和基本原语PCollection<T>是一个不可变的bag,可以是有序的(Sequence),也可以是无序的(Collection)。PCollection可以来自于内存里的Java PCollection对象,也可以读取自文件。 PTable<K, V>,可以看成PCollection<Pair<K, V>>,不可变无序multi-map。 第一个原语是parallelDo(),把PCollection<T>变成新的PCollection<S>,处理方式定义在DoFn<T, S>里。e原创 2014-07-29 15:08:35 · 5221 阅读 · 1 评论 -
论文摘抄 - Tenzing
背景异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询。架构概述Worker pool,query server,clientinterfaces,metadata serverWorker线程是long-running的,worker pool包括master节点和worker节点,以及一个master watcher。Query server把query解析,优化之后传给master执行,优化包括一些基本的规则优化和基于成本的优化。原创 2014-07-29 15:13:21 · 2203 阅读 · 0 评论 -
Apache Crunch设计:基础数据处理
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和原创 2014-08-03 17:43:34 · 4917 阅读 · 0 评论