大数据
文章平均质量分 72
DolphinZhao的专栏
这个作者很懒,什么都没留下…
展开
-
MapReduce总结 (1)
【1】Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。【2】Mapper的输出被排序后,就被划分给每个Reducer。分块的总数目和一个作业的reduce任务的数目是一样的。用户可以通过实现自定义的 Partitioner来控制哪个key被分配给哪个 Reducer。【原创 2016-04-07 21:53:06 · 742 阅读 · 0 评论 -
Spark总结(三)——RDD的Action操作
1、foreach操作:对RDD中的每个元素执行f函数操作,返回Unit。def funOps1(): Unit = { var rdd1 = sc.parallelize(List(1, 2, 3, 5, 6)) rdd1.foreach(println _)}源码: 2、saveAsTextFile操作:将数据输出到hdfs上,将RDD中的每个元素映射转变为(Null, e.toSt原创 2016-07-27 19:17:06 · 3014 阅读 · 0 评论 -
Spark总结(二)——RDD的Transformation操作
1、创建RDD的两种方式: (1)、从HDFS读入数据产生RDD; (2)、有其他已存在的RDD转换得到新的RDD;scala> val textFile = sc.textFile("hdfs://192.169.26.58:9000/home/datamining/zhaozhuohui/workspace/test01.txt")scala> val tf2 = textFile.fla原创 2016-07-22 20:23:22 · 4975 阅读 · 0 评论 -
Spark总结(一)
1、RDD是什么?有什么特性?有哪些优势?RDD:全称为弹性分布式数据集(Resilient Distributed Datasets),是一个只读的、容错的、并行的数据结构。2、Driver、ClusterManager、Worker、Executor。Driver:负责提交Job任务。ClusterManager:Spark的资源管理器。可以是Standalone、ya原创 2016-07-21 21:27:17 · 1029 阅读 · 0 评论