Spark
文章平均质量分 85
苏然Vincent
这个作者很懒,什么都没留下…
展开
-
Spark学习1: 基础函数功能解读
Spark已经定义好了一些基本的transformation 和 action的操作,下面我们yitanjiuji原创 2014-08-17 09:05:48 · 31514 阅读 · 6 评论 -
从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 一
@TOC从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读涉及内容从Task执行,到RDD的读取,以及Shuffle数据的获取。Task体系ShuffleMapTask的读和写Shuffle Block的读和写External Shuffle Ser...原创 2018-11-10 21:25:31 · 796 阅读 · 0 评论 -
Spark RDD依赖关系小结
本图暂时只给了非常简单的OneToOneDependency的RDD依赖关系Discussstage根据dependency类型的划分,没有详细给出stage的依赖关系没有给出shuffle dependency没有给出原创 2015-05-04 14:52:46 · 1643 阅读 · 0 评论 -
Spark Shuffle初探
之前一直疑惑Shuffle过程中的读和写究竟是在哪里实现的,一直误解读和写都是在RDD的转换过程中实现的,但是追踪代码reduceByKey,却只找到了生成ShuffledRDD的过程,然后在ShuffledRDD中的compute函数中有读取过程,那么写入过程究竟在哪里呢??PairRDDFunctionsdef combineByKey[C](createCombiner: V原创 2015-05-12 08:00:47 · 4369 阅读 · 0 评论 -
Spark源码系列(二)RDD详解
http://www.cnblogs.com/cenyuhai/p/3779125.html最近在阅读源码,发现这篇博客内容非常好,有助于快速理解代码。1、什么是RDD?上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是Resilien转载 2015-04-11 13:52:09 · 6923 阅读 · 0 评论 -
Spark 阅读资料汇总
参考资料(reference)Introduction to Spark Internals http://files.meetup.com/3138542/dev-meetup-dec-2012.pptxResilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computin原创 2014-09-06 19:26:21 · 11645 阅读 · 3 评论 -
Getting Spark Setup in Eclipse
Spark is a new distributed programming framework for analyzing large data sets. It took me a few steps to get the system setup in Eclipse, so I thought I’d write them down. Hopefully this post sav转载 2014-09-11 23:26:51 · 4516 阅读 · 0 评论 -
Spark:大数据的“电光石火”
RDD是Spark的核心gainiResilient Distributed Dataset• A list of partitions• A function for computing each split• A list of dependencies on other RDDs• Optionally, a Partitioner for key-value RDDs转载 2014-08-17 09:07:43 · 2160 阅读 · 0 评论 -
Spark导入eclipse
用了eclipse好多年,希望可以把spark带入eclipse,然后阅读源码会方便些。~~~~(>_<)~~~~ 5555原创 2014-09-11 23:06:50 · 11199 阅读 · 2 评论 -
Spark 运行与配置
集群配置 0.9版本spark-env.shexport JAVA_HOME=export SPARK_MASTER_IP=export SPARK_WORKER_CORES=export SPARK_WORKER_INSTANCES=export SPARK_WORKER_MEMORY=export SPARK_MASTER_PORT=export S原创 2014-08-17 23:04:22 · 20477 阅读 · 0 评论 -
Spark学习2:Spark 配置以及repl运行和IDE运行
REPL 运行原创 2014-09-06 09:15:15 · 6605 阅读 · 0 评论 -
从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 二
从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 二涉及内容从Task执行,到RDD的读取,以及Shuffle数据的获取。本章主要从第二部分入手Task体系一 ShuffleMapTask的读和写二 Shuffle Block的读和写三 External Shuffle Service的设计引子上一章完成了从ShuffledRDD到Shu...原创 2018-11-16 22:30:09 · 782 阅读 · 0 评论