![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 85
苏然Vincent
这个作者很懒,什么都没留下…
展开
-
Spark学习1: 基础函数功能解读
Spark已经定义好了一些基本的transformation 和 action的操作,下面我们yitanjiuji原创 2014-08-17 09:05:48 · 31485 阅读 · 6 评论 -
从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 一
@TOC从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 涉及内容从Task执行,到RDD的读取,以及Shuffle数据的获取。 Task体系 ShuffleMapTask的读和写 Shuffle Block的读和写 External Shuffle Ser...原创 2018-11-10 21:25:31 · 777 阅读 · 0 评论 -
Spark RDD依赖关系小结
本图暂时只给了非常简单的OneToOneDependency的RDD依赖关系 Discuss stage根据dependency类型的划分,没有详细给出 stage的依赖关系没有给出 shuffle dependency没有给出原创 2015-05-04 14:52:46 · 1625 阅读 · 0 评论 -
Spark Shuffle初探
之前一直疑惑Shuffle过程中的读和写究竟是在哪里实现的,一直误解读和写都是在RDD的转换过程中实现的,但是追踪代码reduceByKey,却只找到了生成ShuffledRDD的过程,然后在ShuffledRDD中的compute函数中有读取过程,那么写入过程究竟在哪里呢?? PairRDDFunctions def combineByKey[C](createCombiner: V原创 2015-05-12 08:00:47 · 4321 阅读 · 0 评论 -
Spark源码系列(二)RDD详解
http://www.cnblogs.com/cenyuhai/p/3779125.html 最近在阅读源码,发现这篇博客内容非常好,有助于快速理解代码。 1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilien转载 2015-04-11 13:52:09 · 6896 阅读 · 0 评论 -
Spark 阅读资料汇总
参考资料(reference) Introduction to Spark Internals http://files.meetup.com/3138542/dev-meetup-dec-2012.pptxResilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computin原创 2014-09-06 19:26:21 · 11604 阅读 · 3 评论 -
Getting Spark Setup in Eclipse
Spark is a new distributed programming framework for analyzing large data sets. It took me a few steps to get the system setup in Eclipse, so I thought I’d write them down. Hopefully this post sav转载 2014-09-11 23:26:51 · 4500 阅读 · 0 评论 -
Spark:大数据的“电光石火”
RDD是Spark的核心gaini Resilient Distributed Dataset • A list of partitions • A function for computing each split • A list of dependencies on other RDDs • Optionally, a Partitioner for key-value RDDs转载 2014-08-17 09:07:43 · 2147 阅读 · 0 评论 -
Spark导入eclipse
用了eclipse好多年,希望可以把spark带入eclipse,然后阅读源码会方便些。~~~~(>_<)~~~~ 5555原创 2014-09-11 23:06:50 · 11178 阅读 · 2 评论 -
Spark 运行与配置
集群配置 0.9版本 spark-env.sh export JAVA_HOME= export SPARK_MASTER_IP= export SPARK_WORKER_CORES= export SPARK_WORKER_INSTANCES= export SPARK_WORKER_MEMORY= export SPARK_MASTER_PORT= export S原创 2014-08-17 23:04:22 · 20427 阅读 · 0 评论 -
Spark学习2:Spark 配置以及repl运行和IDE运行
REPL 运行原创 2014-09-06 09:15:15 · 6551 阅读 · 0 评论 -
从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 二
从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读 二 涉及内容从Task执行,到RDD的读取,以及Shuffle数据的获取。本章主要从第二部分入手 Task体系 一 ShuffleMapTask的读和写 二 Shuffle Block的读和写 三 External Shuffle Service的设计 引子 上一章完成了从ShuffledRDD到Shu...原创 2018-11-16 22:30:09 · 738 阅读 · 0 评论