spark
zyc920716
这个作者很懒,什么都没留下…
展开
-
讲个故事:一个SparkSQL作业的一生
Spark是时下很火的计算框架,由UC Berkeley AMP Lab研发,并由原班人马创建的Databricks负责商业化相关事务。而SparkSQL则是Spark之上搭建的SQL解决方案,主打交互查询场景。人人都说Spark/SparkSQL快,各种Benchmark满天飞,但是到底Spark/SparkSQL快么,或者快在哪里,似乎很少有人说得清。因为Spark是基于内转载 2017-03-28 17:28:06 · 550 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于科学网翻译基础上进行优化、修改、补充,这篇译文翻译得很不错。在此基础上,我增加了来自英文原文的图和表格数据,以及译文中缺少的未翻译的部分。如果翻转载 2017-03-29 14:07:29 · 421 阅读 · 0 评论 -
spark executor
Spark core设置Core是指CPU计算核心,这个在spark集群中很重要,为集群配置更多的Core能意味集群运算能力更强,但这也不是绝对的。下面主要来看两个参数: spark.cores.max 这个参数是指运行一个application最大分配的core个数,设置这个参数,spark会尽可能的申请足够多的core来运行application。 Spark.原创 2017-06-06 18:06:11 · 5805 阅读 · 0 评论