Spark软件栈
F_T_D
黎明的太阳在地平线等待着不断攀爬的人
展开
-
关于RDD分区(一)
RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区,分别保存在不同的节点上,作用有二:增加并行度和减少通信开销(连接操作),例如下图: RDD分区原则: RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心(core)数目 对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通过设置spark.default.pa...原创 2018-07-19 23:11:25 · 3884 阅读 · 0 评论 -
Apache Spark常见的三大误解
最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点: 上图已经明显展示出最近五年,Apache Spark越来越受开发者们的欢迎,大家通过Google搜索更多关于Spark的信息。然而很多人对Apache Spark的认识存在误解,在这篇文章中,将介绍我们对...转载 2018-07-27 11:12:06 · 615 阅读 · 0 评论