Spark
文章平均质量分 89
YancyChang
每天进步一点点...
展开
-
Spark的算子的分类
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 ...转载 2017-12-15 22:48:13 · 787 阅读 · 0 评论 -
Spark函数详解系列之RDD基本转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Ation...转载 2017-12-15 22:44:09 · 2656 阅读 · 0 评论 -
Scala基础
1、 private:java允许本类、内部类及外部类访问本类的私有变量scala只允许本类和内部类访问本类的私有变量2、 protected:java允许子类和同包的其他类访问scala只允许子类访问3、 public:一样4、 函数传值调用和传名调用:(1) 传值:参数(x:Int)(2) 传名:参数(x: => Int)...原创 2018-05-09 22:16:18 · 207 阅读 · 0 评论 -
IntelliJ IDEA开发Scala代码,与java集成,maven打包编译
原文https://www.cnblogs.com/rightmin/p/6207665.html今天尝试了一下在IntelliJ IDEA里面写Scala代码,并且做到和Java代码相互调用,折腾了一下把过程记录下来。首先需要给IntelliJ IDEA安装一下Scala的插件,在IDEA的启动界面点击 Configure -> Plugins,然后搜索Scala,点击 Insta...转载 2018-12-05 10:30:04 · 2126 阅读 · 0 评论 -
spark shuffle过程
关于spark shuffle过程的理解:https://blog.csdn.net/quitozang/article/details/80904040spark基础之shuffle机制和原理分析:https://blog.csdn.net/zhanglh046/article/details/78360762Spark shuffle流程细则:https://blog.csdn.net...转载 2018-12-19 13:52:38 · 242 阅读 · 0 评论 -
Spark学习笔记
一、安装1、上传并解压。2、修改spark/conf/spark_env.sh:export JAVA_HOME=/usr/jdk1.8.0_152/export SPARK_MASTER_IP=hadoop1 expart SPARK_MASTER_PORT=7077 export HADOOP_CONF_DIR=/usr/ha...原创 2018-12-11 17:02:17 · 685 阅读 · 0 评论