spark知识
文章平均质量分 90
皓月青风
这个作者很懒,什么都没留下…
展开
-
二。spark相关Rdd
Spark-------------------- 通用性。Spark模块------------- Spark Core //核心库 Spark SQL //SQL Spark Streaming //准实时计算。 Spark MLlib //机器学习库 Spark graph //图计算Spark集群运行-------------------- 1.local //本地模...原创 2018-07-11 16:26:27 · 597 阅读 · 0 评论 -
spark第一天(十天)
一,安装过程1.准备环境2.安装JDK3.上传spark安装包4.解压spark并修改配置文件(两个配置文件,第一个配置文件添加了3个配置文件)5.将配置好的spark安装程序拷贝给其他机器for i in {5..8}; do scp -r /bigdata/spark-2.2.0-bin-hadoop2.7/ node-$i:/bigdata; done 6.启动spark (...原创 2018-07-20 16:06:59 · 3055 阅读 · 0 评论 -
spark第二天(十天)
一.Spark常用算子讲解Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1. Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。...转载 2018-07-21 11:01:19 · 515 阅读 · 0 评论 -
spark第三天(十天)
一.Spark函数详解系列之RDD基本转换RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作...转载 2018-07-21 14:51:13 · 416 阅读 · 1 评论