spark
spark 安装 sql
姜同学的学习笔记
这个作者很懒,什么都没留下…
展开
-
Spark: ------ 从mysql、hbase 读取数据,
导入依赖 <!--MySQL依赖--> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version> </dependency>原创 2020-07-09 14:55:19 · 155 阅读 · 0 评论 -
Spark: ------ 共享变量、广播变量、计数器
共享变量 当RDD中的转换算子需要用到定义Driver中地变量的时候,计算节点在运行该转换算子之前,会通过网络将Driver中定义的变量下载到计算节点。同时如果计算节点在修改了下载的变量,该修改对Driver端定义的变量不可见。 scala> var i:Int=0 i: Int = 0 scala> sc.textFile("file:///root/t_word").foreach...原创 2020-04-03 23:35:47 · 209 阅读 · 0 评论 -
Spark: ------ RDD的Actions的动作算子
Spark任何一个计算任务,有且仅有一个动作算子,用于触发job的执行。将RDD中的数据写出到外围系统或者传递给Driver主程序。 reduce( func ) 该算子能够对远程结果进行计算,然后将计算结果返回给Driver。计算文件中的字符数 scala> sc.textFile("file:///root/t_word").map(_.length).reduce(_+_) r...原创 2020-04-03 23:22:32 · 147 阅读 · 0 评论 -
Spark: ------ RDD的xxxByKey-算子
在Spark中专门针对RDD[(K,V)]类型数据集提供了xxxByKey算子实现对RDD[(K,V)]类型针对性实现计算。 groupByKey([ numPartitions ]) 类似于MapReduce计算模型。将RDD[(K, V)] 转换为RDD[ (K, Iterable)] scala> var lines=sc.parallelize(List("this is goo...原创 2020-04-03 00:18:10 · 127 阅读 · 0 评论 -
Spark: ------ RDD的Transformations转换算子
map 将一个RDD[U] 转换为 RRD[T]类型。在转换的时候需要用户提供一个匿名函数 func: U => T scala> var rdd:RDD[String]=sc.makeRDD(List("a","b","c","a")) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[120] at make...原创 2020-04-02 18:17:06 · 142 阅读 · 0 评论 -
Spark: ------ RDD的概述、容错、缓存、宽窄依赖。
RDD概述 Spark计算中一个重要的概念就是可以跨越多个节点的可伸缩分布式数据集 RDD(resilient distributed dataset) Spark的内存计算的核心就是RDD的并行计算。RDD可以理解是一个弹性的,分布式、不可变的、带有分区的数据集合,所谓的Spark的批处理,实际上就是正对RDD的集合操作,RDD有以下特点: ...原创 2020-04-01 13:40:32 · 252 阅读 · 0 评论 -
Spark:------ 架构概述、环境配置测试、wordCount案例
背景介绍 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。 MapReduce VS Spark MapReduce作为第一代大数据处理框架,在设计初期只...原创 2020-04-01 11:57:54 · 201 阅读 · 0 评论