![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scala学习笔记
减肥中的小南瓜
这个作者很懒,什么都没留下…
展开
-
Scala textFile可以将文件作为数据处理的数据源,默认也可以设定分区。
textFile可以将文件作为数据处理的数据源,默认也可以设定分区。原创 2022-04-18 13:13:26 · 2221 阅读 · 0 评论 -
Scala wholeTextFiles : 以文件为单位读取数据 读取的结果表示为元组,第一个元素表示文件路径,第二个元素表示文件内容
wholeTextFiles : 以文件为单位读取数据 读取的结果表示为元组,第一个元素表示文件路径,第二个元素表示文件内容原创 2022-04-18 13:12:14 · 1592 阅读 · 0 评论 -
Scala 从文件中创建RDD,将文件中的数据作为处理的数据源 path路径默认以当前环境的根路径为基准。可以写绝对路径,也可以写相对路径
从文件中创建RDD,将文件中的数据作为处理的数据源 path路径默认以当前环境的根路径为基准。可以写绝对路径,也可以写相对路径原创 2022-04-18 13:10:54 · 322 阅读 · 0 评论 -
rdd.saveAsTextFile(“output“) 将处理的数据保存成分区文件
rdd.saveAsTextFile(“output”) 将处理的数据保存成分区文件 package study.spark.core.rdd.builder import org.apache.spark.{SparkConf, SparkContext} object Spark01_RDD_Memory_Par1 { def main(args: Array[String]): Unit = { // TODO 准备环境 val sparkConf =原创 2022-04-18 13:08:26 · 412 阅读 · 0 评论 -
scala RDD的并行度 & 分区
RDD的并行度 & 分区原创 2022-04-16 14:42:15 · 323 阅读 · 0 评论 -
scala makeRDD方法在底层实现时其实就是调用了rdd对象的parallelize方法。
makeRDD方法在底层实现时其实就是调用了rdd对象的parallelize方法。 package study.spark.core.rdd.builder import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark01_RDD_Memory { def main(args: Array[String]): Unit = { // TODO 准备原创 2022-04-16 14:40:57 · 892 阅读 · 0 评论 -
封装广播变量,方法广播变量
封装广播变量,方法广播变量原创 2022-04-16 14:39:38 · 59 阅读 · 0 评论 -
scala worldCount join会导致数据量几何增长,并且会影响shuffle的性能,不推荐使用
worldCount join会导致数据量几何增长,并且会影响shuffle的性能,不推荐使用原创 2022-04-16 14:38:04 · 454 阅读 · 0 评论 -
scala 自定义数据累加器:WordCount
自定义数据累加器:WordCount原创 2022-04-16 14:36:19 · 465 阅读 · 0 评论 -
scala 获取累加器的值
获取累加器的值原创 2022-04-16 14:34:59 · 403 阅读 · 2 评论 -
scala 获取系统累加器, Spark默认就提供了简单数据聚合的累加器
获取系统累加器, Spark默认就提供了简单数据聚合的累加器原创 2022-04-16 14:31:52 · 447 阅读 · 0 评论 -
scala reduce : 分区内计算,分区间计算
reduce : 分区内计算,分区间计算原创 2022-04-16 14:29:10 · 568 阅读 · 0 评论 -
scala jdbc连接学习
scala ,jdbc连接原创 2022-04-16 14:26:17 · 141 阅读 · 0 评论