spark
文章平均质量分 90
zuolixiangfisher
有空一起钓鱼啊
展开
-
Spark学习笔记1-RDD编程
因为Spark本身是由Scala编写的,故文中仅以Scala API为例,python和java的API暂时不举例1、RDD基础Spark中的RDD ( Resilient Distributed Dataset ) 是一个不可变的分布式对象集合,也称为弹性分布式数据集。在Spark中对数据的操作无非是创建RDD,转化已有RDD,以及调用RDD操作进行求值。2、RDD创建创建RDD原创 2017-12-18 14:43:15 · 405 阅读 · 0 评论 -
Spark MLlib算法系列之NaiveBayes
朴素贝叶斯原创 2018-07-24 22:40:04 · 1000 阅读 · 0 评论 -
Spark常见20个面试题(含大部分答案)
1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖?窄依赖就是一个父RDD分区对应一个子RDD分区,如map,filter或者多个父RDD分区对应一个子RDD分区,如co-partioned join宽依赖是一个父RDD分区对应非全部的子RDD分区,如groupByKey,ruduceByKey或者一个父RDD分区对应全部的子RDD分区,如未经协同划分的joinhttps:/......原创 2019-04-29 17:19:05 · 34666 阅读 · 0 评论