![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Rookie_Spark
文章平均质量分 92
zlbingo
这个作者很懒,什么都没留下…
展开
-
Pyspark之map与flatMap
map和flatMapmap????功能:Return a new RDD by applying a function to each element of this RDD. 将函数作用于RDD中的每个元素,将返回值构成新的RDD。☀️语法>>> rdd = sc.parallelize(["b", "a", "c"])>>> rdd.map(lambda x: (x, 1)).collect()[('b', 1), ('a', 1), ('c'原创 2021-01-25 16:03:01 · 3414 阅读 · 0 评论 -
Pyspark累加器(accumulator)陷阱
累加器(accumulator)陷阱【前置知识】:Spark惰性求值运算机制,持久化的使用。首先给出一个例子:from pyspark import SparkContext, SparkConfconf = SparkConf().setMaster('local[*]').setAppName('rookie')sc = SparkContext(conf=conf)acc = sc.accumulator(0)def judge_even(row_data): ""原创 2021-01-14 20:37:23 · 1228 阅读 · 0 评论 -
spark算子之reduce和reduceByKey(python)
reduce和reduceByKey⭐️reducereduce(binary_function)reduce将RDD中的元素前两个传给binary_function函数,产生一个新的return值,新产生的return值与RDD中的下一个元素组成两个元素,再被传给函数,知道最后一个值为止。binary_function为一个二元函数from pyspark import SparkContextfrom pyspark import SparkConfdef addnum(x, y原创 2020-08-25 16:07:37 · 1202 阅读 · 0 评论