PySpark
XiaodunLP
祝福自己.^_^
展开
-
PySpark----Transformation操作
1.cache()使用默认的缓存级别MEMORY_ONLY将数据进行持久化持久化级别由如下的取值:可以调用rdd上的getStorageLevel获取当前rdd对应的持久化级别from pyspark import *import numpy as nprdd = sc.parallelize(np.arange(10),3)rdd.getStorageLevel()r...原创 2019-07-07 22:09:15 · 1393 阅读 · 0 评论 -
PySpark ---- Sparkcontext编程入口
SparkContext是PySpark的编程入口,作业的提交,任务的分发,应用的注册都会在SparkContext中进行。一个SparkContext实例代表着和Spark的一个连接,只有建立了连接才可以把作业提交到集群中去。实例化了SparkContext之后才能创建RDD和Broadcast广播变量。 1.创建方式 1.1 通过SparkSession获取SparkContext对...原创 2019-07-14 10:15:48 · 6443 阅读 · 0 评论 -
PySpark----Action操作
目录1.aggregate(zeroValue, seqOp, combOp)2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= )3.collect方法4.collectAsMap()5.count()方法6.countApprox(timeout, conf...原创 2019-07-07 12:36:03 · 1421 阅读 · 0 评论 -
PySpark---SparkSQL中的DataFrame(三)
1.filter(condition)"""Filters rows using the given condition.:func:`where` is an alias for :func:`filter`.:param condition: a :class:`Column` of :class:`types.BooleanType` or a string of SQL ...原创 2019-08-03 12:41:08 · 900 阅读 · 0 评论 -
PySpark---SparkSQL中的DataFrame(四)
1.replace(to_replace, value=_NoValue, subset=None)"""Returns a new :class:`DataFrame` replacing a value with another value.:func:`DataFrame.replace` and :func:`DataFrameNaFunctions.replace` areal...原创 2019-08-04 00:32:55 · 2677 阅读 · 0 评论 -
PySpark---SparkSQL中的DataFrame(一)
DataFrame是按照列名来组织数据的分布式数据集,是SparkSQL最重要的抽象。由于基于DataFrame的算法在性能和优化的余地上(Tungstun和Catalyst)有更大的空间,因此,现在Spark里基于DataFrame的机器学习库ml及Structured Streaming都采用这种数据结构。而且未来spark基于RDD的机器学习库mllib不会再更新,最新的算法都采用基于Dat...原创 2019-08-01 13:01:57 · 1498 阅读 · 0 评论 -
PySpark---SparkSQL中的DataFrame(二)
1.colRegex(colName):"""Selects column based on the column name specified as a regex and returns itas :class:`Column`."""用正则表达式的方式返回我们想要的列。df.show()# 这里注意`的使用df.select(df.colRegex("`(grad...原创 2019-08-01 17:29:29 · 1037 阅读 · 0 评论