Python
XiaodunLP
祝福自己.^_^
展开
-
Python基础教程(一)
Python基础教程一、简介Python的历史和为什么学习Python这里就不在赘述了。处于工作原因,对Python要进行深入的学习和研究,这里主要针对的就是Python具有的丰富和强大的库。Python目前有两个版本,Python2和Python3。现阶段大部分公司用的是Python2,但是这里我基于Python3来记录的。Life is shot, you need Pytho...原创 2019-04-23 00:42:29 · 20124 阅读 · 5 评论 -
PySpark----Transformation操作
1.cache()使用默认的缓存级别MEMORY_ONLY将数据进行持久化持久化级别由如下的取值:可以调用rdd上的getStorageLevel获取当前rdd对应的持久化级别from pyspark import *import numpy as nprdd = sc.parallelize(np.arange(10),3)rdd.getStorageLevel()r...原创 2019-07-07 22:09:15 · 1393 阅读 · 0 评论 -
Python: 浅淡Python中的属性(property)
起源:项目过程中需要研究youtube_dl这个开源组件,翻阅其中对类的使用,对比c#及Delphi中实现,感觉Python属性机制挺有意思。区别与高级编程语言之单一入口,在类之属性这一方面,它随意的太多,以致于习惯了高级语言的严谨,对如此随意心里倒是有些不安。也难怪,因为其数据类型弱限制性,往往一个函数返回了一个结果,追溯此返回值类型,有时需要费上许多工夫!我不是随意的人,但随意起来我还...转载 2019-07-07 22:17:40 · 346 阅读 · 0 评论 -
Spark与Pandas中DataFrame对比(详细)
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据延迟机制not laz...转载 2019-06-27 18:55:50 · 1075 阅读 · 0 评论 -
PySpark ---- Sparkcontext编程入口
SparkContext是PySpark的编程入口,作业的提交,任务的分发,应用的注册都会在SparkContext中进行。一个SparkContext实例代表着和Spark的一个连接,只有建立了连接才可以把作业提交到集群中去。实例化了SparkContext之后才能创建RDD和Broadcast广播变量。 1.创建方式 1.1 通过SparkSession获取SparkContext对...原创 2019-07-14 10:15:48 · 6443 阅读 · 0 评论 -
PySpark----Action操作
目录1.aggregate(zeroValue, seqOp, combOp)2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= )3.collect方法4.collectAsMap()5.count()方法6.countApprox(timeout, conf...原创 2019-07-07 12:36:03 · 1421 阅读 · 0 评论 -
PySpark---SparkSQL中的DataFrame(一)
DataFrame是按照列名来组织数据的分布式数据集,是SparkSQL最重要的抽象。由于基于DataFrame的算法在性能和优化的余地上(Tungstun和Catalyst)有更大的空间,因此,现在Spark里基于DataFrame的机器学习库ml及Structured Streaming都采用这种数据结构。而且未来spark基于RDD的机器学习库mllib不会再更新,最新的算法都采用基于Dat...原创 2019-08-01 13:01:57 · 1498 阅读 · 0 评论 -
PySpark---SparkSQL中的DataFrame(二)
1.colRegex(colName):"""Selects column based on the column name specified as a regex and returns itas :class:`Column`."""用正则表达式的方式返回我们想要的列。df.show()# 这里注意`的使用df.select(df.colRegex("`(grad...原创 2019-08-01 17:29:29 · 1037 阅读 · 0 评论