pyspark
天ヾ道℡酬勤
这个作者很懒,什么都没留下…
展开
-
Spark中DataFrame与Pandas中DataFrame相互转换
Spark中DataFrame前面已经给大家介绍过了,以及RDD、DataSet、DataFrame之间相互转换,而PySpark可以说是Spark和python的结合体,PySpark中也使用DataFrame,也可以与RDD、DataSet之间相互转换,其实python中有个Pandas库,也有DataFrame,是由多列Series组成的数据结构,有时需要将他们相互转化才能使用。Spark与Pandas中的DataFrame相互转换import pandas as pdfrom pyspark原创 2020-09-17 16:47:01 · 5606 阅读 · 1 评论 -
Pyspark和MySQL建立连接,并插入数据
spark连接数据库在前面有提到过,在这里就不多说了,接下来就说下使用刚和大家讲过的pyspark连接数据库,以MySQL为例,确认已经安装好了MySQL数据库在windows系统和linux下,假设数据库名叫test,表名叫student,mysql驱动包可以到官网取下,也可以到本地maven库中去拷贝,这些都不是重点,重点是要把驱动包放哪?驱动存放位置在Windows系统下放驱动包的地方已经和大家说过,其实在Linux系统下放驱动包的地方有点类似,也是找到安装jdk的目录,放在下面的\jre\lib原创 2020-08-30 17:19:39 · 3473 阅读 · 0 评论 -
PySpark简介及详细安装教程
Spark在前面已经和大家说过很多了,Python这几天也整理出了很多自己的见解,今天就和大家说下一个新的东西,PySpark,一看名字就知道和前面二者都有很大关系,那么PySpark到底是什么,和之前所说的Spark与Python有什么不一样的呢?今天就和大家简单的聊聊。回忆下Spark的简介:Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢?可能很多人还不是太理解,通俗讲就是可以分布式处理大量集数据的,将大量集数据先拆分,分别进行计算,然后再将计算原创 2020-08-29 19:50:57 · 16873 阅读 · 0 评论