pyspark
晓东邪
扎实基础,记录学习点滴。
展开
-
使用pyspark操作数据库
文章目录使用`pyspark`操作数据库1.`sqlite`篇使用pyspark操作数据库1.sqlite篇# -*- coding: utf-8 -*-# @Author: xiaodong# @Date : 2020/4/4from pyspark.sql import SparkSessionif __name__ == '__main__': spark = ...原创 2020-04-04 23:22:14 · 1170 阅读 · 0 评论 -
pyspark 概述
一、pyspark安装略import pysparkpyspark.__version__#>>> '2.4.3'from pyspark.sql import sparkSessionspark = sparkSession.builder.appName("your app name").getOrCreate()rdd = spark.spark...原创 2020-03-28 15:22:47 · 320 阅读 · 0 评论 -
pyspark 给dataframe增加新的一列
给pyspark中的dataframe新增列熟悉pandas的pythoner 应该知道给dataframe增加一列很容易,直接以字典形式指定就好了,pyspark中就不同了,摸索了一下,可以使用如下方式增加from pyspark import SparkContextfrom pyspark import SparkConffrom pypsark.sql import SparkSe...原创 2019-12-12 23:08:30 · 12563 阅读 · 0 评论 -
pyspark 使用小记
使用pyspark时有时候会报错如下:ValueError: Cannot run multiple SparkContexts at once; existing SparkContex…这是因为spark不允许一次运行多个context,如果想重新实例化一个,需要关闭当前,随便搜一下这种报错解决方式:首先执行:sc.stop() ...但是如果你是在shell中完成的,而且不凑巧也不...原创 2019-12-11 19:52:30 · 487 阅读 · 0 评论