pyspark
文章平均质量分 58
zuoseve01
搬运工
展开
-
0483-如何指定PySpark的Python运行环境
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:https://github.com/fayson/cdhproject提示:代码块部分可以左右滑动查看噢1文档编写目的在使用PySpark进行开发时,由于不同的用户使用的Python环境不同,有基于Python2的开发也有基于Python3的开发,这个时候会开发的PySpark作业不能同时兼容Python2和Python3环境从而导致作业运行失败。那Fayson接下来.转载 2021-02-03 11:55:32 · 604 阅读 · 0 评论 -
PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理
文章目录1、-------- 查 -------- --- 1.1 行元素查询操作 --- **像SQL那样打印列表前20元素** **以树的形式打印概要** **获取头几行到本地:** **查询总行数:** 取别名 **查询某列为null的行:** **输出list类型,list中每个元素是Row类:** 查询概况 去重set操作 随机抽样转载 2021-01-08 17:53:47 · 1493 阅读 · 0 评论 -
pyspark dataframe 字段类型转换 pandas和pyspark的dataframe互转
知识点:1、使用pyspark读取csv:spark.read.format("csv").load('/user/data.csv',header=True, inferSchema="true")2、dataframe补充空值:fillna()3、dataframe字段表示方式:"APP_HOBY_CASH_LOAN"或df.APP_HOBY_CASH_LOAN或data_df["APP_HOBY_CASH_LOAN"]pysparkdataframe使用astype实现data..转载 2021-01-08 17:47:28 · 1448 阅读 · 0 评论 -
Spark(Hive) SQL数据类型使用详解(Python)
Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”。如果“表”来自于Hive,它的模式(列名、列类型等)在创建时已经确定,一般情况下我们直接通过Spark SQL分析表中的数据即可;如果“表”来自“临时表”,我们就需要考虑两个问题:(1)“临时表”的数据是哪来的?(2)“临时表”的模式是什么?通过Spark的官方文档可以了解到,生成一张“临时表”需要两个要素:(1)关联着数据的RDD;(2)数据模式;也就是说,我...转载 2021-01-05 14:04:02 · 761 阅读 · 0 评论 -
PySaprk 将 DataFrame 数据保存为 Hive 分区表--转载
创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc = HiveContext(sc)1. Spark创建分区表# 可以将append改为overwrite,这样如果表已存在会删掉之前的表,新建表df.write.sa转载 2020-09-04 11:22:27 · 1553 阅读 · 0 评论 -
pyspark-Sparkconf()--转载
from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSessiondef create_sc(): sc_conf = SparkConf() sc_conf.setMaster('spark://master:7077') sc_conf.setAppName('my-app') sc_conf.set('spark.executor.memory', '2g') #ex.转载 2020-09-04 11:16:20 · 811 阅读 · 0 评论 -
PySpark 入门--转载
什么是 SparkContext?Spark 附带了一个已经安装了 PySpark 的交互式 Python shell。PySpark 将在 PySpark Shell 中自动为您创建一个 SparkContext。SparkContext 是进入 Spark 世界的入口点。入口点是连接到 Spark 集群的一种方法。我们可以通过 sc.variable 来使用 SparkContext。在下面的示例中,我们检索 SparkContext 版本和 Python 版本的 SparkContext。转载 2020-08-25 16:20:25 · 327 阅读 · 0 评论 -
PySaprk 将 DataFrame 数据保存为 Hive 分区表--转载
PySaprk 将 DataFrame 数据保存为 Hive 分区表创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()sc = spark.sparkContexthc = HiveContext(sc)1 2 3 4 51. Spark创建分区表# 可以转载 2020-08-19 10:59:08 · 1506 阅读 · 0 评论 -
在python中使用pyspark读写Hive数据操作 --转载
1、读Hive表数据pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语句从hive里面查询需要的数据,代码如下:frompyspark.sqlimportHiveContext,SparkSession _SPARK_HOST="spark://spark-master:7077" _APP_NAME="test" spark_sessi...转载 2020-08-17 21:39:27 · 1900 阅读 · 0 评论 -
PySpark-DataFrame各种常用操作举例--转载
最近开始接触pyspark,其中DataFrame的应用很重要也很简便。因此,这里记录一下自己的学习笔记。详细的应用可以参看pyspark.sql module。这是官网文档,里面记录了详细的DataFrame使用说明。目录一、创建DF或者读入DF二、查2.1行元素查询操作2.2列元素操作2.3排序2.4 抽样三、增、改四、合并 join / union4.1 横向拼接union4.2 Join根据条件4.3求并集、交集4.4分割:行转...转载 2020-08-12 17:47:58 · 2148 阅读 · 0 评论 -
PySpark SQL常用语法--转载
许多数据分析师都是用HIVE SQL跑数,这里我建议转向PySpark:PySpark的语法是从左到右串行的,便于阅读、理解和修正;SQL的语法是从内到外嵌套的,不方便维护; PySpark继承Python优美、简洁的语法,同样的效果,代码行数可能只有SQL的十分之一; Spark分转化操作和行动操作,只在行动操作时才真正计算,所以可以减少不必要的计算时间; 相对于SQL层层嵌套的一个整体,PySpark可以拆分成多步,并可以十分方便地把中间结果保存为变量,更有利于调试和修改; PySpark可转载 2020-08-12 17:44:15 · 1221 阅读 · 1 评论 -
pyspark dataframe 增加一列
新生成一列常量:需要使用lit函数from pyspark.sql.functions import litdf.withColumn('your_col_name' ,lit(your_const_var))新生成一列:利用自定义函数对某一列进行运算,生成新的一列from pyspark.sql.functions import udf,colfrom pyspark.sql.types import StringTypedef func(s): return s[:3]my_原创 2020-08-12 15:55:01 · 1270 阅读 · 0 评论