spark
Catherine_In_Data
这个作者很懒,什么都没留下…
展开
-
pyspark UDF+ dataframe +生成式列表+ if&else
背景如果pyspark自带的方法不能满足数据处理的需要时,可自定义UDF方法。UDF建立from pyspark.sql.functions import udf# 定义udf方法def mySum(value): x = value+1 return x # 定义返回数据类型mySum = udf(mySum, FloatType())利用自定义UDF处理DataFrame## df中每列值+1df_new = df.select([mySum..原创 2020-05-18 11:06:31 · 944 阅读 · 0 评论 -
Spark学习(2): RDD
1. RDD内部运行方式(1) RDD并行操作1)RDD每个转换并行执行2)数据集转换惰性,即任何转换仅在调用数据集上的操作时才执行。eg: 数据分析案例a. 统计出某一列中不同值出现的次数b. 选出以字母A开头的。c. 将结果打印在屏幕上常见可能 串行执行以上步骤。Spark仅仅统计以A开头的项。并将结果但因在屏幕上。2. 创建RDD(1) 两种方法1) .parallelize(…) (list或array)2) 读取本地或外部的文件data_from_file = sc.te原创 2020-05-14 20:51:48 · 223 阅读 · 0 评论 -
Spark DataFrame 的函数|基本操作|集成查询记录
转载: https://blog.csdn.net/yulijianzhangminmin/article/details/53611582park DataFrame 的函数|基本操作|集成查询记录yulijianzhangminmin 2016-12-13 17:01:26 15994 收藏 7展开DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数转载 2020-05-14 18:09:22 · 296 阅读 · 0 评论 -
spark executor 数量 和task 并行数
转载:https://www.cnblogs.com/chengjunhao/p/8193374.html一.指定spark executor 数量的公式executor 数量 = spark.cores.max/spark.executor.coresspark.cores.max 是指你的spark程序需要的总核数spark.executor.cores 是指每个executor需要的核数二.指定并行的task数量spark.default.parallelism参数说明:该参数用于设置每转载 2020-05-13 18:24:23 · 4037 阅读 · 0 评论 -
Spark学习(一):基础组件
Spark各个组件,依次如下:Spark Core实现Spark节本功能, 任务调度,内存管理,错误回复,与存储系统交互。RDD 表示分布在多个计算节点上可以并行操作的元素集合。Spark Core 提供了创建和操作这些集合的多个APISpark SQL(1) 支持Hive, Parquet 以及Json.(2) 支持开发者将SQL和传统的RDD变成数据操作式结合。Spark Streaming实时数据流失计算的组件。MLIB常见机器学习库GraphX操作..原创 2020-05-08 20:05:56 · 164 阅读 · 0 评论 -
spark集群零散知识
关于安装可直接copy节点上的hadoop包,和spark包,到目的机器,就可以执行。但里面的python,java 路径需要在spark里面指定。关于运行1)clinet 模式,本地运行测试,driver/excut都在本地,日志也是在本地。2)cluster 模式,driver在集群的master上面 ,查看日志的方式:yarn logs -applicationId关...原创 2020-04-29 20:53:28 · 175 阅读 · 0 评论 -
pyspark 提交yarn-cluster模式总结
pyspark 提交yarn-cluster模式总结用conda创建虚拟python环境,在虚拟环境中安装依赖包(pyspark包不需要),配置好的环境会保存在…/anaconda/envs/ 目录下,然后利用zip打包上传到hdfs上(e.g. hdfs://HDFS80043/spark-python/pyspark_3.7.zip)对于较大型的项目,需要多个py文件依赖的,将所有...原创 2020-04-29 12:07:13 · 3866 阅读 · 0 评论 -
pyspark --Dataframe数据读取
数据读取将json, txt, csv 读取后存为spark dataframe方法一: 先读取存为RDD, list, pandas.dataframe ,然后通过 spark.createDataframe创建spark df方法二: 直接通过spark 读取,生成sparkDataframe(1)先读取为pandas.dataframe, 然后创建spark df impo...原创 2020-04-27 11:00:24 · 2835 阅读 · 2 评论 -
spark集群配置
安装hadoop待补spark安装1)下载spark安装包 跟hadoop安装包放在一个目录下(目前目录如下)2)进入conf中,配置spark-env.sh spark-defaults-conf先从以上两个临时文件cp过来一份。然后进行修改a . vim ./spark-env.sh配置hadoop路径, python编辑版本b. spark-defaluts.co...原创 2020-04-26 18:25:45 · 235 阅读 · 0 评论 -
SparkSql--Datafram
1. 合并 inner, cross, outer,full, full_outer, left, left_outer, right, right_outerfrom pyspark.sql import Rowfrom pyspark.sql import SparkSessionspark = SparkSession.builder. appName(‘my_app_name’)....原创 2020-04-26 13:43:05 · 281 阅读 · 0 评论 -
运行spark程序报错 Failed to locate the winutils binary in the hadoop binary path
问题:windows下运行spark程序报错:Failed to locate the winutils binary in the hadoop binary pathhadoop只支持linux,不支持windows 。因此缺少winutils的windows的版本。GitHub上下载,winutils的windows的版本,项目地址是:https://github.com/s...原创 2020-04-10 15:14:33 · 375 阅读 · 0 评论 -
3. spark集群运行应用程序
spark概述(1) 基于内存的计算框架(2) 与mapreduce并行计算(3) hadoop, Spark,Stormp排序DAG有向无环图拆分python致命缺陷,并发性不好。 函数编程利用并发cpu. 小规模使用。Spark生态系统(1) 应用场景批处理,(数十分钟,数小时)历史数据交互式查询 (数10秒)基于实时数据量的数据处理 (毫秒级别)(2...原创 2020-03-26 21:31:29 · 321 阅读 · 0 评论 -
2.scala基础编程
spark编程HelloWord编写交互是执行脚本文件scala交互中加载scala编译后,用java执行scala 基础编程基本操作: Int复杂操作:RichInt 富包装类函数式编程val 不可变, 声明时初始化,不可二次赋值。 val 字段名: 数据类型var 可变, 声明时初始化,后面可以再赋值。不同于val不用每次输入都带数据类型,系统会自...原创 2020-03-26 20:35:26 · 118 阅读 · 0 评论 -
1.Spark 初步了解
1. Spark结构图(1)Spark Sql 关系型数据分析(2) Spark Streaming --数据流(3) GraphX —图计算2. 生态系统Mapreduce缺点:1)表达能力不足2)IO开销大,基于磁盘完成。3)延迟比较高,Map与Reduce衔接过程,等所有Map都完成。4)迭代算法缺点明显。Spark优点:1)多住数据集操作类型2)变成模型更灵活3...原创 2020-03-26 11:18:12 · 102 阅读 · 0 评论