Spark
文章平均质量分 95
data大柳
在大数据的海洋,一条大汉在裸泳,游得飞快(∩_∩)
展开
-
spark的python环境及No module问题(超详细)
Spark集群与python的结合从上一篇文章我们知道,spark有几种资源管理方式,具体可参考:spark几种集群管理器总结如果Spark Application运行在yarn集群上,在这种运行模式下,资源的管理与协调会统一由yarn处理,而这种模式就能够实现基于yarn集群运算的Application的多样性,可以支持运行MapReduc程序、HBase集群、Storm集群,还可以运行使用Python开发的机器学习应用程序,等等。我们知道,Spark on YARN又分为client模式和clus原创 2021-01-07 16:54:57 · 3666 阅读 · 1 评论 -
spark几种集群管理器总结(超详细)
介绍当前支持三种集群管理器:Spark独立集群管理器(Standalone),一种简单的Spark集群管理器,很容易建立集群,基于Spark自己的Master-Worker集群Apache Mesos,一种能够运行Haoop MapReduce和服务应用的集群管理器Hadoop YARN,Spark可以和Hadoop集成,利用Yarn进行资源调度如果在集群中仅有Spark程序,那么可以使用Spark独立的集群管理器。如果有其他的mapreduce程序,那么需要使用Yarn或者Mesos管理器。原创 2021-01-07 13:52:01 · 3659 阅读 · 1 评论 -
搞懂spark-submit参数及应用程序提交(详细)
介绍当前支持三种集群管理器: Spark独立集群管理器,一种简单的Spark集群管理器,很容易建立集群,基于Spark自己的Master-Worker集群 Apache Mesos,一种能够运行Haoop MapReduce和服务应用的集群管理器 Hadoop YARN,Spark可以和Hadoop集成,利用Yarn进行资源调度 如果在集群中仅有Spark程序,那么可以使用Spark独立的集群管理器。如果有其他的mapreduce程序,那么需要使用Yarn或者Mesos管理原创 2020-12-31 15:54:55 · 12581 阅读 · 2 评论 -
一文搞懂spark基本架构及原理(超详细)
Spark的资源管理架构首先介绍一下Spark的资源管理架构。Spark集群考虑到了未来对接一些更强大的资源管理系统(如Yarn、Mesos等),没有在资源管理的设计上对外封闭,所以Spark架构设计时将资源管理抽象出了一层,通过这种抽象能够构建一种插件式的资源管理模块。见上图,Master是Spark的 主控节点,在实际的生产环境中会有多个Master,只有一个Master处于active状态。Worker是Spark的工作节点,向Master汇报...原创 2020-12-30 20:21:00 · 6362 阅读 · 4 评论 -
多种pyspark模型评估方式(超详细)
在PySpark中包含MLlib和ML两种机器学习的包,二者的主要区别在于MLlib包的操作数据格式是RDD,ML包的操作数据格式是DataFrame。而DataFrame的性能要远远好于RDD,并且MLlib已经不再被维护了,所以本文章主要记录基于ML的模型评估,MLlib不做过多涉及。基于pyspark开发一个分布式机器训练平台,用来做二分类判别,对二分类模型评估方法有很多,具体可看另一博文:模型性能度量,分类算法评价本文记录的是查全率、查准率及AUC等几种评估指标的实现方式,首先对数据进行处理、拆原创 2020-12-29 19:45:56 · 5462 阅读 · 4 评论 -
pyspark中dataframe列数据设置小数点位数
对pyspark中dataframe某些列值保留4位小数,总结两种方法:方法1:data = data.selectExpr('scene_id','user_id','round(PRO_832C001,4) as PRO_832C001','round(PRO_832C002,4) as PRO_832C002','round(PRO_832C003,4) as PRO_832C003','round(PRO_832C004,4) as PRO_832C004');方法2:from pyspa原创 2020-10-29 11:47:12 · 5362 阅读 · 0 评论 -
pyspark列分割(列数据拆分)
在pyspark里进行新账期数据的预测后,生成预测的结果。见下图:probability 格式为 [0.625,0.365],但我需要 probability 里预测为1的概率值,所以得处理一下,经过实践,总结两种方法,做个记录。方法1:from pyspark.sql.functions import regexp_replacepredictionsClassifier = predictionsClassifier.withColumn("probability", predictions原创 2020-10-27 17:37:33 · 3340 阅读 · 0 评论 -
pyspark 遍历
最近遇到一个小问题,我要用pyspark实现数据表的行列遍历,在python里很容易实现,但是用pyspark没实现过,遇到一点小问题,但摸索了一会也实现了,记录如下:描述下表(data1)为某数据大宽表(data2)各列缺失数据的处理方法配置表,其中COLUMN_NAME为数据大宽表的特征名称,NULL_PROCESS_METHON为各特征列缺失数据的处置办法,假设处理方式共有4种:drop、zero、mean、other。需求遍历配置表(data1)的COLUMN_NAME,获取相应的缺失值处原创 2020-09-17 15:34:38 · 7447 阅读 · 2 评论 -
超详细:大数据框架Spark和Hadoop了解及对比
谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题?也总有人会问这两者谁更好的问题,而事实上,在设计之初,Hadoop和Spark是为了实现在同一个团队内的协同运行,而不是非要分出个谁优谁劣。Hadoop与Spark之间,各自有各自的优势和不足,共同运用起来才能更好地完成大数据的处理。一、介绍HadoopHadoop,是分布式管理、存储、计算的生态系统,也原创 2020-08-18 15:06:42 · 3142 阅读 · 0 评论 -
pyspark安装系列(2):Spark里使用anaconda(详细部署流程)
介绍上一篇文章,详细介绍了如何在Linux系统安装Spark。详细了解请点击:Linux系统安装单机版Spark但还遗留一个问题,就是PySpark使用的是Linux默认的Python2.7.5版本(见下图)。对于习惯使用Python3.0版本的我来说感觉超级不爽,另外笔者本人更喜欢Anaconda,特别对于主要使用工具是Python的算法人员来说,使用Anaconda是很爽的。Anac...原创 2020-04-03 14:20:12 · 3538 阅读 · 0 评论 -
pyspark安装系列(1):Linux系统安装单机版Spark
背景最近要开发智能推荐引擎,后期系统需要搭载在Spark集群上,前期要开发相关脚本,需要一个测试环境,所以向公司申请了一台主机,平台是Linux,操作系统CentOS,背景交代完毕,现在需要在单机Linux主机上部署Spark。准备:JDK:1.8Spark:2.4.5Linux系统平台:本文所用Linux版本为CentOS 7步骤第一步:下载并解压JDK首先去Oracle官网现在...原创 2020-03-31 20:30:10 · 3000 阅读 · 3 评论